quarta-feira, 21 de setembro de 2011

Seria o zero um coringa?

As vezes, profissionais que trabalham com análise/processamento de dados se deparam com um problema comum e muito difícil de lidar: a ausência de dados.

Por exemplo, dados de cadastro de clientes incompletos ou relatórios em que existem campos que não foram preenchidos.

Não me refiro aos dados estarem errados, mas sim a ausência destes.

Ocorre-nos então atribuir um valor para substituir o espaço em branco, neste momento a pergunta "que valor colocar?" e a resposta mais comum: 0 (zero).

Realmente é possível colocar zero no lugar dos dados ausentes?

É importante entender que o zero é um número como qualquer outro, tendo um valor (significado) próprio.

Se estamos analisando dados de ocorrência de eventos e em um determinado período não ocorreu o evento em questão, pode ser que este campo esteja em branco e o zero é o substituto ideal, pois ocorreram zero vezes o evento.

Porém, se estamos analisando o tempo entre ocorrências de eventos, então precisamos estar entre duas ocorrências para podermos calcular o tempo entre elas, porém antes da primeira ou depois da última não é possível calcular o tempo entre as ocorrências. Neste caso, realmente é impossível determinar o tempo entre ocorrências, e se precisamos ter um valor numérico o zero não resolve o problema, pois, neste caso, o zero significa dizer que o tempo entre duas ocorrências do evento é zero, ou seja, o evento ocorre sempre e na verdade este não ocorreu.

Para o caso em que necessita-se determinar uma estimativa de tempo entre ocorrências, o valor mais adequado é a média dos demais valores para esta informação, pois a média, neste caso, fornece o valor esperado para o evento.

Para finalizar, o analista de dados deve ter conciência da importância do seu trabalho e que cada valor utilizado tem um significado próprio, seja este 0, 1, 2, ... ou um valor negativo ou qualquer que seja.

Nenhum comentário: