As vezes, profissionais que trabalham com análise/processamento de dados se deparam com um problema comum e muito difícil de lidar: a ausência de dados.
Por exemplo, dados de cadastro de clientes incompletos ou relatórios em que existem campos que não foram preenchidos.
Não me refiro aos dados estarem errados, mas sim a ausência destes.
Ocorre-nos então atribuir um valor para substituir o espaço em branco, neste momento a pergunta "que valor colocar?" e a resposta mais comum: 0 (zero).
Realmente é possível colocar zero no lugar dos dados ausentes?
É importante entender que o zero é um número como qualquer outro, tendo um valor (significado) próprio.
Se estamos analisando dados de ocorrência de eventos e em um determinado período não ocorreu o evento em questão, pode ser que este campo esteja em branco e o zero é o substituto ideal, pois ocorreram zero vezes o evento.
Porém, se estamos analisando o tempo entre ocorrências de eventos, então precisamos estar entre duas ocorrências para podermos calcular o tempo entre elas, porém antes da primeira ou depois da última não é possível calcular o tempo entre as ocorrências. Neste caso, realmente é impossível determinar o tempo entre ocorrências, e se precisamos ter um valor numérico o zero não resolve o problema, pois, neste caso, o zero significa dizer que o tempo entre duas ocorrências do evento é zero, ou seja, o evento ocorre sempre e na verdade este não ocorreu.
Para o caso em que necessita-se determinar uma estimativa de tempo entre ocorrências, o valor mais adequado é a média dos demais valores para esta informação, pois a média, neste caso, fornece o valor esperado para o evento.
Para finalizar, o analista de dados deve ter conciência da importância do seu trabalho e que cada valor utilizado tem um significado próprio, seja este 0, 1, 2, ... ou um valor negativo ou qualquer que seja.
Por exemplo, dados de cadastro de clientes incompletos ou relatórios em que existem campos que não foram preenchidos.
Não me refiro aos dados estarem errados, mas sim a ausência destes.
Ocorre-nos então atribuir um valor para substituir o espaço em branco, neste momento a pergunta "que valor colocar?" e a resposta mais comum: 0 (zero).
Realmente é possível colocar zero no lugar dos dados ausentes?
É importante entender que o zero é um número como qualquer outro, tendo um valor (significado) próprio.
Se estamos analisando dados de ocorrência de eventos e em um determinado período não ocorreu o evento em questão, pode ser que este campo esteja em branco e o zero é o substituto ideal, pois ocorreram zero vezes o evento.
Porém, se estamos analisando o tempo entre ocorrências de eventos, então precisamos estar entre duas ocorrências para podermos calcular o tempo entre elas, porém antes da primeira ou depois da última não é possível calcular o tempo entre as ocorrências. Neste caso, realmente é impossível determinar o tempo entre ocorrências, e se precisamos ter um valor numérico o zero não resolve o problema, pois, neste caso, o zero significa dizer que o tempo entre duas ocorrências do evento é zero, ou seja, o evento ocorre sempre e na verdade este não ocorreu.
Para o caso em que necessita-se determinar uma estimativa de tempo entre ocorrências, o valor mais adequado é a média dos demais valores para esta informação, pois a média, neste caso, fornece o valor esperado para o evento.
Para finalizar, o analista de dados deve ter conciência da importância do seu trabalho e que cada valor utilizado tem um significado próprio, seja este 0, 1, 2, ... ou um valor negativo ou qualquer que seja.