3 Mitos Sobre a Distribuição Normal

author
4 minutes, 33 seconds Read

É a Curva Normal Normal?

Vi um artigo recentemente que se referia à curva normal como o melhor amigo do cientista de dados, e é certamente verdade que a distribuição normal é ubíqua na teoria estatística clássica. Ainda assim, é superestimada.

Mito #1: A maioria dos dados são normalmente distribuídos

Um momento de reflexão mostrará que este não é o caso. Primeiro de tudo, muitos dados estão em formato binário – sobreviver/morrer, clicar/não clicar, comprar/não comprar, fraude/não fraude, etc. Mesmo os dados que são frequentemente citados como exemplos de dados normais não o são – as alturas das pessoas, por exemplo. Um histograma de alturas mostrará uma lomba à esquerda do centro – crianças. Levando crianças, você ainda tem meios diferentes para homens e mulheres, e pessoas em países diferentes. Somente quando você define o grupo de forma rigorosa e homogênea – homens adultos na Guatemala, por exemplo – a distribuição se torna normal (e esse processo de definição é guiado pela identificação do que não é normal na distribuição maior).

As pontuações de QI ilustram bem este mito. Não existe uma distribuição normal em forma de sino mais icónica do que as pontuações de QI. As pessoas tendem a pensar que o QI é distribuído normalmente, mas na realidade são apenas os resultados de QI que são distribuídos normalmente, sendo o próprio QI um conceito um pouco nebuloso, existindo apenas de forma concreta na sua métrica.

E como é que os resultados de QI podem ser distribuídos normalmente? As questões nos testes de QI são ajustadas, adicionadas e descartadas para que as notas não se acumulem muito na parte baixa ou alta, mas sejam bem distribuídas em uma distribuição normal em forma de sino.

(Veja a nota histórica abaixo sobre a “distribuição de erros” para uma importante distinção entre a distribuição dos dados originais e a distribuição de resíduos.)

Mito #2: A distribuição normal é central à teoria estatística

Seria mais preciso dizer que, na estatística clássica (ou seja, a estatística pré-computador), a distribuição normal, e seu primo, a distribuição t, eram aproximações essenciais. Em 1908, William Gosset (“aluno”), publicou seu artigo seminal Biometrika (“The Probable Error of the Mean”) introduzindo a distribuição t.

Vale a pena ler (à direita) a justificação de Gosset para usar a distribuição normal como base para a aproximação das distribuições verdadeiras – conveniência. Ou, como Efron e Hastie colocaram (em Computer Age Statistical Inference), “tractability mathematical”

Gosset estava interessado em como uma amostra poderia ser diferente de outra, quando extraída da mesma população. Ele começou anotando nos cartões o comprimento do dedo médio de 3000 presos – os dados estavam disponíveis porque, na época, os cientistas estavam muito interessados em correlacionar traços físicos com traços mentais e tendências criminais. Continuando, ele tirou amostras bem sucedidas de quatro, anotando a média. Ele terminou tabulando um histograma de freqüência, mostrado abaixo.

você pode ver como ele então encaixa sua aproximação em forma normal (na verdade t) com os dados. Em 1908, isso simplificou muito a tarefa de cálculos baseados em distribuições de amostras, já que ninguém tinha tempo para retirar amostras de cartões milhares de vezes. Atualmente, porém, os métodos de reamostragem (procedimentos de permutação e o bootstrap) fazem um bom trabalho de aproximação das distribuições de amostras verdadeiras, e sem depender de suposições de normalidade. A tarefa de extrair milhares de amostras e trabalhar com os resultados é agora trivial.

Na verdade, o advento do poder computacional estendeu o domínio da estatística tão além dos procedimentos de inferência baseados em teoria normal que as aproximações normais são agora apenas uma ferramenta útil, embora dificilmente central, em uma caixa de ferramentas sempre em expansão.

Mito #3: A normalização dos dados torna-os normalmente distribuídos

Normalizar ou padronizar os dados é frequentemente usado em procedimentos analíticos de modo que a escala na qual os dados são medidos não afecta os resultados. Se estamos tentando encontrar clusters nos dados, por exemplo, a análise usa a “distância entre registros” como uma métrica chave. Normalmente não queremos que nossos resultados sejam diferentes, dependendo da métrica utilizada (por exemplo, metros ou quilômetros), mas isso acontecerá se usarmos os dados brutos. Existem várias formas diferentes de colocar os dados na mesma escala, e uma forma comum é subtrair a média e dividir pelo desvio padrão. Isto também é chamado de z-score, e permite comparar os dados com uma distribuição normal.

Normalizar os dados desta forma não fará, no entanto, com que os dados sejam distribuídos normalmente. Os dados reterão qualquer forma geral que tivesse antes do ajuste.

Nota histórica: A “Distribuição de Erro”

A distribuição normal foi originalmente chamada de “distribuição de erro”, e aplicada a desvios da média em observações astronômicas. E foi de fato este conceito de distribuição normal de erros (resíduos), ao invés dos dados originais, que impulsionou a ampla aplicabilidade original da teoria normal em estatística.

Similar Posts

Deixe uma resposta

O seu endereço de email não será publicado.