sexta-feira, 22 de maio de 2009

ENTENDA MAIS AS ESTATÍSTICAS - PARTE 1

Ao estudar um grande volume de dados, muitas vezes as únicas conclusões valiosas são aquelas fornecidas pela estatística, por seus parâmetros como o desvio-padrão, média, mediana ou moda, por exemplo. Quando se deve consumir uma grande massa de dados, a tarefa é muito difícil sem um parâmetro sumarizador.

Tome como exemplo o conjunto de dados abaixo. Eles são um conjunto de números aleatórios, entre 0 e 1, bastante adequados para este exemplo por sua simplicidade, mas que poderiam ser substituídos por qualquer outro conjunto de números.

Olhando para este conjunto de números não conseguimos tirar nenhuma conclusão; eles parecem somente um emaranhado de números com três casas decimais, sem significado.



No entanto, podemos reduzir este conjunto de dados a alguns parâmetros estatísticos, que nos fornecem informações sumarizantes:

O número mais alto é 0,996. O número mais baixo é 0,009. Agora sabemos a faixa que estes dados abrangem.

A média aritmética, que é a soma de todos os números divididos pela quantidade de números, é 0,458. A sua mediana, que é o número central, ou seja, apresenta a mesma quantidade de números com valores menores e valores maiores, é 0,461. Note que essas duas médias têm valores muito parecidos, típico das distribuições naturais, como a altura de pessoas, as notas das provas em uma sala de aula ou os níveis de colesterol em determinada população, e também para as distribuições aleatórias, como essa.

A moda é 0,140, que é o número que ocorre com mais freqüência, aparecendo 3 vezes.

O percentil de 25% é 0,192, ou seja, o conjunto de 25% dos números com valores mais baixos está abaixo desse valor. O percentil de 75% é 0,697, ou seja, os 75% dos números com valores mais baixos estão abaixo de desse valor.

O desvio-padrão é ±0,288. Ele é uma medida da dispersão dos dados em torno da média aritmética, quando a distribuição segue a curva no formato de um sino, típica das distribuições naturais. Ele é apresentado como um valor positivo e negativo (±) em torno da média. Esta medida significa que 33% dos números da amostra estão dentro de uma faixa de 0,288 abaixo da média, e outros 33% estão dentro de uma faixa de 0,288 acima da média.

Então podemos sumarizar o conjunto de dados acima nos seguintes parâmetros estatísticos:
  • Valor máximo: 0,996
  • Valor mínimo: 0,009
  • Média aritmética: 0,458
  • Mediana: 0,461
  • Moda: 0,140
  • Percentil de 25%; 0,192
  • Percentil de 75%; 0,697
  • Desvio-padrão: ±0,288
Estes parâmetros nos fornecem uma boa síntese do conjunto de dados acima, da qual podemos tirar conclusões; é claro que não têm a mesma precisão e nem substituem o conjunto de dados, mas fornecem uma boa dica do que ele é.

E quanto mais parâmetros estatísticos usarmos, melhor e mais clara será a representação daquele conjunto de dados. Se tivéssemos apresentado somente a média aritmética, o que é bem comum nas estatísticas por aí, teríamos uma visão muito mais deficiente do conjunto de dados. À medida que adicionamos novos parâmetros, que podem ser muitos outros além dos que foram apresentados acima, podemos formar uma visão mais clara do todo.

Mas não se engane. Os parâmetros estatísticos podem esconder erros graves. As médias, relações, tendências e gráficos não são sempre o que parecem; podem esconder alguma informação ou mostrar o que não existe.

0 comentários:

Postar um comentário