quarta-feira, 27 de maio de 2009

ENTENDA MAIS AS ESTATÍSTICAS - PARTE 3

Outro problema comum é o uso de termos vagos, que podem se aplicar a mais de um parâmetro estatístico, e que podem ser escolhidos de acordo com a conveniência do produtor. Sempre questione a definição das medidas que são usadas naquela estatística em particular.

Um exemplo de termo vago muito usado é várias vezes citado por Huff [HUFF, Darrel, How to Lie with Statistics. New York: W W Norton & Company INC, 1954, pág. 28] em seu livro. Ele descreve o uso enganoso que pode-se fazer da palavra “média”: “Um truque comum é usar a palavra ‘média’ para diferentes tipos de média, pois este termo é bem vago. Este é um truque comumente usado, algumas vezes inocentemente mas geralmente intencionalmente, por pessoas querendo influenciar a opinião pública ou vender espaços de publicidade. Quando te dizem que alguma coisa é uma média você não sabe muito sobre isso até que possa descobrir quais dos tipos comuns de média é – média, mediana ou moda”.

A figura abaixo, preparada por Huff, é uma ótima ilustração das diferenças entre média, mediana e moda. Neste caso, é a análise estatística do salário dos trabalhadores em uma fábrica.

Figura tirada de “A Produção de Informações Estratégicas”, de Platt, que foi adaptada do livro “How to Lie with Statistics”, de Huff. Uma ótima lustração das diferenças entre média, mediana e moda. [PLATT, Washington. A Produção de Informações Estratégicas. Rio de Janeiro: Agir Editora, 1974. Figura da pág. 225]
Note que neste caso, as diferenças entre os 3 tipos de média são bem acentuadas, e cada média pode se prestar a defender um tipo diferente de argumento. Os sindicalistas podem usar a mediana ou a moda como “média” para defender que a maioria dos trabalhadores ganha pouco e merece um aumento. Enquanto que os patrões podem usar a média aritmética, que é a mais alta devido à influência dos altos salários de uns poucos funcionários da liderança, para defender que a “média” de salários na fábrica é alta e que reajustes salariais não são necessários.

Usar somente a “média” como um argumento estatístico pode ser um indício de estatística tendenciosa, principalmente se a média não for especificada. Huff [HUFF, Darrel, How to Lie with Statistics. New York: W W Norton & Company INC, 1954, pág. 42 e 43] escreve: “Geralmente uma média – seja ela uma média, mediana, especificada ou não – é de tal simplificação excessiva que é pior do que inútil. Saber nada sobre o assunto é freqüentemente mais saudável que saber o que não é, e um pequeno aprendizado pode ser uma condição perigosa”.

E também há o erro estatístico, que é uma estimativa do erro entre o que foi observado e o valor que se espera confirmar. É como nas pesquisas de intenção de voto nas eleições, em que é informado que o erro da pesquisa pode levar os resultados 2% ou 3% para cima ou para baixo. Este valor é importante quando comparamos valores semelhantes, pois, se considerado o erro estatístico, as conclusões sobre o quadro geral podem ser diferentes, como o resultado esperado de uma eleição ou a comparação dos resultados de um teste. Lembre-se que comparações entre valores com diferenças pequenas só têm significado se você manter em mente este mais-ou-menos, mesmo (ou especialmente) quando isso não é informado.

Desconfie de estatísticas com resultados muito precisos. Cerca de 93,2151734% de todas as estatísticas alegam uma precisão de resultados que não pode ser justificada pelo método empregado. Na afirmação anterior parece óbvio que tal precisão não passa de uma piada. Mas num momento de desatenção ou de leitura sem crítica, não é difícil creditarmos como verdadeiras as estatísticas que “estimam” que 40,87% das intenções de voto são para determinado candidato, que uma pasta de dente é 23,19% mais eficiente em evitar cáries que as concorrentes, ou que um energético aumenta o nível de energia em 32,82%. Como eles podem saber disso, com essa precisão? Quais métodos foram empregados? Estes métodos justificam a divulgação de números com tal resolução? Tais resoluções geralmente advêm de cálculos matemáticos, usados para calcular médias ou outro parâmetro qualquer, mas não provam e nem indicam a precisão do método estatístico utilizado. O problema é que números arredondados parecem falsos, e até certo grau são mesmo, mas na maioria dos casos são mais que suficiente para informar, com o devido grau de precisão que a estatística oferece, e são mais fáceis de lembrar e comparar. Mas números muito precisos geralmente impressionam muito as pessoas, e por isso são muito usados.

Outro tipo de informação cuja ausência pode levar a desentendimentos, é aquela que diz a faixa ou amplitude da amostra ou o seu desvio da média, este último geralmente representado pelo desvio-padrão.

As estatísticas na maioria das vezes se concentram nas médias, em torno de um ponto central. O interesse na maioria dos casos é com o que ocorre no corpo principal dos resultados, no que é freqüente, normal e mediano. No entanto, algumas vezes são os extremos que nos interessam, é aquilo que se afasta ao máximo do ponto central, tanto em uma das extremidades quanto em outra. É o que ocorre com quem quer determinar o peso máximo que uma ponte deve suportar, ou identificar o ponto fraco em um sistema.

Como no exemplo da minha falha em compreender as estatísticas de expectativa de vida, se fosse informado as idades máximas, eu não teria incorrido no mesmo erro. Um monte de confusão pode ser evitado se à média for acrescentada uma indicação da faixa de variação.

0 comentários:

Postar um comentário