Tuesday, April 20, 2010

Dois pontos percentuais a mais. Ou a menos.

Se tem uma coisa que me irrita absurdamente é essa palhaçada de "dois pontos a mais ou a menos" que sempre acompanham as análises de pesquisa de opinião. Nada contra a existência dessa margem de erro, que só seria zero se o instituto de pesquisa sondasse TODOS os eleitores e os obrigasse a assinar um termo de compromisso proibindo a mudança de opinião. A divulgação da margem por parte do instituto de pesquisa é essencial também - é através desta que podemos ter uma noção do universo de pessoas pesquisado e da qualidade da informação para uma análise fria.

O que me irrita profundamente é que muitos analistas gostam de falar besteira e inventar idiotices profundas como o conceito de empate técnico:



Porque isso me irrita? Por que isso mostra uma tremenda ignorância estatística. Uma pessoa que fala por exemplo que Serra com 32% e Dilma com 28% dos votos estão empatados por conta da margem de erro é um idiota (o idiota é gratuito). Pra entender melhor o que significa essa merda de margem de erro, um pouco de estatística pra vocês.

Existe nas ciências estatísticas um determinado tipo de distribuição conhecida por distribuição Normal ou Gaussiana. Essa distruibuição tem a propriedade mágica de ser a maneira como populações se distribuem de um modo geral (isso se dá por causa de um negócio chamado Teorema do Limite Central). Uma distribuição Gaussiana parece mais ou menos assim:


Vamos supor que isso aí foi o resultado do instito de pesquisa NonSensus. Ela ilustra uma situação em que um candidato obteve uma intenção de voto de 50%. Mas vamos supor que o instituto de pesquisa DataTrolha resolveu fazer a mesma pesquisa e obteve a seguinte curva:



O resultado também é 50% de intenção de voto, mas note que a curva é mais apertada, dando uma maior segurança pro resultado. A gente pode dizer que o DataTrolha parece mais preciso que o NonSensus. Mas como definir essa precisão? Pra isso a gente determina o que se chama intervalo de confiança desejado pra análise e daí determina uma margem de erro em pontos percentuais. No caso da última pesquisa do Datafolha, por exemplo, eles escolheram um intervalo de confiança de 95% que gerou uma margem de erro de 2 pontos pra mais ou pra menos. A curva fica mais ou menos assim, com a margem de erro sombreada (e note o zoom):



O que quer dizer isso? Que com 95% de chance de acerto (área em azul no gráfico acima), o candidato tem preferência de entre 48% e 52% da população. Vamos agora colocar dois candidatos num mesmo gráfico e ver como fica. No caso aqui, vai Serra e Dilma com 28 e 32% de intenção, margens de 2 pontos com confiança em 95%, cores de acordo com a preferência dos candidatos:


Tá vendo aquela regiãozinha onde a linha vermelha é maior que a linha azul? Pois é, aquilo diz que a chance de Dilma ganhar de acordo com essa pesquisa seria de 5%. E aqui vai a mesma pesquisa, agora com os números em 33 e 27%:

Há diferença, é claro, pois aqui a chance de Dilma ganhar seria de 0.15%; Mas não é como se antes ela tivesse uma chance real no caso anterior. O que acontece é que os nossos maravilhosos analistas de pesquisas, ao ler os resultados, vêem isso


e suspiram cheios de esperança, mas vêem isso 


e se desesperam. Porque no primeiro caso a chance não é zero, enquanto que no segundo a chance é zero.

E isso tudo foi dito sem considerar o fato de que as margens de erro são dependentes do intervalo de confiança. Se quiséssmos, por exemplo de confiança de 99.7%, as margens de erro da pesquisa subiriam pra 3% de acordo com o modelo Gaussiano. Mas claro, esses 99.7% são fantasiosos porque seria necessário um sorteio real de toda a população, o que nem sempre acontece. Ah, intervalo de confiança de 100% jogaria a margem de erro pra infinito, caso vc esteja curioso.

Antes que alguém dê uma de engraçadinho, eu estou falando de usar um modelo puramente Gaussiano. Institutos de pesquisa, mesmo o Sensus, costumam ter modelos um pouco mais sofisticados que comprimem as margens de erros dos candidatos com médias próximos dos extremos. Porque se alguém tem 1% de intenção com 2 pontos de margem de erro a 95% de confiança, não quer dizer que há 2.5% de chance de ele ter intenção negativa. Por exemplo, de acordo com o modelo do Sensus,
a pesquisa CNT/Sensus tem uma margem de erro máxima de 3 pontos percentuais. Esse máximo vale para quando o candidato tem de 30% a 70% das intenções de voto. Mas se o candidato está na faixa de 10% a 30%, a margem de erro passa a ser só de até 2 pontos.
O ponto é que essas pesquisas estão tão sujeitas a falhas metodológicas e limitações estatísticas e que tentar extrair mais informação do que ela fornece é masturbação mental:
Comentário do blog: essa metodologia do instituto Sensus é interessante ao fazer uma gradação das margens de erro. Faz todo o sentido. Até porque, como tratar os casos de candidatos nanicos que têm 1% a 2% das intenções de voto se a margem de erro é de 3 pontos?
Mas aí vem um problema: o que ocorre se um candidato tem 29,9% e o outro tem 30,1%? Para o primeiro, a margem de erro seria de 2 pontos percentuais (poderia ir até a 31,9%). Para o segundo, a margem seria de até 3 pontos percentuais –e sua pontuação poderia cair a 28,9%. Parece complicado. E é mesmo.
Então da próxima vez, limite-se a dizer que a diferença caiu ou subiu de 6% pra 4% ao invés de falar que entrou em empate técnico, como quem diz que o time passou a ter chances matemáticas de se subir de divisão. E não seja um idiota.

2 comments:

  1. Faltou a primeira foto.
    O artigo ficou legal. Acho que os gráficos ficaram bons. Responde ao "entendeu, ou tenho que desenhar?"

    ReplyDelete
  2. Isso que dá usar imagens direto da internet. Corrigi a primeira foto já.

    ReplyDelete