Yule e o Paradoxo de Simpson
Há mais de um século, os estatísticos explicam como grande parte do que os economistas fazem hoje está errada
Imagine um tratamento experimental para aumentar a longevidade adotado por vários voluntários ao longo de muitos anos. Depois de décadas, o herdeiro do inventor do tratamento tabula a idade com que os voluntários morreram e grita; “Funciona!”.
Sim, a idade média com que os voluntários morreram é maior que a expectativa de vida da população. Mas isso está longe de provar o que o herdeiro acha que prova.
Um estatístico, olhando para os dados, tem a ideia de tabular em separado os dados de homens e de mulheres. E, fazendo isso, o efeito do tratamento some: os homens e as mulheres que fizeram o tratamento viveram tanto quanto os que não fizeram.
– Como é possível? – pergunta o herdeiro do inventor sem acreditar que sua tabela original está errada.
– É que, entre os voluntários, havia mais mulheres do que homens e elas já têm uma expectativa de vida maior mesmo.
Em estatistiquês, viver mais e estar na amostra do tratamento tinham correlação com uma outra variável (ser mulher). Por isso, o resultado agregado parecia indicar uma relação entre fazer o tratamento e viver mais (mas essa relação é espúria). É por isso que não se deve tentar estimar associações entre variáveis a partir de dados agregados: quando se agrega a informação, se joga fora a estrutura dos dados e a possiblidade de ver relações com outras variáveis (e de ver que a aparente associação entre os agregados pode não existir).
Esse exemplo é uma versão longa do último parágrafo de um artigo de George Yule, um estatístico inglês que descreveu esse problema em 1903. Mas o problema acabou batizado com o nome de outro estatístico, Edward Simpson, que o descreveu nos anos 50.
Hoje se usa o nome Paradoxo de Simpson apenas para os casos em que a relação muda de sinal quando se desagrega os dados (e às vezes isso acontece mesmo…).
No exemplo hipotético, no inicio do texto, vários protocolos de teste clínico teriam sido descumpridos. Não é assim que se avalia um tratamento de saúde. Mas o exemplo serve para deixar claro o problema de tentar estimar relações entre variáveis a partir de dados agregados.
O que preocupa é que, de tempos em tempos, vejo artigos científicos (publicados em revistas acadêmicas) que estimam relações entre variáveis a partir de dados agregados. Alguns fazem até regressões com essas variáveis… Isso é especialmente comum em economia. Deviam ensinar no curso de Macroecomia 1 o que se pode fazer com agregados macroeconômicos. Seria alguma coisa assim:
– Os agregados você pode somar, subtrair e, em alguns casos, pode dividir. Se for uma mesma variável em datas diferentes você pode dividir para ver o quanto ela cresceu. Se for uma subdivisão de um agregado você pode dividir pelo agregado inteiro para ver quanto ela representa do total. E é isso.
Essa discussão sobre agregados foi uma das coisas que me fez voltar a estudar. Ela acabou virando um capítulo da minha tese de doutorado. A tese tem um monte de estimativas e projeções, mas acho que o que ela aponta de mais grave é como analistas (os economistas em especial) continuam tentando estimar relações a partir de agregados – e como isso pode levar a interpretações erradas dos dados.