Um dos casos mais repercutidos do Paradoxo de Simpson aconteceu na Universidade de Berkley, nos Estados Unidos.
Em 1973, a Universidade foi erroneamente processada por discriminação de gênero entre os alunos aprovados na instituição.
Das 4321 aplicantes do sexo feminino, 35% delas foram aprovadas, enquanto que dos 8442 aplicantes do sexo masculino, 44% foram aprovados. A suspeita de algum viés de gênero foi levantada.
Porém, quando foram analisadas as aprovações por departamento, a proporção de aprovados por gênero era bem diferente: de 6 departamentos, apenas 2 apresentavam um percentual menor de mulheres aprovadas.
O que eles descobriram foi isso aqui:
Afinal de contas, o que é Paradoxo de Simpson?
Esse fenômeno, onde dados agregados contam uma história um tanto diferente de quando não estão agregados tem um nome: o Paradoxo de Simpson!
O Paradoxo de Simpson na estatística é uma falácia ecológica onde resultados contraditórios de um único conjunto de dados são consequência de como ele é agrupado.
Dependendo da variável de agregação escolhida, ela pode influenciar tanto a variável dependente, quanto a variável independe.
A variável que desencadeia esse comportamento é chamada de Fator de Confusão (Counfounding Factor) e causa uma associação espúria, ou seja, onde não existe uma relação causa-efeito entre as variáveis.
No caso de Berkley, o que aconteceu foi o seguinte:
- No caso do Departamento A, vemos que a taxa de aprovação é alta (62% para homens e 82% para mulheres). Entretanto, apenas 2% das mais de 4300 inscritas se aplicaram para este departamento. Por outro lado, 10% dos aplicantes do sexo masculino se inscreveram para este departamento,
- No caso do Departamento F, a taxa de aprovação é significantemente menor (6% para homens e 7% para mulheres). Como você já deve estar imaginando, a proporção de mulheres que se inscreveram para esse departamento foi maior do que a proporção de homens. 4% dos aplicantes do sexo masculino se inscreveram neste departamento, e 8% das aplicantes do sexo feminino.
- O que aconteceu não foi uma discriminação de gênero, mas sim que a maior parte das mulheres se inscreveu em departamentos com menores taxas de aprovação, aparentando, então, que homens eram muito mais aprovados na instituição e mulheres mais reprovadas em todos os departamentos.
- Ainda, de acordo com o estudo realizado, foi destacado que mulheres geralmente se inscrevem em departamentos em que se costuma levar mais tempo para se completar a formação, com menos recursos e que oferecem menos perspectivas de emprego – podendo justificando a menor taxa de aprovação.
Quer conhecer mais uma forma de como os dados podem te enganar?
Leia sobre Correlação Espúria aqui!
Mais um exemplo do Paradoxo de Simpson
Este exemplo foi extraído deste vídeo.
Um CEO deseja saber qual campanha online fez mais sucesso:
Campanha de 1 Clique: ao clicar na campanha, o cliente é direcionado para a página de compra.
Campanha de 2 Cliques: ao clicar na campanha, o cliente é direcionado para uma página em que precisa realizar mais um clique para chegar à pagina de compra.
Considerando apenas esta análise, a campanha de 2 Cliques resultou em uma performance melhor, uma vez que o valor de RPM é maior.
Porém, se agruparmos os dados entre clientes internacionais e locais, podemos ter um resultado diferente:
Agora, vemos que em ambos os grupos a Campanha de 1 Clique proporcionou um resultado melhor. Novamente, o Paradoxo de Simpson nos mostra que existe um Fator de Confusão escondido que mostra uma história oposta quando analisamos os dados agrupados ou não.
Também podemos notar como o RPM para a Campanha Local é muito maior, porém, esse valor é disfarçado pelo fato de haver mais usuários que participaram da Campanha Internacional.
Paradoxo de Simpson aplicado ao caso COVID-19
Confira abaixo uma explicação sobre o Paradoxo de Simpson aplicado aos casos de mortes de COVID-19:
Referências:
https://homepage.stat.uiowa.edu/~mbognar/1030/Bickel-Berkeley.pdf