Ok, os nomes são complicados, mas vamos explicar de forma simples o que são fatores de confusão e correlação espúria.
Fatores de Confusão (Confounding Factor)
Fatores de confusão são variáveis (Z) que influenciam tanto a variável dependente (Y), quanto uma variável independente (X). Assim, Z confunde a relação entre X e Y, uma vez que influencia as duas variáveis.
A presença de variáveis de confusão no dataset pode levar ao que chamamos de correlação espúria.
Correlação Espúria (Spurious Correlations)
A presença de fatores de confusão podem gerar uma correlação espúria.
Correlação espúria acontece quando relações existentes entre a variável dependente e independente são estimadas de forma incorreta, pois não se leva em conta a presença de fatores de confusão.
É por causa de efeitos como esse que temos que ter sempre em mente que correlação não implica causalidade! Dois eventos que ocorrem ao mesmo tempo não são necessariamente motivo e resultado uma da outra! Estabelecer uma causalidade vai muito além disso.
A correlação espúria pode ser causada devido a um baixo número de exemplos de treino ou pela existência de um grande número de atributos para a construção do modelo.
É necessário, então, selecionar com cuidado as variáveis do modelo e ter razões coerentes para utilizá-las, além de termos exemplos de treino suficientes para generalizar o fenômeno corretamente.
Quer conhecer mais uma forma de como os dados podem te enganar?
Leia sobre Paradoxo de Simpson aqui!
Exemplos de correlação espúria
Existem alguns exemplos famosos bem engraçados de correlação espúria.
Consumo de queijo mozzarella x Doutores em Eng Civil premiados nos Estados Unidos
Pessoas que se afogaram em piscinas x Filmes com aparição de Nicolas Cage
Taxas de divórcio no Maine x Consumo de margarina
Lançamentos espaciais no mundo x Número de doutores em sociologia premiados nos Estados Unidos
Aqui é a Aline Xavier, gostei muito do seu artigo tem muito
conteúdo de valor, parabéns nota 10.
Visite meu site lá tem muito conteúdo, que vai lhe ajudar.