Vieses no Reconhecimento Facial

No dia 19 de setembro de 2020, Colin Madland, um estudante de PhD postou em seu twitter um desabafo em relação à funcionalidade de background virtual do Zoom.

No tweet, Colin descreve que um colega pediu ajuda a ele e outros estudantes porque sempre que usava um background virtual, o recorte acabava cortando sua cabeça e outras partes do corpo. Eles tentaram alterar a iluminação e o background a ser alterado pela ferramenta e nada adiantou… Durante uma conferência entre Colin e o amigo, enquanto testavam a ferramenta, Colin percebeu a existência de vieses no reconhecimento facial dessas ferramentas.

Confira os tweets:

Ao que parece, o algoritmo de reconhecimento facial do Zoom não reconhece facilmente rostos negros, fazendo com o que o background virtual “engolisse” partes do corpo de seu colega.

Entre as respostas ao tweet diversos negros relatam ter o mesmo problema e ter tentado resolver a questão mudando a iluminação, a câmera, o fundo… Nada adiantava.

Mas isso não é nenhuma novidade. Algoritmos podem apresentar vieses no reconhecimento facial dependendo da forma com que o modelo é construído e treinado, mesmo que nem percebamos.

É preciso ter muito cuidado ao desenvolver o modelo e testá-lo, além de considerar a diversidade cultural, que deve ser representativa durante todo o processo, antes de publicar o modelo final.

Leia também: Datacenter submerso da Microsoft

Vieses no reconhecimento facial

Testes do Governo Americano

Um algoritmo criado pela empresa francesa Idemia e utilizado pela polícia dos EUA, Austrália e França foi testado recentemente e as conclusões foram:
Maior probabilidade de confundir o rosto de mulheres negras do que de mulheres brancas ou homens negros e brancos
A conclusão foi a existência de vieses no reconhecimento facial: O erro no reconhecimento em mulheres brancas é de 1 em 10.000, enquanto em mulheres negras é de 1 em 1.000 (10x mais!)

Testes de vieses no reconhecimento facial do MIT e Stanford

Foram analisados 3 programas de reconhecimento facial comercializados.
O erro na determinação de gênero para homens brancos não ultrapassava 0.8%, enquanto para mulheres negras o erro chegava a mais de 20% para um software e 34% nos outros dois.
Para mulheres com tom de pele VI na escala Fitzpatrick (tom de pele mais escuro) o erro podia chegar a 46.8% no reconhecimento de gênero. Quase que um chute aleatório.
Um dos programas anunciava uma acurácia de 97% e utilizada um dataset de treinamento com 77% de homens e 83% de pessoas brancas.

Vieses raciais em algoritmo

Os vieses em reconhecimento facial não são exclusivos desse tipo de algoritmo. Eles já foram descobertos em diversos modelos importantes.

Hospitais norte americanos

Pessoas que se identificaram como negras geralmente recebiam pontuações de risco mais baixas do que as pessoas brancas igualmente doentes. Como resultado, os negros eram menos propensos a serem encaminhados para programas que oferecem atendimento mais personalizado.
Os pesquisadores descobriram que o algoritmo atribuiu pontuações de risco aos pacientes com base nos custos totais de saúde acumulados em um ano. Eles dizem que essa suposição pode ter parecido razoável porque os custos mais altos de saúde geralmente estão associados a maiores necessidades de saúde. A pessoa negra média tinha custos gerais de saúde semelhantes aos da pessoa branca média.
Entretanto, o negro médio também estava mais doente do que o branco médio, com maior prevalência de doenças como diabetes, anemia, insuficiência renal e pressão alta.
Tomados em conjunto, os dados mostraram que o atendimento aos negros custa em média US $ 1800 a menos por ano do que o atendimento a uma pessoa branca com o mesmo número de problemas crônicos de saúde.
O algoritmo atribuiu categorias de alto risco com base nos custos, então esse viés foi repassado: os negros tinham que estar mais doentes do que os brancos antes de serem encaminhados para ajuda adicional.
Apenas 17,7% dos pacientes que o algoritmo designou para receber cuidados extras eram negros. Os pesquisadores calculam que a proporção seria de 46,5% se o algoritmo fosse imparcial.
Utilizando inteligência combinada, foram realizadas alterações no algoritmo, buscando novas variáveis para o modelo. O viés foi reduzido em 84%.

Vieses no Reconhecimento Facial do Twitter

Os posts de Colin sobre o Zoom também trouxeram uma outra questão sobre os algoritmos de reconhecimento facial.

Enquanto na versão Desktop da rede social a imagem postada por ele aparece quase em sua totalidade, na versão Mobile, para as duas imagens, o algoritmo de corte de imagem centralizou o rosto branco.

Colin tentou inverter a imagem e o resultado foi o mesmo.

Diversos usuários começaram a fazer testes para ver se o problema persistia. Muitos tweets foram feitos utilizando a imagem de Barack Obama e Mitch McConnel.

Foram criadas diversas situações para avaliar vieses no reconhecimento facial, por exemplo:

Obama no topo e McConnel embaixo
McConnel no topo e Obama embaixo
3 Obamas e 1 McConnel
Obama maior e McConnel menor

Na maior parte dos casos, a imagem de McConnel era recortada para aparecer na exibição prévia:

Os usuários foram criando novos experimentos para avaliar os vieses no reconhecimento facial: outras imagens, alterando cores, diferentes fundos…

Testando as imagens em diferentes plataformas de acesso ao Twitter também foram obtidos resultados diferentes:

Algumas imagens de teste resultaram com a prévia sendo o rosto da pessoa negra. A suposição dos usuários é que o contraste/variedade de cores e brilho, o sorriso ou fundos mais confusos podem interferir no algoritmo.

Enfim, foram muitos testes feitos pelos twitteiros para avaliar vieses no reconhecimento facial! Procure pela plataforma para ver mais.

Um usuário até usou personagens:

Como o Twitter faz o preview de imagens

Em 2018, o Twitter publicou detalhes de como as utiliza redes neurais para realizar o auto-cropping de imagens postadas:

A melhor forma de recortar é focar nas regiões “salientes” da imagem. Uma região com alta saliência significa que é provável que uma pessoa olhe para ela ao visualizar a imagem livremente. Acadêmicos estudaram e mediram a saliência usando rastreadores oculares, que registram os pixels que as pessoas fixam com os olhos. Em geral, as pessoas tendem a prestar mais atenção a rostos, textos, animais, mas também a outros objetos e regiões de alto contraste. Esses dados podem ser usados para treinar redes neurais e outros algoritmos para prever o que as pessoas podem querer ver.
https://blog.twitter.com/engineering/en_us/topics/infrastructure/2018/Smart-Auto-Cropping-of-Images.html

Devido à robustez do algoritmo, o Twitter criou dois métodos de otimização.

Basicamente, o algoritmo busca pela região mais interessante aos nossos olhos, que geralmente é onde há mais contraste.

É muito provável que o Twitter não tenha criado seu algoritmo para ser racista, mas a metodologia empregada apresenta vieses no reconhecimento facial, seja no dataset de treinamento ou no algoritmo, que pode estar priorizando brilho e contraste ou imagens mais claras e, consequentemente, acaba reproduzindo quase sempre a imagem da pessoa com tom de pele mais clara.

Os testes feitos pelos usuários também não podem ser considerados nenhuma prova científica comprovada sobre a existência de vieses no reconhecimento facial, mas com certeza servem como alerta de que o algoritmo utilizado precisa ser alterado e novos critérios podem ser adotados.

O canal de comunicação do Twitter se pronunciou dizendo que o modelo foi testado para a verificação de vieses raciais e de gênero, não tendo sido encontradas evidências quanto a isso. Mesmo assim, afirmam que “é claro que temos mais análises a fazer. Continuaremos a compartilhar o que aprendemos, ações a serem tomadas e vamos abrir o código para que outros possam rever e replicar”.

Finalmente…

Algoritmos de inteligência artificial podem carregar vieses e apresentar resultados imparciais.

Casos com vieses raciais e de gênero ainda são extremamente comuns, em parte pela forma com que o algoritmo foi modelado, em parte pela falta de dados para um treinamento e testagem eficiente.

Muitas vezes os dados já apresentam vieses. A própria falta ou desbalanceamento de dados de um determinado gênero ou localização, por exemplo, já é um viés inerente.

Avaliando a cor, a falta de imagens de pessoas negras no treinamento dos dados faz com o que o modelo reconheça como pessoas apenas os exemplos que tiverem a cor mais clara e determinados traços. Em outras palavras, pessoas negras não são reconhecidas como pessoas, o que é um absurdo.

No caso de vieses no reconhecimento facial, por exemplo, um estudo da IBM mostra que as 3 coleções de imagens com rosto para treinamento mais citadas no mundo acadêmico apresentam 81% ou mais imagens de rostos com tonalidade clara. Os bancos de dados tendem a ter mais imagens de homens bancos ocidentais.

Leia também: O algoritimo polêmico do Airbnb

Não podemos esquecer que muitos algoritmos, em especial redes neurais ou modelos mais complexos, são verdadeiras caixas pretas. Não sabemos exatamente o mecanismo que foi criado.

Como podemos garantir a representatividade dos dados? Que métricas podem ser utilizadas para criarmos modelos com menores vieses?

Por isso, devemos sempre ficar atentos ao resultado dos nossos modelos e o impacto que podem causar em sociedade, sempre lembrando de utilizar a inteligência combinada, onde o ser humano faz parte de todo o processo.

Referências:

Nature

Wired

MIT