Redes sociais como o Twitter e Facebook buscam alternativas para tornar as mensagens postadas mais inclusivas. Desde 2016, ao que se refere ao compartilhamento de imagens, o Twitter permite, desde essa data, que o usuário introduza um texto alternativo descrevendo a imagem.
Já o Facebook desenvolveu uma tecnologia de acessibilidade com inteligência artificial que permite a descrição de imagens de forma automática para deficientes visuais. Google e Microsoft também aderiram a ferramenta de inclusão em suas plataformas. A ferramenta de acessibilidade com inteligência artificial no Facebook é semelhante a utilizada em buscadores de imagens.
Pessoas com deficiência visual normalmente utilizam a internet com auxílio de softwares leitores de tela, que leem o conteúdo escrito em voz alta e permite com que interajam com botões, links e outros elementos na tela. Mesmo assim, muitas vezes é difícil para o usuário reconhecer quando um item é clicável.
Essa ferramenta é conhecida como Automatic Alternative Text e, com apoio do aprendizado de máquinas, consegue “ler” a foto. O sistema de acessibilidade com inteligência artificial do Facebook é baseado em redes neurais com bilhões de parâmetros e foi treinado com milhões de possibilidades. A predição da inteligência é lida em voz alta, descrevendo o conteúdo provável da imagem.
Acessibilidade com inteligência artificial no Facebook
A ferramenta foi desenvolvida pelo time de acessibilidade do Facebook, liderada por Jeff Wieland, e é capaz de identificar conceitos em categorias (transporte, natureza, esportes, comidas) e até selfies. A ferramenta só identifica imagens quando atinge 80% ou mais no nível de confiança. Em casos sensíveis, o nível deve ser ainda maior. Se a inteligência não atingir o grau de confiança mínimo requerido, nenhuma sugestão é feita.
Atualmente, a ferramenta de acessibilidade com inteligência artificil do Facebook está disponível em inglês, francês, alemão, holandês, grego, japonês, português e muitas outras línguas.
O processo do Facebook
ATUALIZAÇÃO: a nova versão do produto de acessibilidade com inteligência artificial do Facebook desenvolvido consegue compreender 1200 conceitos e utilizou fotos e hashtags do Instagram para treinar os modelos. Confira mais: About Facebook
De acordo com o Facebook, o projeto contou com uma extensa análise de dados e desempenho do sistema, para garantir escalabilidade com valores de precisão e recall razoáveis. O processo foi iterativo entre etapas de design, protótipo e estudos do usuário.
O grande desafio, de acordo com a equipe, foi “equilibrar o desejo das pessoas por mais informações sobre as imagens com a qualidade e a inteligência social dessas informações”.
Além disso, é preciso levar em conta que a interpretação das imagens é muito subjetiva e dependente do contexto. Às vezes o fundo da foto é o que a torna interessante ou significativa, não apenas quem está nela ou o que está sendo feito.
O ser humano consegue, intuitivamente, captar o sentido da imagem e o que a torna relevante. Já para a máquina, o “contexto social” precisa ser ensinado. Essa tarefa complicada é realizada através de fornecimento de muitas informações e exemplos de treinamento para o aprendizado da inteligência artificial de acessibilidade do Facebook.
A principal métrica utilizada pela equipe é o recall, ou seja, a taxa de verdadeiros positivos (TP / (TP + FN)). A métrica é importante para evitar erros que gerem interações sem sentido.
Como funciona a acessibilidade com inteligência artificial do Facebook
Compreensão do conteúdo em escala
A quantidade de imagens e vídeos carregados diariamente no Facebook é extremamente elevada. Tanto o volume quanto a diversidade de conteúdo precisa passar por um mecanismo de redes neurais com milhões de parâmetros para ser treinado de forma supervisionada e semisupervisionada.
Além disso, a inteligência artificial do Facebook consegue aprender novos conceitos e aplicá-los rapidamente. A abordagem selecionada consiste em “usar as saídas do mecanismo de reconhecimento para construir frases em uma etapa separada”.
Seleção de conceitos
Inicialmente foram selecionados 100 conceitos com significados muito específicos e pouco abertos à interpretação para serem treinados e reconhecidos. Alguns exemplos são: bebê, óculos, barba, neve, céu, montanha, carro, bicicleta, café, pizza e natação.
Esses conceitos devem ser detectados com uma precisão mínima de 80%, embora alguns cheguem a 99%. Mesmo com esse alto padrão, mais de metade das fotos no Facebook já eram atribuídas com pelo menos um conceito.
Como a ferramenta de acessibilidade com inteligência artificial do Facebook constrói as frases
Depois de detectar os conceitos é preciso criar uma frase que seja entendida. Foram testadas “diferentes abordagens, como ordenar os conceitos por sua confiança, mostrar os conceitos com um nível de confiança (como 50% ou 75%) associado a eles e assim por diante”.
A decisão final para a ferramenta de acessibilidade com inteligência artificial do Facebook foi agrupar todos os conceitos em três categorias – pessoas, objetos e cenas – e apresentar as informações nesta ordem. “Para cada foto, primeiro relatamos o número de pessoas (aproximado pelo número de rostos) nas fotos, e se estão sorrindo ou não; então listamos todos os objetos que detectamos, ordenados pela confiança do algoritmo de detecção; cenas, como configurações e propriedades de toda a imagem (por exemplo, interior, exterior, selfie, meme), serão apresentadas no final.”
Como as frases não são revisadas e não pode-se ter certeza do conteúdo, a expressão “A imagem pode conter” é inserida no começo.
Experiência perfeita
O usuário não precisa tomar nenhuma ação para a descrição das imagens, sendo uma ferramenta mais conveniente e capaz de oferecer um serviço escalável.