Semelhante ao Facebook, Microsoft e Google também desenvolveram inteligências artificiais para acessibilidade, de modo a auxiliar na “leitura” de imagens para usuários deficiências visuais.
Esses usuários utilizam “leitores de tela” que usam áudio para descrever imagens, através de um “texto alternativo” ou “atributos alternativos”. Entretanto, muitas imagens na internet não apresentam qualquer descrição, e são apresentadas apenas como “imagem”, “gráfico sem etiqueta” ou como um nome longo e inútil do arquivo da imagem. Quando uma página contém imagens sem descrições, o site pode ser totalmente inutilizável para os usuários.
Microsoft – Seeing AI
O algoritmo criado pela Microsoft foi capaz de ser mais preciso que o ser humano em alguns casos. A inteligência artificial para acessibilidade foi inserida no app Seeing AI e cria textos alternativos (alt-text). Futuramente será implementado nos principais produtos da Microsoft, como Word, Outlook e PowerPoint.
O Seeing AI foi eleito o melhor aplicativo de assistência três anos consecutivos pela AppleVis, uma comunidade de usuários iOS cegos e deficientes visuais.
O Seeing AI usa visão computacional para descrever o imagens de câmeras de smartphone. O app identifica itens domésticos, lê e digitaliza textos, descreve cenas e até identifica amigos. Ele também pode ser usado para descrever imagens em outros aplicativos, incluindo email, aplicativos de mídia social e aplicativos de mensagens como o WhatsApp.
O novo algoritmo de legendagem de imagens da Microsoft irá melhorar o desempenho do Seeing AI significativamente, uma vez que é capaz não apenas de identificar objetos, mas também de descrever com mais precisão a interação entre diferentes focos na imagem (por exemplo, “uma pessoa está sentada em uma cadeira e tocando acordeão ”). A Microsoft diz que o algoritmo é duas vezes melhor do que seu sistema anterior, em uso desde 2015.
Essa inteligência artificial para acessibilidade foi descrito em um artigo pré-impresso publicado em setembro/2020, e alcançou as maiores pontuações em um benchmark de legendagem de imagens conhecido como nocaps.
O nocaps consiste em mais de 166.000 legendas geradas por humanos que descrevem cerca de 15.100 imagens tiradas do conjunto de dados de imagens abertas. Essas imagens abrangem uma variedade de cenários, de esportes a fotos de férias, alimentos e muito mais. Os algoritmos são testados em sua capacidade de criar legendas que correspondem às de humanos. Foi com o resultado obtido nos testes com o banco de imagens deste dataset que a Microsoft afirma que seu novo algoritmo “descreve as imagens tão bem quanto as pessoas”.
Entretanto, Harsh Agrawal, um dos criadores do benchmark, alerta que o próprio benchmark “cobre apenas uma pequena porcentagem de todos os conceitos visuais possíveis”, então o desafio de legendar imagens ainda não foi necessariamente completo. Agrawal ainda explica que o benchmark é um indicador aproximado do desempenho dos modelos na tarefa, e que não pode ser usado para afirmar que as IA superam os humanos na compreensão da imagem.
Google – Get Image Descriptions from Google
A Google desenvolveu uma inteligência artificial para acessibilidade no formato de uma extensão chamada Get Image Descriptions from Google. A imagem vai para um servidor seguro, onde é executado um software de machine learning. A tecnologia agrega dados de diversos modelos diferentes – alguns buscam por textos (etiquetas, escrita à mão, sinais) ou objetos que foram treinados a reconhecer.
Depois, a precisão da resposta é avaliada e dependendo do resultado, o usuário recebe uma frase completa descrevendo a imagem, algumas palavras simples ou nenhuma resposta.
Durante os testes dessa inteligência artificial para acessibilidade foram criadas mais de 10 milhões de descrições, com milhares sendo acrescentadas todos os dias. O recurso está disponível apenas em inglês.
Referências: