Cuando las personas en Facebook navegan por su Feed de noticias, encuentran todo tipo de contenidos —artículos, comentarios de amigos, invitaciones a eventos y, por supuesto, fotos. La mayoría de las personas pueden ver instantáneamente lo que hay en estas imágenes, ya sea su nuevo nieto, un bote en un río o la imagen borrosa de una banda en el escenario.
Muchos usuarios ciegos y con discapacidad visual también pueden experimentar esas imágenes, siempre y cuando estén etiquetadas correctamente con texto alternativo (o “alt text”). Un lector de pantalla puede describir el contenido de estas imágenes utilizando una voz sintética, y permitir que las personas con discapacidad visual comprendan las imágenes en su Feed de Facebook.
Desafortunadamente, muchas fotos se publican sin texto alternativo, por lo que en 2016 Facebook presentó una nueva tecnología llamada Texto Alternativo Automático (AAT por sus siglas en inglés). AAT — que fue reconocido en 2018 con el premio Helen Keller Achievement Award de la American Foundation for the Blind — utiliza el reconocimiento de objetos para generar descripciones de fotos a pedido para que las personas ciegas o con discapacidad visual puedan disfrutar más plenamente de su Feed de noticias. Desde entonces, lo hemos estado mejorando y estamos contentos de presentar la próxima generación de AAT.
La evolución de ATT representa múltiples avances tecnológicos que mejoran la experiencia fotográfica de los usuarios.
«En primer lugar, ampliamos más de 10 veces la cantidad de objetos que AAT puede detectar e identificar de manera confiable en una foto, lo que a su vez significa menos fotos sin descripción. Además, las descripciones son más detalladas, con la capacidad de identificar actividades, puntos de referencia, tipos de animales, y mucho más — como “Puede ser una selfie de 2 personas, al aire libre, en la Torre de Pisa”, informaron desde la red social en un comunicado.
En conjunto, estos avances ayudan a los usuarios con discapacidad visual a comprender mejor el contenido de las fotos publicadas por familiares y amigos — y sus propias fotos — al proporcionar más información, más detallada.
«Para la última versión de AAT, aprovechamos un modelo entrenado con datos supervisados parcialmente, utilizando miles de millones de imágenes públicas de Instagram y sus hashtags. Para que nuestros modelos funcionen mejor para todos, los ajustamos para que los datos fueran muestreados a partir de imágenes en todas las geografías, y utilizando traducciones de hashtags en muchos idiomas. También evaluamos nuestros conceptos en los ejes de género, tono de piel y edad. Los modelos resultantes son más precisos e inclusivos a nivel cultural y demográfico — por ejemplo, pueden identificar casamientos en todo el mundo basándose (en parte) en atuendos tradicionales en lugar de etiquetar solo fotos con vestidos de novia blancos», agregaron desde Facebook.
El AAT mejorado reconoce de manera confiable más de 1200 conceptos — 10 veces más que la versión original lanzada en 2016. Si bien existe un margen de error, razón por la cual cada descripción comienza con «Puede ser», elevado el umbral de precisión y se omite intencionalmente conceptos que no se pudieron identificar de manera confiable.
«Queremos brindarles a nuestros usuarios con discapacidad visual y ciegos tanta información como sea posible sobre el contenido de una foto, y asegurar que sea información correcta», concluye el comunicado.