Una reciente investigación realizada por investigadores de Amazon Web Services (AWS), delata que el 57 % del contenido que actualmente circula en la web ha sido producido por inteligencias artificiales (IA), disminuyendo drásticamente su calidad.
El informe, titulado «Una cantidad asombrosa de la Web es traducida por máquinas: perspectivas del paralelismo multidireccional», recalca la extensión de la traducción automática y su incidencia en el contenido accesible online.
Traducción automática de bajo presupuesto (TA)
Un aspecto medular de este análisis es la traducción automática de bajo presupuesto (TA), que permite replicar fragmentos de información en varios idiomas sin la intervención humana. Según el informe, en los idiomas menos representados en el ciberespacio, su contenido es casi totalmente traducido mediante sistemas automáticos.
Estas traducciones, identificadas como «traducciones paralelas multidireccionales», presentan diferencias en la calidad y la naturaleza del contenido comparado con el que es traducido únicamente a una lengua.
Los investigadores puntualizan que el contenido traducido automáticamente a múltiples idiomas tiende a ser más conciso, predecible y centrado en temas concretos en comparación con los textos que sólo están disponibles en un idioma. Esta homogeneidad en el material está alterando la naturaleza de Internet, donde se priorizan cada vez más temas de «intercambio de opiniones y diálogos», en detrimento de una diversidad temática más amplia.
Colapso del modelo
Otro alarmante fenómeno es el llamado «colapso del modelo», un problema que aparece cuando el incremento de contenido generado y manipulado por IA termina degradando los mismos modelos de IA que lo emplean para aprender.
Este ciclo vicioso afecta principalmente a los datos menos representados, reduciendo la variedad de los resultados y promoviendo la uniformidad. Según el Dr. Ilia Shumailov, investigador de la Universidad de Oxford, este colapso se produce de manera gradual y muchas veces pasa desapercibido en sus fases iniciales, ya que podría observarse una ligera mejora en el tratamiento de los datos más comunes, ocultando el deterioro de los datos minoritarios.
Para realizar las pruebas, los investigadores pidieron a un grupo de lingüistas profesionales que evaluaran 10K oraciones en inglés seleccionadas aleatoriamente de diversas temáticas. Al contrastar las oraciones traducidas en dos direcciones (por ejemplo, del inglés al español y viceversa), en los textos traducidos a más de ocho idiomas, los temas relacionados con «opinión y conversación» incrementaron del 22,5 % al 40,1 %. Esto refuerza la noción de que ciertos tipos de contenido, son más traducidos a múltiples lenguas, aumentando el contenido duplicado.
Calidad del contenido Web
Al mismo tiempo, los datos expusieron que las traducciones con un alto grado de multidirecciones eran, por lo general, de peor calidad.
Utilizando la herramienta Comet para estimar la calidad de las traducciones, se halló que las oraciones traducidas en más de ocho idiomas obtenían 6,2 puntos menos que las bidireccionales.
Para ahondar en este hallazgo, los estudiosos analizaron 100 oraciones de dichas traducciones multidireccionales y descubrieron que la mayoría provenían de páginas que generan contenido de baja calidad, con textos que no exigen gran esfuerzo en su elaboración.
Esto refuerza la idea de que muchas de las traducciones automáticas proceden de lo que se denomina «granjas de contenido», plataformas cuyo único objetivo es producir cantidades masivas de texto para atraer clics, sin preocuparse por la precisión o la calidad del contenido.
Todo ello está causando preocupación ya que la calidad de información que consumimos en Internet está cayendo en picado. Y se está realimentando a un ritmo alarmante con herramientas de IA.