Investigadores de la Universidad de Granada desarrollan un asistente conversacional para desmentir bulos.
Uno de los retos es resolver otros problemas además de la ambigüedad.
¿Que las máquinas se humanicen debería preocuparnos tanto como que los humanos se maquinicen? Los asistentes cómo chat GPT, Siri, Google Assistant, Google Home, Amazon Echo, Bixby o Cortana tienen la respuesta, incluso hablada. Ante este nuevo escenario mundial, hablar con una máquina ha dejado de ser una utopía y ya es una realidad cada día más normalizada en nuestras casas. Todo ello gracias a la IA que aprende, de forma autónoma, patrones en función de datos que recibe y procesa. Esto aplicado a la síntesis profunda de habla y la IA conversacional, nos ofrece asistentes personales o ‘chatbots’, interfaces conversacionales para usuarios que proveen una manera intuitiva de interactuar.
Aquí es precisamente, donde IVERES prevé encontrar una herramienta de ayuda a los periodistas para detectar fake audios.
La Cátedra RTVE-Universidad de Granada estudia la aplicaciones en la verificación de noticias de la síntesis profunda de habla y la IA conversacional y, por tanto, está muy alineada con los objetivos del proyecto IVERES.
En particular, en la colaboración con IVERES se centra en el desarrollo de tecnología que permita detectar si una grabación de audio corresponde a la voz real de una persona o si por el contrario se trata de una voz sintética que pretende suplantar su identidad.
Herramientas en desarrollo
La cátedra RTVE-UGR está desarrollando modelos de inteligencia artificial que puedan distinguir si un audio corresponde a la grabación real de una persona o se trata de una voz clonada artificialmente. Para ello estamos existen dos enfoques distintos:
- el que desarrollamos un modelo general que pueda usarse con cualquier voz
- otro en el que desarrollamos modelos específicos para detectar audios falsos de personalidades de interés para el equipo de verificación de RTVE.
El proyecto IVERES está generando una plataforma que integra diversas tecnologías para la detección de informaciones falsas. En este ecosistema, nos detalla Zoraida Callejas, profesora e Investigadora en el área de sistemas conversacionales y procesamiento de lenguaje natural, Universidad de Granada, «los modelos de la Cátedra RTVE-UGR están disponibles a través de un acceso web donde es posible subir un fichero de audio y obtener una estimación de si es falso o no». Además, se indica la confianza con la que el modelo realiza dicha estimación.
Los modelos de la Cátedra RTVE-UGR están disponibles a través de un acceso web donde es posible subir un fichero de audio y obtener una estimación de si es falso o no.
Avances en audio sintético
Durante el primer año de colaboración de la Cátedra RTVE-UGR con el proyecto IVERES se han realizado numerosos avances según nos explica la profesora titular de la Universidad de Granada, Zoraida Callejas. Por una parte, «se realizó una revisión pormenorizada de la tecnología actual para la generación y detección de voces sintéticas», incluyendo las principales herramientas disponibles en abierto para la comunidad científica. También se han revisado distintas alternativas para la implementación de los modelos de detección partiendo de los algoritmos que habían obtenido mejores resultados en las competiciones de mayor prestigio en la detección de audio sintético. Asegura que «la precisión de estos modelos depende en gran medida de la cantidad y calidad de los datos que se usen para su entrenamiento». En este caso, del número y calidad de las grabaciones reales y falsas con que se alimente al algoritmo.
Esto ha supuesto un gran reto puesto que es difícil encontrar el suficiente número de grabaciones falsas, por lo que se ha realizado un gran esfuerzo para recopilar ejemplos de voces y generar nuestras propias voces sintéticas con distintos métodos. Una vez entrenados los modelos, éstos se han evaluado y puesto a disposición en la plataforma de IVERES.
Actualmente seguimos trabajando para incluir más variedad de datos de entrenamiento y nuevos modelos de clasificación para detectar un espectro lo más amplio posible de formas de generar audios falsos.
La precisión de estos modelos depende en gran medida de la cantidad y calidad de los datos que se usen para su entrenamiento.
Dificultades en la detección de audios falsos
Existen muchas formas de producir audios sintéticos, por lo que el detector deber ser lo suficientemente robusto. Esto está ligado a que haya suficientes datos de entrenamiento que muestren toda esta variedad. Si el detector se entrena con datos falsos producidos de una única forma, puede que sólo sepa detectar esa forma concreta de producir falsificaciones. Por esto, en palabras de la profesora, «es necesario abordar el reto de la falta de disponibilidad de datos y también de la generalización de los algoritmos para que puedan adaptarse a formas de generación de audio no observadas durante su entrenamiento».
Otro reto son las interferencias, ruidos y otros sonidos que aparezcan en las grabaciones y dificulten discernir si se trata de un audio real o no. Por otra parte, también hay un reto de complejidad de los métodos de aprendizaje automático empleados y sus tiempos de respuesta. Los expertos de la Universidad de Granada remarcan que «el reconocimiento no se hace con audio en directo o en streaming, sino sobre grabaciones, por lo que esta cuestión no es tan crítica».
Uno de los aspectos más relevantes es «ser conscientes» de que, según Callejas, «el detector no es infalible y puede producir falsos positivos (audios reales clasificados como falsos) y falsos negativos (audios falsos clasificados como reales)». Aunque el objetivo de la cátedra es generar un demostrador de la potencialidad de la tecnología, estamos trabajando para que la tasa de error sea lo más pequeña posible. No obstante, es preciso que los usuarios finales, en este caso los periodistas, tomen con cautela los resultados arrojados por la herramienta pues cualquier algoritmo por preciso que sea puede generar errores.
«el detector no es infalible y puede producir falsos positivos (audios reales clasificados como falsos) y falsos negativos (audios falsos clasificados como reales)»
El workflow para los periodistas
Utilizar el detector de audio falso como una fuente de información más que pueda dar una predicción sobre la autenticidad del audio, es el sueño de todo periodista. De momento, la Universidad de Granada, aporta no sólo la predicción del modelo sino también la confianza que tiene en esa predicción como otro dato de interés para el periodista.
Es preciso hacer hincapié en la importancia de la labor periodística para contextualizar la información y contrastarla con varias fuentes confiables, entre ellas – pero no únicamente – las herramientas de detección. La máquina es una ayuda, pero solamente las personas expertas pueden ofrecer un dictamen bien informado acerca de si se trata de un audio auténtico o no, o si por el contrario no hay suficiente información para hacer un juicio sólido.
«Solamente las personas expertas pueden ofrecer un dictamen bien informado acerca de si se trata de un audio auténtico o no»
Actualmente el detector de audio falso ya está disponible en la plataforma IVERES. Está siendo evaluado por periodistas expertos del propio proyecto y se está trabajando para establecer los métodos de autenticación y seguridad informática necesarios para ponerlo a disposición de más profesionales.