NYT / En un video de TikTok astutamente producido, se puede escuchar al expresidente Barack Obama —o a una voz tan parecida a la suya que dan escalofríos— mientras se defiende de una teoría de conspiración nueva y explosiva sobre la repentina muerte de su antiguo chef.

“Aunque no puedo comprender la base de las acusaciones en mi contra, insto a todos a recordar la importancia de la unidad, la comprensión y no precipitarse a emitir juicios”.

De hecho, la voz no era la del expresidente. Era una falsificación convincente, generada con inteligencia artificial mediante herramientas nuevas y sofisticadas que pueden clonar voces reales para crear marionetas de inteligencia artificial con unos pocos clics de ratón.

La tecnología utilizada para crear voces de inteligencia artificial ha ganado terreno y una gran aclamación desde que empresas como ElevenLabs lanzaron una serie de nuevas herramientas a finales del año pasado. Desde entonces, las falsificaciones de audio se han convertido con rapidez en una nueva arma en el campo de batalla de la desinformación en línea, la cual amenaza con turbocargar la desinformación política antes de las elecciones de 2024, pues les dará a los creadores una forma de poner sus teorías conspirativas en boca de celebridades, presentadores de noticias y políticos.

El audio falso se suma a las amenazas que genera la inteligencia artificial a partir de videos ultrafalsos, textos de ChatGPT que parecen escritos por humanos e imágenes de servicios como Midjourney.

Los organismos encargados de vigilar la desinformación se han percatado de que la cantidad de videos con voces de inteligencia artificial ha aumentado a medida que los productores de contenido y los vendedores de desinformación adoptan las nuevas herramientas. Las plataformas sociales, como TikTok, están luchando por marcar y etiquetar estos contenidos.

NewsGuard, una empresa que monitorea la desinformación en línea descubrió el video que sonaba como Obama. Según un informe que el grupo publicó en septiembre, el video se publicó en una de las diecisiete cuentas de TikTok que promovían afirmaciones infundadas con audio falso que identificó NewsGuard. Las cuentas publicaban en su mayoría videos de rumores sobre famosos narrados con una voz de inteligencia artificial, pero también promovían la afirmación infundada de que Obama es gay y la teoría conspirativa de que Oprah Winfrey está involucrada en el tráfico de esclavos. Los canales habían recibido en conjunto cientos de millones de visitas y comentarios que sugerían que algunos espectadores se creían las afirmaciones.

TikTok exige etiquetas que califiquen de falso el contenido realista generado por inteligencia artificial, pero no aparecían en los videos que marcó NewsGuard. TikTok señaló que había eliminado o dejado de recomendar varias de las cuentas y videos por violar políticas relacionadas con hacerse pasar por organizaciones de noticias y difundir desinformación perjudicial. También eliminó el video con la voz generada con inteligencia artificial que imitaba la de Obama porque violaba la política de medios sintéticos de TikTok al tener contenido muy realista no etiquetado como alterado o falso.

“TikTok es la primera plataforma que ofrece una herramienta para que los creadores etiqueten los contenidos generados con inteligencia artificial y un miembro inaugural de un nuevo código de buenas prácticas de la industria que promueve el uso responsable de los medios sintéticos”, declaró Jamie Favazza, vocero de TikTok, para referirse a un marco que presentó hace poco la organización sin fines de lucro Partnership on AI.

Aunque el informe de NewsGuard se enfocó en TikTok, una plataforma que cada vez se vuelve más una fuente de noticias, se encontraron contenidos similares difundidos en YouTube, Instagram y Facebook.

Las plataformas como TikTok permiten contenidos generados con inteligencia artificial de personajes públicos, entre ellos conductores de noticias, siempre y cuando no difundan desinformación. Los videos paródicos que muestran conversaciones generadas con inteligencia artificial entre políticos, celebridades o líderes empresariales —algunos muertos— se han propagado ampliamente desde que las herramientas se volvieron populares. El audio manipulado agrega una nueva capa a los videos engañosos de las plataformas que ya han presentado versiones falsas de Tom Cruise, Elon Musk y conductoras de noticias como Gayle King y Norah O’Donnell. A últimas fechas, TikTok y otras plataformas se han enfrentado con una serie de anuncios engañosos que tienen ultrafalsos de celebridades como Cruise y la estrella de YouTube MrBeast.

El poder de estas tecnologías podría influir profundamente en la audiencia. “Sabemos que el audio y el video tal vez se quedan más grabados en nuestra memoria que el texto”, afirmó Claire Leibowicz, directora de inteligencia artificial e integridad de medios de comunicación de Partnership on AI, una organización que ha trabajado con empresas tecnológicas y de medios en una serie de recomendaciones para crear, compartir y distribuir contenido generado con inteligencia artificial.

El mes pasado, TikTok señaló que estaba introduciendo una etiqueta que los usuarios podían seleccionar para mostrar si sus videos utilizaban inteligencia artificial. En abril, la aplicación empezó a exigirles a los usuarios que revelaran los medios manipulados que mostraban escenas realistas y a prohibir los ultrafalsos de jóvenes y personajes privados. David Rand, profesor de Ciencias de la Gestión en el Instituto Tecnológico de Massachusetts, a quien TikTok consultó para que le aconsejara sobre cómo redactar las nuevas etiquetas, mencionó que eran de uso limitado en el tema de la desinformación porque “la gente que intenta engañar no va a poner la etiqueta en su contenido”.

TikTok también anunció el mes pasado que estaba probando herramientas automatizadas para detectar y etiquetar los medios generados con inteligencia artificial, lo cual, según Rand, sería más útil, al menos a corto plazo.

YouTube prohíbe que los anuncios políticos utilicen inteligencia artificial y les exige a otros anunciantes que etiqueten sus anuncios cuando utilicen inteligencia artificial. En 2020, Meta, empresa dueña de Facebook, agregó una etiqueta a su juego de herramientas de comprobación de hechos que describe si un video está “alterado”. Y X, antes conocida como Twitter, requiere que el contenido engañoso esté “alterado, manipulado o fabricado de manera significativa y engañosa” para violar sus políticas. La empresa no respondió a las solicitudes para ofrecer comentarios.

La voz de Obama hecha con inteligencia artificial se creó con herramientas de ElevenLabs, una empresa que irrumpió en la escena internacional a finales del año pasado con su herramienta gratuita de inteligencia artificial que convierte texto en voz y es capaz de producir audios realistas en segundos. La herramienta también les permitía a los usuarios cargar grabaciones de la voz de alguien y producir una copia digital.

Después del lanzamiento de la herramienta, unos usuarios de 4chan, el foro de discusión de derecha, se organizaron para crear una versión falsa de la actriz Emma Watson leyendo una extensa diatriba antisemita.

ElevenLabs, una empresa de 27 empleados con su sede en la ciudad de Nueva York, respondió al uso indebido permitiendo que la función de clonación de voz solo estuviera disponible para los usuarios de paga. La empresa también lanzó una herramienta de detección de inteligencia artificial capaz de identificar contenido de inteligencia artificial que hayan producido sus servicios.

“Más del 99 por ciento de los usuarios de nuestra plataforma están creando contenido interesante, innovador y útil, pero reconocemos que hay instancias en las que se hace un uso indebido y hemos seguido desarrollando y liberando defensas para frenarlos”, comentó un representante de ElevenLabs mediante un comunicado enviado por correo electrónico.

Leibowicz, de Partnership on AI, afirmó que el audio sintético suponía un reto único para los oyentes en comparación con las alteraciones visuales.

“Si fuéramos un pódcast, ¿necesitaríamos una etiqueta cada cinco segundos?”. cuestionó Leibowicz. “¿Cómo tener una indicación coherente en un audio largo?”.

Shares: