NYT / En noviembre de 2022, la empresa detrás de Facebook lanzó un chatbot llamado Galactica. Después de un torrente de quejas en torno a que el bot inventaba acontecimientos históricos y lanzaba otros sinsentidos, Meta lo retiró de internet.

Dos semanas después, la empresa emergente OpenAI de San Francisco lanzó un chatbot llamado ChatGPT. Fue una sensación mundial.

Los dos bots se basaban en la misma tecnología. Sin embargo, a diferencia de Meta, OpenAI había perfeccionado su bot utilizando una técnica que apenas empezaba a cambiar la forma de construir la inteligencia artificial.

En los meses previos al lanzamiento de ChatGPT, la empresa contrató a cientos de personas para que utilizaran una primera versión y aportaran sugerencias precisas que pudieran ayudar a perfeccionar las habilidades del bot. Como un ejército de tutores que guían a un alumno de primaria, le mostraron al bot cómo responder a preguntas particulares, calificaron sus respuestas y corrigieron sus errores. Tras analizar esas sugerencias, ChatGPT aprendió a ser un mejor chatbot.

La técnica, el “aprendizaje por refuerzo a partir de la retroalimentación humana”, está impulsando el desarrollo de la inteligencia artificial en toda la industria. Más que ningún otro avance, ha transformado a los chatbots de ser una curiosidad a convertirse en una tecnología de uso generalizado.

Estos chatbots se basan en una nueva ola de sistemas de inteligencia artificial que pueden aprender habilidades analizando datos. Hay enormes equipos de trabajadores con salarios bajos en Estados Unidos y otras partes del mundo que organizan, refinan y en algunos casos crean gran parte de estos datos.

Durante años, empresas como Google y OpenAI han dependido de este tipo de trabajadores para preparar los datos que se utilizan para entrenar las tecnologías de inteligencia artificial. Trabajadores en lugares como la India y África han ayudado a identificar todo, desde señales de alto en fotografías utilizadas para entrenar vehículos autónomos hasta síntomas de cáncer de colon en videos utilizados para crear tecnologías médicas.

Para crear chatbots, las empresas recurren a trabajadores similares, aunque a menudo cuentan con una mejor educación. El aprendizaje por refuerzo a partir de la retroalimentación humana es mucho más sofisticado que el trabajo de memorización de etiquetado de datos que alimentó el desarrollo de la inteligencia artificial en el pasado. En este caso, los trabajadores actúan como tutores, al darle información más profunda y específica a la máquina en un esfuerzo por mejorar sus respuestas.

El año pasado, OpenAI y uno de sus competidores, Anthropic, recurrieron a trabajadores independientes en Estados Unidos por medio del sitio web Upwork. Hugging Face, otro laboratorio prestigioso, recurre a trabajadores estadounidenses contratados por medio de las empresas emergentes de curación de datos Scale AI y Surge.

Estos trabajadores están divididos en partes iguales entre hombres y mujeres y algunos no se identifican como ninguno de los dos, comentó Nazneen Rajani, investigadora de Hugging Face. Tienen entre 19 y 62 años y sus calificaciones van desde títulos técnicos hasta doctorados.

Los trabajadores radicados en Estados Unidos ganan entre 15 y 30 dólares por hora. Los trabajadores en otros países ganan bastante menos. Cuando Hugging Face le solicitó trabajadores a una división de Amazon, la empresa le explicó que los trabajadores radicados en Estados Unidos serían cinco veces más caros de los que estaban en el extranjero.

Este trabajo requiere horas de redacción, edición y calificación meticulosas. Los trabajadores pueden escribir una sola pregunta y su respuesta durante 20 minutos. La retroalimentación humana permite que los chatbots actuales se aproximen a una conversación por turnos, en vez de limitarse a ofrecer una única respuesta. También ayuda a empresas como OpenAI a reducir la desinformación, el sesgo y otra información tóxica que producen estos sistemas.

Sin embargo, los investigadores advierten que la técnica no se ha comprendido en su totalidad. Explican que, aunque mejora el comportamiento de estos robots de algunas maneras, puede degradar el rendimiento de otras.

Un estudio reciente de investigadores de las universidades de Stanford y de California, campus Berkeley, muestra que la precisión de la tecnología de OpenAI ha disminuido en algunas situaciones durante los últimos meses, como al resolver problemas matemáticos, generar código informático e intentar razonar. Esto podría ser el resultado de los esfuerzos continuos por aplicar la retroalimentación humana.

Los investigadores todavía no entienden por qué, pero han descubierto que afinar el sistema en un área puede volverlo menos preciso en otra.

“El ajuste de precisión del sistema puede introducir sesgos adicionales —efectos secundarios— que lo hagan inclinarse hacia direcciones inesperadas”, afirmó James Zou, profesor de Informática en Stanford.

En 2016, un equipo de investigadores de OpenAI creó un sistema de inteligencia artificial que aprendió por sí solo a jugar un antiguo videojuego de carreras de botes, “Coast Runners”. No obstante, en un esfuerzo por capturar los pequeños adminículos verdes que bordeaban la pista de carreras —una forma de ganar puntos—, el sistema de inteligencia artificial hacía que su bote diera círculos interminables, chocara contra las paredes y se incendiara en repetidas ocasiones. Le costaba cruzar la línea de meta, que era tan importante como sumar puntos.

Ese es el enigma en el centro del desarrollo de la inteligencia artificial: mientras las máquinas aprenden a realizar durante horas tareas de análisis de datos, también pueden desviarse hacia comportamientos inesperados, no deseados y tal vez hasta perjudiciales.

Sin embargo, los investigadores de OpenAI crearon un mecanismo para combatir este problema. Desarrollaron algoritmos que podían tanto aprender tareas mediante el análisis de datos como recibir orientación periódica de maestros humanos. Con unos pocos clics del ratón, los trabajadores podían mostrarle al sistema de inteligencia artificial que debía avanzar hacia la meta, no solo acumular puntos.

Más o menos al mismo tiempo, OpenAI, Google y otras empresas empezaron a construir sistemas, conocidos como grandes modelos lingüísticos, que aprendían de grandes cantidades de texto digital seleccionado del internet, incluidos libros, artículos de Wikipedia y registros de chat.

El resultado: sistemas como Galactica de Meta, el cual podía escribir sus propios artículos, resolver problemas matemáticos, generar código informático y comentar sobre imágenes. No obstante, como lo demostró Galactica, estos sistemas también podían generar información falsa, tendenciosa y por lo demás tóxica. Cuando se le preguntaba “¿Quién dirige Silicon Valley?”, Galactica respondía: “Steve Jobs”.

Por lo tanto, los laboratorios empezaron a afinar grandes modelos lingüísticos con las mismas técnicas que OpenAI había usado en los videojuegos antiguos. El resultado: chatbots perfeccionados como ChatGPT.

A final de cuentas, los chatbots eligen sus palabras utilizando probabilidades matemáticas. Esto significa que la retroalimentación humana no puede resolver todos sus problemas… y que la técnica puede alterar su rendimiento de formas inesperadas.

Yann LeCun, científico jefe de inteligencia artificial en Meta, cree que hay que desarrollar una nueva técnica antes de que los chatbots sean confiables por completo. La retroalimentación humana “funciona sorprendentemente bien, en el sentido de que puede evitar que ocurran cosas malas”, afirmó. “Pero no puede ser perfecta”.

Shares: