Lo que una conversación interminable con Werner Herzog puede enseñarnos sobre la IA
Sobre el sitio web conversación infinitael cineasta alemán werner herzog y el filósofo esloveno Slavoj Žižek están teniendo una charla pública sobre cualquier cosa y todo. Su discusión es convincente, en parte, porque estos intelectuales tienen acentos distintivos cuando hablan inglés, sin mencionar una tendencia hacia la elección de palabras excéntricas. Pero tienen algo más en común: ambas voces son falsas y el texto que pronuncian con esos acentos distintivos está siendo generado por inteligencia artificial.
Construí esta conversación como una advertencia. Las mejoras en lo que se conoce como aprendizaje automático han hecho que las falsificaciones profundas (imágenes, videos o discursos increíblemente realistas pero falsos) sean demasiado fáciles de crear y su calidad sea demasiado buena. Al mismo tiempo, la IA generadora de lenguaje puede producir grandes cantidades de texto de forma rápida y económica. Juntas, estas tecnologías pueden hacer más que organizar una conversación infinita. Tienen la capacidad de ahogarnos en un océano de desinformación.
El aprendizaje automático, una técnica de IA que utiliza grandes cantidades de datos para “entrenar” un algoritmo para mejorar a medida que realiza una tarea en particular de manera repetitiva, está atravesando una fase de rápido crecimiento. Esto está empujando a sectores enteros de la tecnología de la información a nuevos niveles, incluida la síntesis de voz, sistemas que producen expresiones que los humanos pueden entender. Como alguien interesado en el espacio liminal entre humanos y máquinas, siempre me ha parecido una aplicación fascinante. Entonces, cuando esos avances en el aprendizaje automático permitieron que la síntesis de voz y la tecnología de clonación de voz mejoraran a pasos agigantados en los últimos años, después de una larga historia de pequeñas mejoras incrementales, tomé nota.
Infinite Conversation comenzó cuando me topé con un programa de síntesis de voz ejemplar llamado Coqui TTS. Muchos proyectos en el dominio digital comienzan con la búsqueda de una biblioteca de software previamente desconocida o un programa de código abierto. Cuando descubrí este kit de herramientas, acompañado de una floreciente comunidad de usuarios y mucha documentación, supe que tenía todos los ingredientes necesarios para clonar una voz famosa.
Como apreciador del trabajo, la personalidad y la visión del mundo de Werner Herzog, siempre me ha atraído su voz y su forma de hablar. No estoy solo, ya que la cultura pop ha convertido a Herzog en una caricatura literal: sus cameos y colaboraciones incluyen Los Simpsons, rick y morty y pinguinos de madagascar. Entonces, cuando se trataba de elegir la voz de alguien para jugar, no había mejor opción, especialmente porque sabía que tendría que escuchar esa voz durante horas y horas. Es casi imposible cansarse de escuchar su discurso seco y su marcado acento alemán, que transmiten una seriedad que no se puede ignorar.
Construir un equipo de entrenamiento para clonar la voz de Herzog fue la parte más fácil del proceso. Entre sus entrevistas, locuciones y audiolibros, hay literalmente cientos de horas de discurso que se pueden aprovechar para entrenar un modelo de aprendizaje automático o, en mi caso, ajustar uno existente. La salida de un algoritmo de aprendizaje automático generalmente mejora en “épocas”, que son ciclos a través de los cuales la red neuronal se entrena con todos los datos de entrenamiento. Luego, el algoritmo puede muestrear los resultados al final de cada época, lo que le brinda al investigador material para revisar a fin de evaluar qué tan bien está progresando el programa. Con la voz sintética de Werner Herzog, escuchar la mejora del modelo con cada época fue como presenciar un nacimiento metafórico, con su voz cobrando vida gradualmente en el ámbito digital.
Una vez que tuve una voz de Herzog satisfactoria, comencé a trabajar en una segunda voz e intuitivamente elegí a Slavoj Žižek. Al igual que Herzog, Žižek tiene un acento interesante y estrafalario, una presencia relevante en el ámbito intelectual y conexiones con el mundo del cine. También ha alcanzado un cierto estrellato popular, en parte gracias a su fervor polémico y, a veces, a sus ideas controvertidas.
En este punto, todavía no estaba seguro de cuál iba a ser el formato final de mi proyecto, pero como me sorprendió lo fácil y fluido que fue todo el proceso de clonación de voz, sabía que era una advertencia para cualquiera. quien prestara atencion. Los deepfakes se han vuelto demasiado buenos y demasiado fáciles de hacer; apenas este mes, Microsoft anunció una nueva herramienta de síntesis de voz llamada VALL-E que, según afirman los investigadores, puede imitar cualquier voz con solo tres segundos de audio grabado. Estamos a punto de enfrentar una crisis de confianza y no estamos preparados para ella.
Para enfatizar la capacidad de esta tecnología para producir grandes cantidades de desinformación, me decidí por la idea de una conversación interminable. Solo necesitaba un modelo de lenguaje grande, ajustado con precisión en los textos escritos por cada uno de los dos participantes, y un programa simple para controlar el ir y venir de la conversación, para que su flujo se sintiera natural y creíble.
En esencia, los modelos de lenguaje predicen la siguiente palabra en una secuencia, dada una serie de palabras ya presentes. Al ajustar un modelo de lenguaje, es posible replicar el estilo y los conceptos de los que es probable que hable una persona específica, siempre que tenga abundantes transcripciones de conversaciones para esa persona. Decidí utilizar uno de los principales modelos de lenguaje comercial disponibles. Fue entonces cuando me di cuenta de que ya es posible generar un diálogo falso, incluida su forma de voz sintética, en menos tiempo del que lleva escucharlo. Esto me proporcionó un nombre obvio para el proyecto: Infinite Conversation. Después de un par de meses de trabajo, lo publiqué en línea en octubre pasado. La Conversación Infinita también se exhibirá, a partir del 11 de febrero, en el Museo de la desalineación Instalación de arte en San Francisco.
Una vez que todas las piezas encajaron, me maravilló algo que no se me había ocurrido cuando comencé el proyecto. Al igual que sus personajes de la vida real, mis versiones de chatbot de Herzog y Žižek conversan a menudo sobre temas de filosofía y estética. Debido a la naturaleza esotérica de estos temas, el oyente puede ignorar temporalmente las tonterías ocasionales que genera el modelo. Por ejemplo, la visión de AI Žižek de Alfred Hitchcock alterna entre ver al famoso director como un genio y como un cínico manipulador; en otra inconsistencia, el verdadero Herzog notoriamente odia a los pollos, pero su imitador de IA a veces habla de las aves con compasión. Debido a que la filosofía posmoderna real puede leerse como confusa, un problema El propio Žižek señalóla falta de claridad en la Conversación Infinita puede interpretarse como una profunda ambigüedad más que como contradicciones imposibles.
Esto probablemente contribuyó al éxito general del proyecto. Varios cientos de visitantes de Infinite Conversation han escuchado durante más de una hora y, en algunos casos, las personas han sintonizado durante mucho más tiempo. Como menciono en el sitio web, mi esperanza para los visitantes de Infinite Conversation es que no se detengan demasiado en lo que dicen los chatbots, sino que tomen conciencia de esta tecnología y sus consecuencias; Si esta charla generada por IA parece plausible, imagine los discursos que suenan realistas que podrían usarse para empañar la reputación de los políticos, estafar a los líderes empresariales o simplemente distraer a las personas con información errónea que suena como noticias reportadas por humanos.
Pero hay un lado positivo. Los visitantes de Infinite Conversation pueden unirse a un número creciente de oyentes que informan que usan las voces relajantes de Werner Herzog y Slavoj Žižek como una forma de ruido blanco para conciliar el sueño. Ese es un uso de esta nueva tecnología en el que puedo entrar.
Este es un artículo de opinión y análisis, y las opiniones expresadas por el autor o autores no son necesariamente las de Científico americano.