Lo que una conversación interminable con Werner Herzog puede enseñarnos sobre la IA
En el sitio web Infinite Conversation, el cineasta alemán Werner Herzog y el filósofo esloveno Slavoj Žižek hablan abiertamente de cualquier cosa. Sus discusiones son persuasivas, en parte porque estos intelectuales hablan inglés con un acento pronunciado, sin mencionar su inclinación por el uso excéntrico de palabras. Pero también tenían algo más en común: ambas voces eran falsas y las palabras que pronunciaban con estos acentos únicos fueron generadas por inteligencia artificial.
Creo este diálogo como una advertencia. Las mejoras en el llamado aprendizaje automático han hecho que las falsificaciones profundas (imágenes, videos o voces increíblemente realistas pero falsas) sean demasiado fáciles de crear y su calidad sea demasiado buena. Mientras tanto, la IA generadora de lenguaje puede generar grandes cantidades de texto de forma rápida y económica. Juntas, estas tecnologías permiten más que solo conversaciones ilimitadas. Tienen el poder de ahogarnos en un mar de desinformación.
El aprendizaje automático, una técnica de inteligencia artificial que utiliza grandes cantidades de datos para «entrenar» algoritmos para mejorar a medida que realizan tareas específicas repetidamente, está atravesando una fase de rápido crecimiento. Esto ha llevado todo el campo de la tecnología de la información al siguiente nivel, incluida la síntesis de voz, sistemas que producen un habla que los humanos pueden entender. Como alguien interesado en el espacio límite entre humanos y máquinas, siempre me ha parecido una aplicación fascinante. Entonces, cuando estos avances en el aprendizaje automático han permitido que las tecnologías de síntesis de voz y clonación de voz den grandes saltos en los últimos años, después de un largo período de pequeñas mejoras incrementales, me doy cuenta.
Infinite Conversation comenzó cuando me topé con un programa ejemplar de síntesis de voz llamado Coqui TTS. Muchos proyectos en el espacio digital comienzan por encontrar bibliotecas de software previamente desconocidas o programas de código abierto. Cuando descubrí este kit, junto con su próspera comunidad de usuarios y su extensa documentación, supe que tenía todos los ingredientes necesarios para clonar sonidos famosos.
Como admirador del trabajo, los personajes y la cosmovisión de Werner Herzog, siempre me ha fascinado su voz y su forma de hablar. No estoy solo, ya que la cultura pop ha convertido a Herzog en un personaje de dibujos animados: sus cameos y colaboraciones incluyen Los Simpson, Rick y Morty y Los pingüinos de Madagascar. Entonces, cuando se trata de elegir la voz de alguien para jugar, no hay mejor opción, especialmente porque sé que tendré que escuchar esa voz durante horas y horas. Casi nunca es aburrido escuchar sus discursos secos y su fuerte acento alemán, que transmiten una seriedad que no se puede ignorar.
Construir el conjunto de entrenamiento para clonar la voz de Herzog fue la parte más fácil del proceso. Entre sus entrevistas, voces en off y audiolibros, hay literalmente cientos de horas de conferencias que podrían usarse para entrenar modelos de aprendizaje automático o, en mi caso, ajustar modelos existentes. La salida de un algoritmo de aprendizaje automático generalmente mejora durante las «épocas», que son los períodos durante los cuales se entrena una red neuronal utilizando todos los datos de entrenamiento. Luego, el algoritmo puede muestrear los resultados al final de cada época, proporcionando a los investigadores material para revisar y evaluar cómo va el programa. Con la voz sintetizada de Werner Herzog, escuchar la mejora del modelo con cada era que pasa se siente como presenciar el nacimiento de una metáfora a medida que su voz cobra vida gradualmente en el ámbito digital.
Una vez que tuve una voz de Herzog satisfactoria, comencé a buscar una segunda voz y elegí a Slavoj Zizek intuitivamente. Al igual que Herzog, Žižek tiene un acento divertido y peculiar, tiene una presencia relevante en los círculos intelectuales y tiene vínculos con el cine. También logró cierto grado de popularidad, en parte debido a su entusiasmo polémico y, a veces, a sus ideas controvertidas.
En este punto, todavía no estoy seguro de cuál será el formato final de mi proyecto, pero estoy sorprendido de lo fácil y fluido que fue todo el proceso de clonación de voz, y sé que es una advertencia para cualquiera que esté prestando atención. Los deepfakes se han vuelto demasiado buenos y demasiado fáciles de hacer; solo este mes, Microsoft anunció una nueva herramienta de síntesis de voz llamada VALL-E, que según los investigadores puede imitar cualquier discurso de solo tres segundos de audio grabado. Estamos a punto de afrontar una crisis de confianza y no estamos preparados para ello.
Para subrayar la capacidad de la tecnología para generar cantidades masivas de desinformación, decidí entablar una conversación interminable. Todo lo que necesitaba era un modelo de lenguaje grande, ajustado con precisión en función del texto que cada uno de los dos participantes había escrito, y un programa simple para controlar las idas y venidas de la conversación para que su flujo se sintiera natural y creíble.
En esencia, los modelos de lenguaje predicen la siguiente palabra en una secuencia basándose en una secuencia de palabras que ya existe. Al ajustar un modelo de lenguaje, es posible replicar el estilo y los conceptos de los que podría hablar una persona en particular, siempre que tenga una transcripción grande de las conversaciones de esa persona. Decidí utilizar uno de los principales modelos de lenguaje comercial. Fue entonces cuando me di cuenta de que ya era posible generar un diálogo falso, incluida su forma de habla sintética, en menos tiempo que escucharlo. Esto me dio un nombre de proyecto obvio: conversación infinita. Después de varios meses de trabajo, lo publiqué online el pasado mes de octubre. A partir del 11 de febrero, Infinite Conversation también estará a la vista en la instalación de arte Misplacement Museum en San Francisco.
Una vez que todas las piezas estuvieron en su lugar, me sorprendieron las cosas en las que no pensé cuando comencé este proyecto. Al igual que sus personajes de la vida real, mis versiones de chatbot de Herzog y Žižek a menudo entablan conversaciones sobre temas filosóficos y estéticos. Debido a la naturaleza esotérica de estos temas, los oyentes pueden ignorar temporalmente las tonterías ocasionales producidas por los modelos. Por ejemplo, la versión de Al Žižek de Alfred Hitchcock alterna entre ver al famoso director como un genio y un cínico manipulador. En otra contradicción, se sabe que el verdadero Herzog odia a los pollos, pero sus imitadores de IA a veces hablan con simpatía sobre las aves de corral. Debido a que la lectura de la filosofía posmoderna actual puede ser confusa, y el mismo Žižek señala un problema, la falta de claridad en el diálogo infinito puede interpretarse como una profunda ambigüedad en lugar de una contradicción imposible.
Esto puede contribuir al éxito general del proyecto. Cientos de visitantes de Infinite Conversation han estado escuchando durante más de una hora y, en algunos casos, más tiempo. Como mencioné en el sitio, espero que los visitantes de Infinite Conversation no presten demasiada atención a lo que dice el chatbot, sino que comprendan la tecnología y sus consecuencias; si este chat generado por IA parece plausible, entonces imaginen cómo estos chatbots son realistas. Los discursos sonoros podrían usarse para empañar la reputación de los políticos, engañar a los líderes empresariales o simplemente distraer a las personas con información errónea que suena como un informe humano.
Pero también hay un lado positivo. Los visitantes de Infinite Conversation pueden unirse al creciente número de oyentes que informan que usan los sonidos relajantes de Werner Herzog y Slavoj Žižek como una forma de ruido blanco para conciliar el sueño. Ese es el uso de esta nueva tecnología a la que tengo acceso.
Este es un artículo de opinión y análisis y las opiniones expresadas por el autor o los autores no son necesariamente las de Noticias-Hoy.