El científico informático que entrena a la IA para pensar con analogías
El libro ganador del premio Pulitzer Gödel, Escher, Bach inspiró a legiones de informáticos en 1979, pero pocos estaban tan inspirados como Melanie Mitchell. Después de leer el tomo de 777 páginas, Mitchell, una profesora de matemáticas de secundaria en Nueva York, decidió que «tenía que estar» en inteligencia artificial. Pronto localizó al autor del libro, el investigador de inteligencia artificial Douglas Hofstadter, y lo convenció de que le diera una pasantía. Ella solo había tomado un puñado de cursos de informática en ese momento, pero él parecía impresionado con su descaro y despreocupado por sus credenciales académicas.
Mitchell preparó una solicitud para la escuela de posgrado de «último minuto» y se unió al nuevo laboratorio de Hofstadter en la Universidad de Michigan en Ann Arbor. Los dos pasaron los siguientes seis años colaborando estrechamente en Copycat, un programa de computadora que, en palabras de sus co-creadores, fue diseñado para «descubrir analogías perspicaces y hacerlo de una manera psicológicamente realista».
Las analogías que se le ocurrieron a Copycat fueron entre patrones simples de letras, similares a las analogías en las pruebas estandarizadas. Un ejemplo: «Si la cadena ‘abc’ cambia a la cadena ‘abd’, ¿a qué cambia la cadena ‘pqrs’?» Hofstadter y Mitchell creían que comprender el proceso cognitivo de la analogía (cómo los seres humanos establecen conexiones abstractas entre ideas, percepciones y experiencias similares) sería crucial para desbloquear una inteligencia artificial similar a la humana.
Mitchell sostiene que la analogía puede ser mucho más profunda que la coincidencia de patrones al estilo de un examen. “Es entender la esencia de una situación mapeándola en otra situación que ya se entiende”, dijo. “Si me cuentas una historia y digo, ‘Ay, me pasó lo mismo’, literalmente no me pasó lo mismo que te pasó a ti, pero puedo hacer un mapeo que lo hace parecer muy análogo. Es algo que los humanos hacemos todo el tiempo sin siquiera darnos cuenta de que lo estamos haciendo. Estamos nadando en este mar de analogías constantemente”.
Como profesora Davis de complejidad en el Instituto Santa Fe, Mitchell ha ampliado su investigación más allá del aprendizaje automático. Actualmente dirige el proyecto Fundamentos de la inteligencia en sistemas naturales y artificiales de SFI, que convocará una serie de talleres interdisciplinarios durante el próximo año para examinar cómo la evolución biológica, el comportamiento colectivo (como el de los insectos sociales como las hormigas) y un cuerpo físico contribuyen a inteligencia. Pero el papel de la analogía es más importante que nunca en su trabajo, especialmente en la IA, un campo cuyos principales avances en la última década han sido impulsados en gran medida por las redes neuronales profundas, una tecnología que imita la organización en capas de las neuronas en los cerebros de los mamíferos.
“Las redes neuronales de última generación de hoy en día son muy buenas para ciertas tareas”, dijo, “pero son muy malas para tomar lo que han aprendido en un tipo de situación y transferirlo a otra”, la esencia. de analogía
cuantos habló con Mitchell sobre cómo la IA puede hacer analogías, lo que el campo ha aprendido sobre ellos hasta ahora y hacia dónde debe ir a continuación. La entrevista ha sido condensada y editada para mayor claridad.
¿Por qué la analogía es tan importante para la IA?
Es un mecanismo de pensamiento fundamental que ayudará a la IA a llegar a donde queremos que esté. Algunas personas dicen que ser capaz de predecir el futuro es la clave para la IA, o ser capaz de tener sentido común o la capacidad de recuperar recuerdos que son útiles en una situación actual. Pero en cada una de estas cosas, la analogía es muy central.
Por ejemplo, queremos coches autónomos, pero uno de los problemas es que si se enfrentan a alguna situación que se aleja un poco de lo que les ha enseñado, no saben qué hacer. ¿Cómo sabemos los humanos qué hacer en situaciones que no hemos encontrado antes? Bueno, usamos analogías con la experiencia previa. Y eso es algo para lo que también vamos a necesitar estos sistemas de IA en el mundo real.
Pero también ha escrito que la analogía es «un área poco estudiada en IA». Si es tan fundamental, ¿por qué es así?
Una de las razones por las que la gente no lo ha estudiado tanto es porque no han reconocido su importancia esencial para la cognición. Centrarse en la lógica y la programación en las reglas de comportamiento: así funcionaba la IA temprana. Más recientemente, la gente se ha centrado en aprender de montones y montones de ejemplos, y luego suponer que podrá hacer inducción a cosas que no ha visto antes usando solo las estadísticas de lo que ya ha aprendido. Esperaban que las habilidades para generalizar y resumir surgieran de las estadísticas, pero no funcionó tan bien como la gente esperaba.
Puede mostrarle a una red neuronal profunda millones de imágenes de puentes, por ejemplo, y probablemente pueda reconocer una nueva imagen de un puente sobre un río o algo así. Pero nunca puede abstraer la noción de “puente” a, digamos, nuestro concepto de cerrar la brecha de género. Resulta que estas redes no aprenden a abstraer. Falta algo. Y la gente ahora solo está lidiando con eso.
Melanie Mitchell, profesora Davis de complejidad en el Instituto Santa Fe, ha trabajado en mentes digitales durante décadas. Ella dice que la IA nunca será realmente «inteligente» hasta que pueda hacer algo exclusivamente humano: hacer analogías. Crédito: Revista Emily Buder Quanta; Gabriella Marks para la revista Quanta
¿Y nunca aprenderán a abstraer?
Hay nuevos enfoques, como el metaaprendizaje, donde las máquinas “aprenden a aprender” mejor. O el aprendizaje autosupervisado, en el que sistemas como GPT-3 aprenden a completar una oración a la que le falta una de las palabras, lo que le permite generar un lenguaje muy, muy convincente. Algunas personas argumentarían que sistemas como ese eventualmente, con suficientes datos, aprenderán a hacer esta tarea de abstracción. Pero no lo creo.
Ha descrito esta limitación como «la barrera del significado»: los sistemas de IA pueden emular la comprensión en ciertas condiciones, pero se vuelven frágiles y poco confiables fuera de ellas. ¿Por qué crees que la analogía es nuestra forma de salir de este problema?
Mi sensación es que resolver el problema de la fragilidad requerirá un significado. Eso es lo que en última instancia causa el problema de la fragilidad: estos sistemas no entienden, en ningún sentido humano, los datos con los que están tratando.
Esta palabra «comprender» es una de esas palabras de maleta que nadie está de acuerdo con lo que realmente significa, casi como un marcador de posición para fenómenos mentales que aún no podemos explicar. Pero creo que este mecanismo de abstracción y analogía es clave para lo que los humanos llamamos comprensión. Es un mecanismo por el cual se produce la comprensión. Somos capaces de tomar algo que ya conocemos de alguna manera y convertirlo en algo nuevo.
Entonces, ¿la analogía es una forma en que los organismos se mantienen cognitivamente flexibles, en lugar de comportarse como robots?
Creo que hasta cierto punto, sí. La analogía no es solo algo que hacemos los humanos. Algunos animales son una especie de robots, pero otras especies pueden tomar experiencias previas y mapearlas en nuevas experiencias. Tal vez sea una forma de poner un espectro de inteligencia en diferentes tipos de sistemas vivos: ¿Hasta qué punto se pueden hacer analogías más abstractas?
Una de las teorías de por qué los humanos tienen este tipo particular de inteligencia es porque somos muy sociales. Una de las cosas más importantes que debe hacer es modelar lo que otras personas piensan, comprender sus objetivos y predecir lo que van a hacer. Y eso es algo que haces por analogía contigo mismo. Puedes ponerte en la posición de la otra persona y hacer un mapa de tu propia mente con la de ellos. Esta “teoría de la mente” es algo de lo que la gente de IA habla todo el tiempo. Es esencialmente una forma de hacer una analogía.
Su sistema Copycat fue un intento temprano de hacer esto con una computadora. ¿Había otros?
El trabajo de “mapeo de estructuras” en IA se centró en representaciones basadas en lógica de situaciones y en hacer mapeos entre ellas. Ken Forbus y otros utilizaron la famosa analogía [made by Ernest Rutherford in 1911] del sistema solar al átomo. Tendrían un conjunto de oraciones. [in a formal notation called predicate logic] describiendo estas dos situaciones, y las mapearon no en función del contenido de las oraciones, sino en función de su estructura. Esta noción es muy poderosa, y creo que es correcta. Cuando los humanos intentan dar sentido a las similitudes, nos enfocamos más en las relaciones que en los objetos específicos.
¿Por qué estos enfoques no despegaron?
Todo el tema del aprendizaje quedó en gran parte fuera de estos sistemas. El mapeo de estructuras tomaría estas palabras que estaban muy, muy cargadas de significado humano, como «la Tierra gira alrededor del sol» y «el electrón gira alrededor del núcleo», y las mapearía entre sí, pero no había un modelo interno de lo que “gira alrededor” significaba. Era solo un símbolo. Copycat funcionó bien con cadenas de letras, pero lo que nos faltaba era una respuesta a la pregunta de cómo ampliamos esto y lo generalizamos a los dominios que realmente nos interesan.
El aprendizaje profundo escala bastante bien. ¿Ha sido más efectivo para producir analogías significativas?
Existe la opinión de que las redes neuronales profundas hacen esta magia entre sus capas de entrada y salida. Si pueden ser mejores que los humanos para reconocer diferentes tipos de razas de perros, que lo son, deberían poder resolver estos problemas de analogía realmente simples. Entonces, las personas crearían un gran conjunto de datos para entrenar y probar su red neuronal y publicar un artículo que diga: «Nuestro método acierta en un 80% en esta prueba». Y alguien más diría: “Espera, tu conjunto de datos tiene algunas propiedades estadísticas extrañas que permiten que la máquina aprenda a resolverlas sin poder generalizar. Aquí hay un nuevo conjunto de datos en el que su máquina funciona horriblemente, pero la nuestra funciona muy bien”. Y esto sigue y sigue y sigue.
El problema es que ya perdiste la batalla si tienes que entrenarla con miles y miles de ejemplos. De eso no se trata la abstracción. Se trata de lo que la gente en el aprendizaje automático llama «aprendizaje de pocos intentos», lo que significa que aprendes con una cantidad muy pequeña de ejemplos. Para eso es realmente la abstracción.
Entonces, ¿qué falta todavía? ¿Por qué no podemos unir estos enfoques como si fueran bloques de Lego?
¡No tenemos el libro de instrucciones que te dice cómo hacerlo! Pero creo que tenemos que Lego todos juntos. Eso está en la frontera de esta investigación: ¿Cuál es la idea clave de todas estas cosas y cómo pueden complementarse entre sí?
Mucha gente está bastante interesada en el Corpus de Abstracción y Razonamiento [ARC], que es una tarea de aprendizaje de pocos disparos muy desafiante construida en torno al «conocimiento básico» con el que los humanos nacen esencialmente. Sabemos que el mundo debe analizarse en objetos, y sabemos algo sobre la geometría del espacio, como si algo estuviera encima o debajo de algo. [else]. En ARC, hay una cuadrícula de colores que cambia a otra cuadrícula de colores de una manera que los humanos podrían describir en términos de este conocimiento central, como, «Todos los cuadrados de un color van a la derecha, todos los cuadrados del otro color ve a la izquierda.” Te da un ejemplo como este y luego te pide que hagas lo mismo con otra cuadrícula de colores.
Pienso en ello como un desafío de analogía. Está tratando de encontrar algún tipo de descripción abstracta de cuál fue el cambio de una imagen a una nueva imagen, y no puede aprender ninguna correlación estadística extraña porque todo lo que tiene son dos ejemplos. Cómo hacer que las máquinas aprendan y razonen con este conocimiento básico que tiene un bebé: esto es algo que ninguno de los sistemas que he mencionado hasta ahora puede hacer. Es por eso que ninguno de ellos puede manejar este conjunto de datos ARC. Es un poco un santo grial.
Si los bebés nacen con este «conocimiento básico», ¿significa eso que para que una IA haga este tipo de analogías, también necesita un cuerpo como el que tenemos nosotros?
Esa es la pregunta del millón. Ese es un tema muy controvertido sobre el que la comunidad de IA no tiene consenso. Mi intuición es que sí, no podremos llegar a la analogía humana. [in AI] sin algún tipo de encarnación. Tener un cuerpo puede ser esencial porque algunos de estos problemas visuales requieren que pienses en ellos en tres dimensiones. Y eso, para mí, tiene que ver con haber vivido en el mundo y haber movido la cabeza, y haber entendido cómo se relacionan espacialmente las cosas. No sé si una máquina tiene que pasar por esa etapa. Creo que probablemente lo hará.
Reimpreso con permiso de Revista Cuantauna publicación editorialmente independiente de la Fundación Simons cuya misión es mejorar la comprensión pública de la ciencia al cubrir los desarrollos y tendencias de investigación en matemáticas y ciencias físicas y de la vida. Lee el artículo original aquí.