La IA puede recrear lo que ves a partir de un escáner cerebral
La resonancia magnética funcional (fMRI) es una de las herramientas más avanzadas para comprender nuestra forma de pensar. Cuando una persona realiza varias tareas mentales en un escáner fMRI, la máquina genera fascinantes imágenes coloridas de la actividad cerebral.
Observar la actividad cerebral de una persona de esta manera puede decirles a los neurocientíficos qué regiones del cerebro está usando una persona, pero no qué está pensando, viendo o sintiendo. Los investigadores han estado tratando de descifrar ese código durante décadas, y ahora, utilizando inteligencia artificial para procesar los números, han logrado un progreso significativo. Dos científicos en Japón combinaron recientemente datos de fMRI con inteligencia artificial avanzada de generación de imágenes para traducir la actividad cerebral de los participantes del estudio en imágenes sorprendentemente similares a lo que vieron durante los escaneos. Las imágenes originales y recreadas están disponibles en el sitio web de los investigadores.
«Podemos usar estas técnicas para construir posibles interfaces cerebro-computadora», dijo Yu Takagi, neurocientífico de la Universidad de Osaka en Japón y uno de los autores del estudio. Estas interfaces futuristas algún día podrían ayudar a las personas que actualmente no pueden comunicarse, como las personas que parecen no responder pero que aún pueden estar conscientes. La investigación fue aceptada recientemente para su presentación en la Conferencia Computer Vision and Pattern Recognition 2023.
El estudio se ha convertido en una sensación en línea desde que se publicó como preimpresión (lo que significa que aún no ha sido revisado por pares ni publicado) en diciembre de 2022. Los comentaristas en línea incluso han comparado la tecnología con la «lectura de la mente». Pero los expertos dicen que la caracterización exagera las capacidades de la tecnología.
«No creo que estemos leyendo la mente», dice Shailee Jain, neurocientífica computacional de la Universidad de Texas en Austin, que no participó en el nuevo estudio. «No creo que la tecnología esté lejos de ser útil para los pacientes en este momento, o que se use para cosas malas. Pero estamos mejorando cada día».
El nuevo estudio está lejos de ser el primero en utilizar la inteligencia artificial en la actividad cerebral para reconstruir las imágenes que ven las personas. En un experimento de 2022, investigadores en Kioto, Japón, utilizaron un tipo de aprendizaje automático llamado red neuronal profunda para reconstruir imágenes a partir de escaneos de IRMf. El resultado se parecía más a una pintura abstracta que a una fotografía, pero los jueces humanos aún pudieron hacer coincidir con precisión la imagen generada por IA con el original.
Desde entonces, los neurocientíficos han continuado este trabajo con generadores de imágenes de IA más nuevos y mejores. En el estudio reciente, los investigadores utilizaron Stable Diffusion, el llamado modelo de difusión de la startup Stability AI con sede en Londres. Los modelos de difusión, una categoría que también incluye generadores de imágenes como el DALL-E 2, son “la característica principal de la explosión de IA”, dijo Takagi. Estos modelos aprenden añadiendo ruido a las imágenes de entrenamiento. Al igual que con las imágenes fijas de televisión, el ruido distorsiona la imagen, pero de la manera predecible, el modelo comienza a aprender. En última instancia, el modelo puede generar imágenes solo a partir de «estáticas».
Lanzado al público en agosto de 2022, Stable Diffusion ha sido entrenado en miles de millones de fotos y sus leyendas. Aprendió a reconocer patrones en imágenes, por lo que podía mezclar y combinar características visuales a pedido para generar imágenes completamente nuevas. «Simplemente le dices, ‘Un perro está en una patineta’, y genera un perro en una patineta», dice Iris Groen, neurocientífica de la Universidad de Amsterdam que no participó en el nuevo estudio. Los investigadores «simplemente tomaron ese modelo y dijeron: ‘Está bien, ¿podemos ahora relacionarlo con los escáneres cerebrales de una manera inteligente?'».
Los escáneres cerebrales utilizados en el nuevo estudio provinieron de una base de datos de investigación que contenía los resultados de un estudio anterior en el que ocho participantes acordaron usar un escáner fMRI regularmente y ver 10 000 imágenes en el transcurso de un año. El resultado fue un vasto depósito de datos de resonancia magnética funcional que mostraba cómo los centros visuales del cerebro humano (o al menos los de estos ocho participantes humanos) respondían al ver cada imagen. En el estudio reciente, los investigadores utilizaron datos de cuatro participantes originales.
Para generar imágenes reconstruidas, los modelos de IA necesitan procesar dos tipos diferentes de información: las propiedades visuales de bajo nivel de la imagen y su significado de alto nivel. Por ejemplo, no es solo un objeto angular y alargado contra un fondo azul, es un avión en el cielo. El cerebro también procesa ambos tipos de información y los procesa en diferentes áreas. Para vincular los escáneres cerebrales y la IA, los investigadores utilizaron modelos lineales para emparejar cada parte que procesa información visual de bajo nivel. También hicieron lo mismo para la sección que trata sobre información conceptual de alto nivel.
«Esencialmente, al mapearlos entre sí, pudieron generar estas imágenes», dijo Groen. Luego, el modelo de IA puede aprender qué patrones sutiles en la actividad cerebral de una persona corresponden a qué características de la imagen. Una vez que el modelo pudo reconocer estos patrones, los investigadores lo alimentaron con datos de fMRI que nunca antes había visto y le pidieron que generara imágenes para que coincidieran. Finalmente, los investigadores pueden comparar las imágenes generadas con las imágenes originales para ver qué tan bien funcionó el modelo.
Muchos de los pares de imágenes presentados por los autores en el estudio se ven sorprendentemente similares. «Lo que me emociona es cómo funciona», dijo Ambuj Singh, científico informático de la Universidad de California en Santa Bárbara, que no participó en la investigación. Aún así, dijo Singer, eso no significa que los científicos hayan descubierto cómo el cerebro procesa el mundo visual. Un modelo de difusión estable no necesariamente procesaría las imágenes de la misma manera que el cerebro, incluso si pudiera generar resultados similares. Los autores esperan que la comparación de estos modelos con el cerebro arroje luz sobre el funcionamiento interno de estos dos sistemas complejos.
Tan sorprendente como suena esta tecnología, tiene una serie de limitaciones. Cada modelo debe aceptar y utilizar los datos de una persona. «El cerebro de todos es realmente diferente», dice la neurocientífica computacional Lynn Le de la Universidad de Radboud en los Países Bajos, que no participó en el estudio. Si desea que la IA reconstruya imágenes a partir de escaneos de su cerebro, tendrá que entrenar un modelo personalizado, y para eso, los científicos necesitarán una gran cantidad de datos de fMRI de alta calidad de su cerebro. Ninguno de los modelos de IA existentes tiene suficientes datos para comenzar a decodificar su actividad cerebral a menos que acepte quedarse completamente quieto y concentrarse en las miles de imágenes dentro de un tubo de resonancia magnética claustrofóbico y ruidoso.
Incluso con estos datos, explicó Jain, los modelos de IA solo son buenos en las tareas para las que fueron entrenados explícitamente. Un modelo entrenado en cómo percibes las imágenes no podrá tratar de decodificar los conceptos en los que estás pensando, aunque algunos equipos de investigación, incluido el de Jain, están construyendo otros modelos para eso.
No está claro si la técnica podrá reconstruir imágenes que los participantes solo imaginaron en lugar de verlas con sus propios ojos. Esta capacidad es necesaria para muchas aplicaciones de la tecnología, como el uso de interfaces cerebro-computadora para ayudar a las personas que no pueden hablar o gesticular a comunicarse con el mundo.
«Desde el punto de vista de la neurociencia, hay muchas ganancias en la construcción de tecnología de decodificación», dijo Jain. Pero los beneficios potenciales vienen con posibles dilemas éticos, y abordarlos será aún más importante a medida que mejoren estas tecnologías. Las limitaciones actuales de la tecnología «no son una excusa para ser complaciente con el daño potencial de la decodificación», dijo. «Creo que es hora de pensar en la privacidad y los usos negativos de esta tecnología, aunque probablemente no estemos en la etapa en que eso podría suceder».