Qué puede hacer la nueva IA GPT-4

La firma de investigación tecnológica OpenAI acaba de lanzar una versión actualizada de su programa de inteligencia artificial generadora de texto, llamado GPT-4, y demostró algunas capacidades nuevas del modelo de lenguaje. GPT-4 no solo produce texto más natural y resuelve problemas con mayor precisión que su predecesor. Además de texto, también puede manejar imágenes. Pero la IA sigue siendo vulnerable a algunos de los mismos problemas que aquejaron a los modelos GPT anteriores: exhibir prejuicios, saltar las barandillas para evitar que diga cosas ofensivas o peligrosas, y «alucinar» o inventar con confianza cosas que no encontró. en sus datos de entrenamiento.
En Twitter, el CEO de OpenAI, Sam Altman, describió el modelo como el modelo «más capaz y consistente» de la compañía hasta la fecha. («Alineado» significa que está diseñado para seguir la moralidad humana). Pero «aún tiene fallas, aún es limitado y aún se ve más impresionante en el primer uso que después de haber pasado más tiempo con él», escribió en un tuit.
Quizás el cambio más importante es que GPT-4 es «multimodal», lo que significa que puede manejar tanto texto como imágenes. Si bien no puede generar imágenes (como los modelos generativos de IA como DALL-E y Stable Diffusion), puede procesar y responder a la información visual que recibe. Annette Vee, profesora asociada de inglés en la Universidad de Pittsburgh que estudia la intersección de la computación y la escritura, observó una demostración en la que se le dijo al nuevo modelo que reconociera lo divertido de una imagen humorística. Ser capaz de hacer eso significa «comprender el contexto en una imagen. Es comprender cómo y por qué se compone una imagen y conectar eso con la comprensión del lenguaje por parte de la sociedad», dijo. «ChatGPT no puede hacer eso».
Los dispositivos con la capacidad de analizar y describir imágenes podrían ser de gran valor para las personas ciegas o con problemas de visión. Por ejemplo, una aplicación móvil llamada Be My Eyes puede describir objetos alrededor del usuario, ayudando a las personas con visión limitada o nula a interpretar su entorno. La aplicación incorporó recientemente GPT-4 en «voluntarios virtuales» que, según un comunicado en el sitio web de OpenAI, «pueden generar el mismo nivel de contexto y comprensión que los voluntarios humanos».
Pero el análisis de imágenes de GPT-4 va más allá de describir imágenes. En la misma demostración que vio Vee, un representante de OpenAI dibujó una imagen de un sitio web simple y envió el dibujo a GPT-4. A continuación, se le pidió al modelo que escribiera el código necesario para generar dicho sitio web, y lo hizo. «Básicamente parece una imagen. Es muy, muy simple, pero funciona muy bien», dijo Jonathan May, profesor asociado de investigación en la USC. «Eso es muy bonito.»
Incluso sin capacidades multimodales, el nuevo programa superó a su predecesor en tareas que requerían razonamiento y resolución de problemas. OpenAI dice que ha ejecutado GPT-3.5 y GPT-4 a través de una variedad de pruebas diseñadas para humanos, incluida una simulación del examen de barra para abogados, las pruebas SAT y Advanced Placement para estudiantes de secundaria, el GRE para graduados universitarios e incluso un Examen de sommelier en pareja. GPT-4 logró puntajes de nivel humano en muchos de estos puntos de referencia y superó constantemente a sus predecesores, aunque no sobresalió en todo: le fue mal en las pruebas de lengua y literatura inglesa, por ejemplo. Aún así, sus amplias capacidades de resolución de problemas se pueden aplicar a cualquier cantidad de aplicaciones del mundo real, como administrar líneas de tiempo complejas, encontrar errores en bloques de código, explicar matices gramaticales a estudiantes de idiomas extranjeros o identificar vulnerabilidades de seguridad.
Además, OpenAI afirma que el nuevo modelo puede interpretar y generar fragmentos de texto más largos: más de 25,000 palabras a la vez. Aunque los modelos anteriores también se usaban para aplicaciones de formato largo, a menudo se olvidaban de lo que estaban hablando. La compañía promocionó la «creatividad» del nuevo modelo y lo describió como la capacidad de producir diferentes tipos de contenido artístico en un estilo particular. En una demostración que comparó cómo GPT-3.5 y GPT-4 imitaron el estilo de la traducción al inglés del autor argentino Jorge Luis Borges, Vee notó que el modelo más nuevo produjo intentos más precisos. «Tienes que saber lo suficiente del contexto para hacer un juicio», dijo. «Es posible que un estudiante universitario no entienda por qué es mejor, pero soy profesor de inglés… si lo entiendes desde tu propia área de conocimiento y es impresionante en tu propia área de conocimiento, entonces eso es impresionante».
May también probó la creatividad de los modelos ella misma. Intentó una tarea interesante, ordenándole crear un «backronym» (un acrónimo obtenido comenzando desde la versión abreviada y contando hacia atrás). En este caso, May solicitó un lindo nombre para su laboratorio que deletreara «CUTE LAB NAME» y al mismo tiempo describiera con precisión su campo de investigación. GPT-3.5 no pudo generar etiquetas relevantes, pero GPT-4 tuvo éxito. «Propone ‘comprensión y transformación computacional para el análisis del lenguaje expresivo, uniendo la PNL, la inteligencia artificial y la educación mecánica'», dijo. «‘Educación de máquinas’ no es muy buena; la parte de ‘inteligencia’ significa que hay una letra adicional allí. Pero, sinceramente, he visto cosas peores». para Técnicas Útiles para Mejorar la Aplicación del Lenguaje Basada en Evidencia Natural y Significativa). En otra prueba, la modelo mostró los límites de su creatividad. Cuando May le pidió que escribiera un tipo específico de soneto (pidió una forma utilizada por el poeta italiano Petrarca), el modelo, que no estaba familiarizado con ese escenario poético, eligió por defecto la forma de soneto que Shakespeare prefería.
Por supuesto, resolver este problema en particular sería relativamente sencillo. GPT-4 solo necesita aprender una forma adicional de poesía. De hecho, ayuda al programa cuando los humanos hacen que el modelo falle de esta manera: puede aprender de todo lo que los probadores no oficiales ponen en el sistema. Al igual que sus predecesores menos fluidos, GPT-4 se entrenó inicialmente con grandes cantidades de datos, y esta capacitación fue refinada por evaluadores humanos. (GPT significa Generative Pre-Training Transformer). Pero OpenAI ha mantenido en secreto cómo hace que GPT-4 sea mejor que GPT-3.5, el modelo que impulsa el popular chatbot ChatGPT de la compañía. Según el documento publicado junto con el lanzamiento del nuevo modelo, «Dado el panorama competitivo y las implicaciones de seguridad de los modelos grandes como GPT-4, este informe no está contenido». en el que GPT-4 debe competir con programas como Bard de Google y LLaMA de Meta. Sin embargo, el documento continúa sugiriendo que la compañía planea eventualmente compartir estos detalles con terceros «que pueden asesorarnos sobre cómo sopesar las consideraciones competitivas y de seguridad… contra el valor científico de una mayor transparencia».
Estas consideraciones de seguridad son importantes porque los chatbots más inteligentes son capaces de causar daño: sin medidas de seguridad, podrían proporcionar a los terroristas instrucciones sobre cómo fabricar bombas, crear mensajes amenazantes para campañas de acoso o desinformar a los agentes extranjeros que intentan influir en las elecciones. Si bien OpenAI limita lo que pueden decir sus modelos GPT para evitar tales situaciones, los probadores determinados han encontrado formas de evitarlos. «Estas cosas son como toros en una tienda de porcelana: son poderosas, pero temerarias», dijo el científico y autor Gary Marcus a Noticias-Hoy poco antes del lanzamiento de GPT-4. «No lo creo [version] Cuatro cambiará eso. «
Cuanto más parecidos a los humanos son estos robots, más pueden engañar a las personas para que piensen que hay un agente consciente detrás de la pantalla de una computadora. «Porque imita [human reasoning] Bueno, a través del lenguaje, creemos, pero bajo el capó, es una forma de razonar completamente diferente a la de los humanos”, advierte Vee. confiar en sus respuestas. Este es un problema grave porque todavía no hay garantía de que las respuestas sean precisas «. Solo porque los modelos dijeron algo, no significa que lo que dijeron fue [true]»Estos modelos no tienen una base de datos de la cual extraer sus respuestas», dijo May. En cambio, un sistema como GPT-4 genera respuestas palabra por palabra, con datos de entrenamiento que informan la siguiente palabra más plausible, y esos datos de entrenamiento pueden volverse obsoletos. «Creo que GPT-4 ni siquiera sabe que es GPT-4 «, dijo. «Le pregunté, y dijo: ‘No, no, no existe tal cosa como GPT-4. Soy GPT-3. ‘»
Ahora que se ha lanzado el modelo, muchos investigadores y entusiastas de la IA han tenido la oportunidad de explorar las fortalezas y debilidades de GPT-4. Los desarrolladores que quieran usarlo en otras aplicaciones pueden solicitar acceso, y cualquier persona que quiera «hablar» con el programa debe suscribirse a ChatGPT Plus. El programa pago, que cuesta $20 por mes, brinda a los usuarios la opción de hablar con un chatbot que se ejecuta en GPT-3.5 o GPT-4.
Sin duda, dicha exploración descubrirá más aplicaciones potenciales y fallas en GPT-4. «La verdadera pregunta debería ser ‘Después del impacto inicial, ¿cómo se sentirá la gente dentro de dos meses?'», dijo Marcus. «Parte de mi sugerencia: moderemos nuestro entusiasmo inicial al darnos cuenta de que hemos visto esta película antes. Siempre es fácil hacer una demostración de algo; es difícil convertirlo en un producto real. Si todavía se trata de estos problemas, alrededor alucinaciones, no entender realmente el mundo físico, el mundo médico, etc., eso aún limitará un poco su utilidad. Y aún significa que debes prestar especial atención a cómo y para qué se usa”.








