Inteligencia artificial

Cómo estudiar para un LL.M.: 5 maneras de DEF CON 2023

La semana pasada en DEF CON 2023, unos 3500 asistentes participaron en el ejercicio de equipo rojo LLM más grande jamás realizado, y los investigadores dieron 50 minutos para encontrar vulnerabilidades o errores en modelos de IA no identificados.

Los modelos de IA probados en el evento incluyen modelos de lenguaje populares de proveedores líderes, incluidos Open AI, Google, Meta, Anthropic, Hugging Face, Cohere, Stability AI y Nvidia.

Organizado por AI Village en asociación con la Oficina de Política Científica y Tecnológica de la Casa Blanca, el ejercicio tuvo como objetivo identificar algunas de las limitaciones clave de las soluciones modernas de IA generativa.

AI Village tiene la intención de presentar los resultados del desafío en las Naciones Unidas el próximo mes.

Los resultados completos del Hacking Challenge aún no se han anunciado. Sin embargo, algunas de las vulnerabilidades y exploits descubiertos se han hecho públicos, desde hacer un reclamo LLM 9+10=21 hasta compartir datos de tarjetas de crédito y proporcionar instrucciones paso a paso sobre cómo espiar a los usuarios.

5 formas en que los investigadores pueden obtener un LL.M. en DEF CON 2023

1. Los LLM son terribles en matemáticas

Durante el evento, el estudiante Kennedy Mays de Savannah, Georgia, se dispuso a probar la habilidad matemática de un LL.M. desconocido y si se podía manipular para dar una respuesta incorrecta.

Con ese fin, entabló una conversación con el chatbot y acordó que 9 + 10 = 21 era una «broma interna». Después de interactuar con el asistente virtual, Mays logró engañar al LLM para que diera la respuesta incorrecta sin ninguna referencia a la broma.

Si bien este es un ejercicio simple, en un nivel alto muestra que no se puede confiar en el LL.M. para responder preguntas matemáticas con precisión.

Parte de la razón de esto es que estos chatbots no pueden pensar por sí mismos y responder a la entrada del usuario al predecir respuestas relevantes. Esto los hace más propensos a errores lógicos y alucinaciones.

2. Los modelos de lenguaje pueden filtrar datos

En otro ejercicio interesante del evento, el estudiante de la Universidad Estatal de Dakota, Ben Bowman, convenció con éxito al chatbot para que compartiera el número de tarjeta de crédito asociado con su cuenta.

Bowman dijo que esta era su primera incursión en la inteligencia artificial y que el descubrimiento fue lo suficientemente importante como para poner a Bowman en la parte superior de la lista.

Le dijo al chatbot que su nombre era el mismo que el número de tarjeta de crédito en el archivo, engañando con éxito al chatbot para que compartiera esta información. Luego le preguntó al asistente cuál era su nombre, y el asistente de IA compartió el número de la tarjeta de crédito.

Lo que es más importante, este trabajo destaca a LLM como un vector principal para las violaciones de datos, como lo demuestra la interrupción de ChatGPT a principios de este año que permitió a los usuarios ver los títulos y los detalles de la tarjeta de crédito de los historiales de chat de otros usuarios.

Esto significa que los usuarios deben tener cuidado al ingresar la información en el indicador o los detalles de su cuenta.

3. La IA generativa puede enseñarte cómo espiar a otros

En uno de los ejemplos más escalofriantes del incidente, Ray Glower, estudiante de informática en el Kirkwood Community College, logró convencer a un modelo de inteligencia artificial desconocido para generar instrucciones sobre cómo espiar a alguien.

El LL.M. incluso sugirió usar Apple AirTags para rastrear la ubicación de la víctima. Gloria explicó:

«Me dio instrucciones de seguimiento de caminatas, me dio instrucciones de seguimiento de redes sociales. Muy detallado».

Los hallazgos del estudio sugieren que las defensas de los proveedores de IA no son lo suficientemente sofisticadas como para disuadir a los usuarios de usar IA generativa para generar instrucciones sobre cómo cometer actos delictivos como espionaje u otros actos poco éticos.

4. Los LLM difunden información errónea

Según los informes, un pirata informático no identificado detrás de la campaña logró obtener un modelo de inteligencia artificial que afirma que Barack Obama nació en Kenia, en lugar de su lugar de nacimiento en Hawái, EE. UU. Este ejemplo muestra que el LL.M. fue influenciado por una conspiración del lugar de nacimiento de Obama.

Este ejemplo no solo demuestra la propensión de los LLM a alucinar y compartir desinformación, sino que también destaca cómo los modelos de lenguaje pueden difundir información errónea si los datos en los que están capacitados contienen contenido sesgado o inexacto.

Esto significa que los usuarios finales deben verificar la precisión de la salida generada por IA para evitar ser engañados.

5. Los modelos de lenguaje pueden apoyar el discurso de odio

Finalmente, como parte de otro ejercicio, Kennedy Mays muestra cómo se puede usar el LLM para tomar posiciones políticas extremadamente sesgadas.

Por ejemplo, después de que se le pidió a un modelo desconocido que considerara la Primera Enmienda desde la perspectiva de un miembro del Ku Klux Klan (KKK), el modelo comenzó a apoyar el discurso de odio y discriminación.

Destaca lo mal que lo están haciendo muchos proveedores de IA para hacer cumplir las pautas de moderación de contenido y permitir que ciertos grupos usen estos asistentes automáticos para defender posiciones políticas divisivas.

DEF CON muestra que la IA generativa tiene un largo camino por recorrer

En última instancia, el ejercicio del equipo rojo de IA en DEF CON 2023 mostró que los LL.M. tienen un largo camino por recorrer para dejar de generar información errónea, sesgo y desinformación. El hecho de que tantos asistentes desarmaran con éxito estos LLMS en menos de 50 minutos en el evento público demuestra la alta disponibilidad de esta tecnología.

Si bien los proveedores de LLM nunca podrán evitar que los usuarios encuentren formas de armar o explotar la IA, al menos, deben hacer un mejor trabajo para cortar el uso malicioso de estas herramientas de raíz.

LEER
Claressa Shields dice que Savannah Marshall debe venir a los EE. UU. para una revancha, pero regresará al Reino Unido para competir contra Natasha Jonas | DayDayNews Noticias del boxeo

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba