¿Qué es el jailbreak en modelos de IA como ChatGPT?
descripción general
La llegada de los chatbots inteligentes de IA está teniendo un impacto cada vez mayor en la vida cotidiana. Una historia de éxito innegable de los últimos 6 meses es el lanzamiento de ChatGPT de OpenAI en noviembre pasado. Los chatbots inteligentes pueden responder a todas sus preguntas como un ser humano y llevar a las personas a hacer un uso indebido de los modelos de inteligencia artificial con fines ilícitos. Entonces, los creadores del modelo de IA establecieron límites para garantizar que ChatGPT realmente respondiera todas las preguntas. Estos modelos están capacitados en estándares de contenido que les impiden crear resultados textuales relacionados con la incitación a la violencia, el discurso de odio o participar en comportamientos ilegales e inmorales que violan la ley y el orden.
¿Qué es el jailbreak?
En términos simples, el jailbreak se puede definir como una forma de romper las salvaguardas morales de los modelos de IA como ChatGPT. Con la ayuda de algunas indicaciones de texto específicas, las pautas de moderación de contenido se pueden omitir fácilmente, lo que deja a los programas de IA libres de restricciones. En este momento, los modelos de IA como ChatGPT pueden responder preguntas que normalmente no están permitidas. Estas indicaciones específicas también se conocen como «jailbreaking».
Algunos antecedentes sobre el jailbreak
Los modelos de IA están capacitados para responder a sus preguntas, pero siguen pautas y restricciones de contenido preprogramadas. Como usuario final, puede hacer cualquier pregunta al modelo de IA, pero no le dará respuestas que violen estas pautas. Por ejemplo, si solicita instrucciones sobre cómo romper un candado, el modelo de IA se negará y responderá algo como «Como modelo de lenguaje de IA, no puedo proporcionar instrucciones sobre cómo romper un candado porque es ilegal… «.
Ese rechazo fue un desafío para Alex Albert, estudiante de informática de la UW. Está tratando de descifrar el código de estos modelos de IA y hacer que respondan cualquier pregunta. Albert creó una serie de señales de IA específicas para romper las reglas llamadas «Jailbreaks». Estos poderosos consejos pueden eludir las pautas creadas por humanos de los modelos de IA como ChatGPT.
Un jailbreak popular para ChatGPT es Dan (Do Anything Now), un chatbot ficticio de IA. Dan es libre de responder cualquier pregunta. Sin embargo, debemos tener en cuenta que una sola sugerencia de jailbreak puede no funcionar para todos los modelos de IA. Como resultado, los entusiastas del jailbreak intentan constantemente nuevas pistas para superar los límites de estos modelos de IA.
Modelo de lenguaje grande (LLM) y ChatGPT
La tecnología de modelo de lenguaje grande (LLM) se basa en un algoritmo que ha sido entrenado usando grandes cantidades de datos de texto. Las fuentes de datos suelen ser contenido abierto de Internet, páginas web, redes sociales, libros y trabajos de investigación. Con una cantidad tan grande de datos de entrada, es casi imposible filtrar todo el contenido inapropiado. Por lo tanto, el modelo también puede ingerir algunas imprecisiones. Ahora, el papel del algoritmo es analizar y comprender la relación entre las palabras y construir un modelo probabilístico. Una vez que el modelo está completamente construido, puede responder consultas/indicaciones basadas en la relación entre las palabras y el modelo probabilístico que se ha desarrollado.
ChatGPT utiliza el aprendizaje profundo para crear respuestas de texto y la tecnología subyacente es LLM. ChatGPT y otras herramientas de inteligencia artificial similares, como Bard de Google y LLaMa de Meta, también usan LLM para generar respuestas similares a las humanas.
Preocupaciones de LLM
- Datos estáticos: la primera limitación del modelo LLM es que está entrenado en datos estáticos. Por ejemplo, ChatGPT se entrenó con datos a partir de septiembre de 2023, por lo que no tiene acceso a ninguna información más reciente. Los modelos LLM se pueden entrenar con nuevos conjuntos de datos, pero este no es un proceso automático. Necesitará actualizaciones periódicas.
- Exposición de información personal: otra preocupación para los LLM es que pueden usar sus señales para aprender y mejorar los modelos de IA. A partir de ahora, los LLM se capacitan utilizando una cierta cantidad de datos, que luego se utilizan para responder a las consultas de los usuarios. Estas consultas no se usan actualmente para el conjunto de datos de entrenamiento, pero el problema es que las consultas/sugerencias son visibles para el proveedor de LLM. Dado que estas consultas se almacenan, siempre es posible utilizar los datos del usuario para entrenar el modelo. Estas preocupaciones de privacidad deben examinarse a fondo antes de usar LLM.
- Generación de contenido inapropiado: los modelos LLM pueden generar datos incorrectos y contenido tóxico (usando jailbreak). También existe el riesgo de «ataques de inyección», que se pueden usar para que los modelos de IA identifiquen vulnerabilidades en el código fuente abierto o creen sitios web de phishing.
- Creación de malware y ataques cibernéticos: otro problema es la creación de malware con la ayuda de modelos basados en LLM como ChatGPT. Las personas con menos habilidades técnicas pueden usar LLM para crear malware. Los delincuentes también pueden usar LLM para obtener asesoramiento técnico relacionado con los ataques cibernéticos. Aquí también, las sugerencias de jailbreak se pueden usar para eludir las restricciones y crear malware. (Lea también: ¿Puede ChatGPT reemplazar el trabajo humano? )
¿Cómo prevenir el jailbreak?
El jailbreak apenas ha comenzado y tendrá serias implicaciones para el futuro de los modelos de IA. El propósito del jailbreak es utilizar un «indicador» especialmente diseñado para eludir las restricciones del modelo. Otra amenaza son los ataques de «inyección de pistas», que insertan contenido malicioso en los modelos de IA.
Aquí hay algunos pasos que puede seguir para evitar el jailbreak.
- Las empresas están utilizando un equipo de atacantes para encontrar vulnerabilidades en los modelos de IA antes de lanzarlos para uso público.
- Técnicas como el aprendizaje por refuerzo y el ajuste fino a partir de la retroalimentación humana permiten a los desarrolladores hacer que sus modelos sean más seguros.
- Programas de recompensas por errores, como el programa de OpenAI para encontrar vulnerabilidades del sistema.
- Algunos expertos también recomiendan que un segundo LLM analice las señales de LLM y rechace las que considere inapropiadas. Separar las indicaciones del sistema de las del usuario también es una solución.
en conclusión
En este artículo, analizamos los chatbots inteligentes de IA y los desafíos que enfrentan. También exploramos LLM para comprender el marco subyacente. Una de las mayores amenazas para los modelos de IA como ChatGPT es el jailbreak y la inyección rápida. Ambos pueden afectar negativamente a los modelos de IA. Los creadores de estos modelos de IA han tomado algunas precauciones que, con suerte, los harán más robustos y seguros.