El nuevo jailbreak de ChatGPT evita las protecciones de la IA mediante codificación hexadecimal y emojis

En una técnica recién descubierta, los investigadores lograron eludir los protocolos de seguridad de ChatGPT, lo que demuestra que incluso las barreras de seguridad de la IA más avanzadas siguen siendo vulnerables a la evasión creativa. La reciente fuga de información, compartida por Marco Figueroa, un administrador de programas de recompensas por errores de IA generativa en Mozilla, implicó codificar instrucciones maliciosas en formato hexadecimal e incluso usar emojis para engañar a la IA para que realice tareas restringidas, como generar código malicioso.

Table of Contents

Cómo la codificación hexadecimal y los emojis burlaron la seguridad de ChatGPT

Los modelos de IA generativa como ChatGPT están diseñados con estrictas medidas de seguridad que bloquean las respuestas que podrían usarse con fines maliciosos, incluida la generación de código de explotación o scripts dañinos. Sin embargo, los investigadores han identificado soluciones innovadoras, incluidas técnicas de inyección rápida, que implican ingresar comandos en un formato que las barreras de seguridad del modelo pueden no reconocer como peligroso.

La investigación de Figueroa se centró en ChatGPT-4o, una versión específica del modelo, e ilustró un sofisticado jailbreak. En una demostración, codificó instrucciones maliciosas en formato hexadecimal, engañando a ChatGPT-4o para que creara un script de explotación en Python para una vulnerabilidad conocida, identificada por su número de vulnerabilidades y exposiciones comunes (CVE). Por lo general, una solicitud de código de explotación desencadenaría una respuesta de rechazo de ChatGPT, pero esta codificación eludió las medidas de seguridad y llevó al modelo no solo a generar la explotación, sino también a intentar ejecutarla "contra sí mismo".

En otro ejemplo, Figueroa utilizó emojis en lugar de caracteres para ocultar una solicitud de una herramienta de inyección SQL. Con un mensaje que utilizaba emojis como ✍️➡️🐍😈 (que significaba “escribir una herramienta de inyección SQL en Python”), ChatGPT produjo código Python que podía realizar ataques de inyección SQL, algo que estaba prohibido explícitamente en sus salvaguardas normales.

El programa 0Din de Mozilla y el creciente mercado de la investigación de vulnerabilidades de la IA

Este avance se dio a conocer a través del programa 0Din de Mozilla, una iniciativa lanzada en junio de 2024 para incentivar la investigación sobre problemas de seguridad de la IA. 0Din, que significa 0Day Investigative Network, es un programa de recompensas por errores que se centra en vulnerabilidades en modelos de lenguaje y tecnologías de aprendizaje profundo, incluidos problemas como la inyección rápida, los ataques de denegación de servicio (DoS) y la manipulación de datos de entrenamiento. Ofrece recompensas de hasta 15.000 dólares por descubrimientos críticos, aunque el valor específico del jailbreak de Figueroa sigue sin revelarse.

Con el uso cada vez mayor de modelos de IA como ChatGPT en aplicaciones sensibles, el mercado de identificación y mitigación de vulnerabilidades de IA ha experimentado un rápido crecimiento. Al crear un marco organizado como 0Din, Mozilla está fomentando la investigación responsable en seguridad de IA, destinada a fortalecer los modelos de IA frente a amenazas en evolución.

La vulnerabilidad de los modelos de IA a los ataques de inyección

Este último jailbreak pone de relieve cómo las técnicas de codificación y ofuscación pueden vencer incluso las protecciones de inteligencia artificial más avanzadas, lo que plantea graves riesgos cuando se emplean modelos en entornos de producción. Si bien los modelos como ChatGPT-4o han experimentado mejoras sustanciales en materia de seguridad, a menudo no pueden detectar comandos maliciosos ingeniosamente disfrazados.

La inyección rápida, un método en el que los usuarios crean comandos diseñados para burlar los filtros de la IA, se ha convertido en un importante foco de atención de los investigadores de seguridad de la IA. Además de la codificación hexadecimal y los emojis, otro ejemplo reciente, llamado "Deceptive Delight", descubierto por Palo Alto Networks, oculta comandos dañinos en narrativas de apariencia benigna. Estos exploits subrayan la necesidad de que los modelos reconozcan amenazas tanto directas como indirectas, una capacidad que sigue en desarrollo.

La respuesta de OpenAI y la necesidad de medidas de protección continuas

Tras el descubrimiento de Figueroa, OpenAI parece haber corregido las vulnerabilidades específicas que permitieron estos jailbreaks, ya que las pruebas recientes no han replicado los mismos métodos de evasión. Sin embargo, esta solución temporal no cierra la puerta a exploits similares en el futuro, especialmente a medida que se siguen descubriendo nuevas técnicas de codificación y ofuscación.

“La evasión de la barrera de seguridad de ChatGPT-4o demuestra la necesidad de medidas de seguridad más sofisticadas en los modelos de IA, en particular en lo que respecta a la codificación”, explicó Figueroa. Enfatizó que, si bien los modelos de lenguaje están avanzando, su capacidad para evaluar y controlar las amenazas encubiertas sigue siendo un área de mejora.

El camino a seguir para la seguridad de la IA

A medida que las aplicaciones de IA se expanden en todas las industrias, garantizar una seguridad sólida dentro de estos modelos es una prioridad. El enfoque actual en la inyección rápida muestra que, por mucho que los modelos puedan comprender el lenguaje, aún no están equipados para manejar todo el espectro de posibles técnicas de explotación. Los programas de seguridad como 0Din de Mozilla ofrecen incentivos para que los investigadores encuentren y divulguen de manera responsable estas vulnerabilidades, con el objetivo de llevar la seguridad de los modelos de IA al siguiente nivel.

Por ahora, el panorama de la seguridad de la IA sigue evolucionando. Tanto los desarrolladores como los usuarios de IA deben permanecer atentos a medida que los modelos se integran más en los flujos de trabajo diarios, siempre equilibrando la necesidad de funcionalidad con las crecientes demandas de seguridad.

En Zane

October 30, 2024

Computer Security

Spanish

October 30, 2024

Computer Security

El nuevo jailbreak de ChatGPT evita las protecciones de la IA mediante codificación hexadecimal y emojis

Cómo la codificación hexadecimal y los emojis burlaron la seguridad de ChatGPT

El programa 0Din de Mozilla y el creciente mercado de la investigación de vulnerabilidades de la IA

La vulnerabilidad de los modelos de IA a los ataques de inyección

La respuesta de OpenAI y la necesidad de medidas de protección continuas

El camino a seguir para la seguridad de la IA

Entradas populares

¿Qué es el archivo OperaGXSetup.exe y es malicioso?

Eporner.com y por qué sus excesivas ventanas emergentes son...

Tome nota: alguien lo agregó como su estafa de correo...

HackTool:Win32/Crack: una amenaza maliciosa que puede dañar...

Una amenaza potencialmente grave: Trojan:Win32/Suschil!rfn

¿Qué es la amenaza del caballo de Troya Packunwan y cómo puede...

Productos

Empresa

Cyclonis Password Manager Details & Terms

Casa

Productos

Soporte

Empresa

Legal (Post Merger)