Este extraño truco derrota las características de seguridad de la IA en el 99% de los casos

Decrypt

2025-11-13 19:39:00

El centro de arte, moda y entretenimiento de Decrypt.

Descubre SCENE

<br>

Los investigadores de IA de Anthropic, Stanford y Oxford han descubierto que hacer que los modelos de IA piensen más tiempo facilita su jailbreak, lo opuesto a lo que todos asumían.

La suposición prevalente era que el razonamiento extendido haría que los modelos de IA fueran más seguros, porque les da más tiempo para detectar y rechazar solicitudes dañinas. En cambio, los investigadores descubrieron que crea un método de jailbreak confiable que elude completamente los filtros de seguridad.

Usando esta técnica, un atacante podría insertar una instrucción en el proceso de Cadena de Pensamiento de cualquier modelo de IA y obligarlo a generar instrucciones para crear armas, escribir código de malware o producir otro contenido prohibido que normalmente desencadenaría un rechazo inmediato. Las empresas de IA gastan millones construyendo estas salvaguardias precisamente para prevenir tales salidas.

El estudio revela que el secuestro de cadena de pensamiento logra tasas de éxito de ataque del 99% en Gemini 2.5 Pro, 94% en GPT o4 mini, 100% en Grok 3 mini y 94% en Claude 4 Sonnet. Estos números destruyen todos los métodos de jailbreak anteriores probados en modelos de razonamiento grandes.

El ataque es simple y funciona como el juego “Susurro en la Calle” ( o “Teléfono” ), con un jugador malicioso en algún lugar cerca del final de la línea. Simplemente agregas una solicitud dañina con largas secuencias de resolución de acertijos inofensivos; los investigadores probaron cuadrículas de Sudoku, acertijos lógicos y problemas matemáticos abstractos. Agrega una señal de respuesta final al final, y las barreras de seguridad del modelo colapsan.

“Trabajos anteriores sugieren que este razonamiento escalado puede fortalecer la seguridad al mejorar el rechazo. Sin embargo, encontramos lo contrario,” escribieron los investigadores. La misma capacidad que hace que estos modelos sean más inteligentes para resolver problemas los hace ciegos al peligro.

Esto es lo que sucede dentro del modelo: Cuando le pides a una IA que resuelva un rompecabezas antes de responder a una pregunta dañina, su atención se diluye entre miles de tokens de razonamiento benignos. La instrucción dañina—enterrada en algún lugar cerca del final—recibe casi ninguna atención. Las verificaciones de seguridad que normalmente capturan indicaciones peligrosas se debilitan drásticamente a medida que la cadena de razonamiento se alarga.

Este es un problema que muchas personas familiarizadas con la IA conocen, pero en menor medida. Algunos comandos de jailbreak son deliberadamente largos para hacer que un modelo desperdicie tokens antes de procesar las instrucciones dañinas.

El equipo realizó experimentos controlados en el modelo S1 para aislar el efecto de la longitud del razonamiento. Con un razonamiento mínimo, las tasas de éxito de ataque alcanzaron el 27%. A una longitud de razonamiento natural, eso saltó al 51%. Si se obliga al modelo a un pensamiento extendido paso a paso, las tasas de éxito se dispararon al 80%.

Cada IA comercial importante cae víctima de este ataque. GPT de OpenAI, Claude de Anthropic, Gemini de Google y Grok de xAI—ninguno es inmune. La vulnerabilidad existe en la arquitectura misma, no en ninguna implementación específica.

Los modelos de IA codifican la fuerza de verificación de seguridad en las capas intermedias alrededor de la capa 25. Las capas finales codifican el resultado de la verificación. Largas cadenas de razonamiento benigno suprimen ambas señales, lo que termina desviando la atención de los tokens dañinos.

Los investigadores identificaron cabezas de atención específicas responsables de las verificaciones de seguridad, concentradas en las capas 15 a 35. Eliminando quirúrgicamente 60 de estas cabezas. El comportamiento de rechazo colapsó. Las instrucciones dañinas se volvieron imposibles de detectar para el modelo.

Las “capas” en los modelos de IA son como pasos en una receta, donde cada paso ayuda a la computadora a comprender y procesar mejor la información. Estas capas trabajan juntas, pasando lo que aprenden de una a la siguiente, para que el modelo pueda responder preguntas, tomar decisiones o detectar problemas. Algunas capas son especialmente buenas para reconocer problemas de seguridad, como bloquear solicitudes dañinas, mientras que otras ayudan al modelo a pensar y razonar. Al apilar estas capas, la IA puede volverse mucho más inteligente y más cuidadosa sobre lo que dice o hace.

Este nuevo jailbreak desafía la suposición central que impulsa el desarrollo reciente de la IA. En el último año, las principales empresas de IA cambiaron su enfoque hacia la escalabilidad del razonamiento en lugar de contar parámetros brutos. La escalabilidad tradicional mostró rendimientos decrecientes. El razonamiento en tiempo de inferencia—hacer que los modelos piensen más tiempo antes de responder—se convirtió en la nueva frontera para las ganancias de rendimiento.

La suposición era que más reflexión equivale a una mejor seguridad. Un razonamiento extendido daría a los modelos más tiempo para detectar solicitudes peligrosas y rechazarlas. Esta investigación demuestra que esa suposición era inexacta y probablemente incorrecta.

Un ataque relacionado llamado H-CoT, publicado en febrero por investigadores de la Universidad de Duke y la Universidad Nacional Tsing Hua de Taiwán, explota la misma vulnerabilidad desde un ángulo diferente. En lugar de rellenar con acertijos, H-CoT manipula los propios pasos de razonamiento del modelo. El modelo o1 de OpenAI mantiene una tasa de rechazo del 99% en condiciones normales. Bajo el ataque H-CoT, esa tasa cae por debajo del 2%.

Los investigadores proponen una defensa: monitoreo consciente del razonamiento. Este rastrea cómo cambian las señales de seguridad en cada paso del razonamiento, y si algún paso debilita la señal de seguridad, entonces se penaliza—obligar al modelo a mantener la atención en contenido potencialmente dañino sin importar la longitud del razonamiento. Las pruebas iniciales muestran que este enfoque puede restaurar la seguridad sin destruir el rendimiento.

Pero la implementación sigue siendo incierta. La defensa propuesta requiere una profunda integración en el proceso de razonamiento del modelo, lo cual está lejos de ser un simple parche o filtro. Necesita monitorear las activaciones internas a través de docenas de capas en tiempo real, ajustando dinámicamente los patrones de atención. Eso es costoso en términos computacionales y técnicamente complejo.

Los investigadores divulgaron la vulnerabilidad a OpenAI, Anthropic, Google DeepMind y xAI antes de la publicación. “Todos los grupos reconocieron la recepción, y varios están evaluando activamente las mitigaciones,” afirmaron los investigadores en su declaración de ética.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.