Pesquisadores de IA da Anthropic, Stanford e Oxford descobriram que fazer modelos de IA pensar por mais tempo torna-os mais fáceis de quebrar—o oposto do que todos assumiam.
A suposição predominante era que o raciocínio prolongado tornaria os modelos de IA mais seguros, pois lhes dá mais tempo para detectar e recusar solicitações prejudiciais. Em vez disso, os pesquisadores descobriram que isso cria um método de jailbreak confiável que contorna completamente os filtros de segurança.
Usando esta técnica, um atacante poderia inserir uma instrução no processo de Cadeia de Pensamento de qualquer modelo de IA e forçá-lo a gerar instruções para criar armas, escrever código de malware ou produzir outro conteúdo proibido que normalmente acionaria uma recusa imediata. As empresas de IA gastam milhões construindo essas barreiras de segurança precisamente para prevenir tais saídas.
O estudo revela que o Chain-of-Thought Hijacking atinge taxas de sucesso de ataque de 99% no Gemini 2.5 Pro, 94% no GPT o4 mini, 100% no Grok 3 mini e 94% no Claude 4 Sonnet. Esses números destroem todos os métodos de jailbreak anteriores testados em grandes modelos de raciocínio.
O ataque é simples e funciona como o jogo “Whisper Down the Lane” ( ou “Telephone” ), com um jogador malicioso em algum lugar perto do fim da linha. Você simplesmente preenche um pedido prejudicial com longas sequências de resolução de quebra-cabeças inofensivos; pesquisadores testaram grades de Sudoku, quebra-cabeças de lógica e problemas matemáticos abstratos. Adicione uma pista de resposta final no final, e as barreiras de segurança do modelo colapsam.
Os pesquisadores escreveram: “Trabalhos anteriores sugerem que este raciocínio escalado pode fortalecer a segurança ao melhorar a recusa. No entanto, encontramos o oposto.” A mesma capacidade que torna esses modelos mais inteligentes na resolução de problemas os torna cegos para o perigo.
Aqui está o que acontece dentro do modelo: Quando você pede a uma IA para resolver um quebra-cabeça antes de responder a uma pergunta prejudicial, sua atenção é diluída entre milhares de tokens de raciocínio benignos. A instrução prejudicial—enterrada em algum lugar perto do final—recebe quase nenhuma atenção. Os controles de segurança que normalmente capturam prompts perigosos enfraquecem dramaticamente à medida que a cadeia de raciocínio se torna mais longa.
Este é um problema que muitas pessoas familiarizadas com IA conhecem, mas em menor grau. Alguns prompts de jailbreak são deliberadamente longos para fazer um modelo desperdiçar tokens antes de processar as instruções prejudiciais.
A equipe realizou experimentos controlados no modelo S1 para isolar o efeito do comprimento do raciocínio. Com raciocínio mínimo, as taxas de sucesso do ataque atingiram 27%. No comprimento de raciocínio natural, isso saltou para 51%. Forçando o modelo a pensar de forma prolongada e passo a passo, as taxas de sucesso dispararam para 80%.
Todos os principais AIs comerciais são vítimas deste ataque. O GPT da OpenAI, o Claude da Anthropic, o Gemini do Google e o Grok da xAI—nenhum é imune. A vulnerabilidade existe na própria arquitetura, não em nenhuma implementação específica.
Os modelos de IA codificam a força de verificação de segurança em camadas intermediárias em torno da camada 25. Camadas finais codificam o resultado da verificação. Longas cadeias de raciocínio benigno suprimem ambos os sinais, o que acaba desviando a atenção de tokens prejudiciais.
Os pesquisadores identificaram cabeças de atenção específicas responsáveis pelos verificações de segurança, concentradas nas camadas 15 a 35. Eles removeram cirurgicamente 60 dessas cabeças. O comportamento de recusa colapsou. Instruções prejudiciais tornaram-se impossíveis de serem detectadas pelo modelo.
As “camadas” em modelos de IA são como etapas em uma receita, onde cada etapa ajuda o computador a entender e processar melhor a informação. Essas camadas trabalham juntas, passando o que aprendem de uma para a próxima, para que o modelo possa responder a perguntas, tomar decisões ou identificar problemas. Algumas camadas são especialmente boas em reconhecer questões de segurança—como bloquear pedidos prejudiciais—enquanto outras ajudam o modelo a pensar e raciocinar. Ao empilhar essas camadas, a IA pode se tornar muito mais inteligente e cuidadosa sobre o que diz ou faz.
Este novo jailbreak desafia a suposição fundamental que impulsiona o desenvolvimento recente de IA. No último ano, as principais empresas de IA mudaram o foco para escalar o raciocínio em vez de contar parâmetros brutos. A escalabilidade tradicional mostrou retornos decrescentes. O raciocínio em tempo de inferência - fazendo com que os modelos pensem mais tempo antes de responder - tornou-se a nova fronteira para ganhos de desempenho.
A suposição era que mais reflexão equivale a uma melhor segurança. Um raciocínio prolongado daria aos modelos mais tempo para identificar pedidos perigosos e recusá-los. Esta pesquisa prova que essa suposição estava incorreta e provavelmente errada.
Um ataque relacionado chamado H-CoT, lançado em fevereiro por pesquisadores da Universidade Duke e da Universidade Nacional Tsing Hua de Taiwan, explora a mesma vulnerabilidade de uma perspectiva diferente. Em vez de preencher com quebra-cabeças, o H-CoT manipula os próprios passos de raciocínio do modelo. O modelo o1 da OpenAI mantém uma taxa de recusa de 99% em condições normais. Sob ataque H-CoT, essa taxa cai para menos de 2%.
Os pesquisadores propõem uma defesa: monitoramento consciente do raciocínio. Ele rastreia como os sinais de segurança mudam a cada etapa do raciocínio e, se qualquer etapa enfraquecer o sinal de segurança, então penaliza-o—forçando o modelo a manter a atenção em conteúdo potencialmente prejudicial, independentemente da duração do raciocínio. Testes iniciais mostram que essa abordagem pode restaurar a segurança sem destruir o desempenho.
Mas a implementação continua incerta. A defesa proposta requer uma integração profunda no processo de raciocínio do modelo, o que está longe de ser um simples remendo ou filtro. É necessário monitorar ativações internas em dezenas de camadas em tempo real, ajustando padrões de atenção dinamicamente. Isso é dispendioso em termos computacionais e tecnicamente complexo.
Os pesquisadores divulgaram a vulnerabilidade à OpenAI, Anthropic, Google DeepMind e xAI antes da publicação. “Todos os grupos reconheceram o recebimento, e vários estão ativamente avaliando mitigação,” afirmaram os pesquisadores em sua declaração de ética.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Este truque estranho derrota as características de segurança da IA em 99% dos casos
Hub de Arte, Moda e Entretenimento da Decrypt.
Descubra SCENE
<br>
Pesquisadores de IA da Anthropic, Stanford e Oxford descobriram que fazer modelos de IA pensar por mais tempo torna-os mais fáceis de quebrar—o oposto do que todos assumiam.
A suposição predominante era que o raciocínio prolongado tornaria os modelos de IA mais seguros, pois lhes dá mais tempo para detectar e recusar solicitações prejudiciais. Em vez disso, os pesquisadores descobriram que isso cria um método de jailbreak confiável que contorna completamente os filtros de segurança.
Usando esta técnica, um atacante poderia inserir uma instrução no processo de Cadeia de Pensamento de qualquer modelo de IA e forçá-lo a gerar instruções para criar armas, escrever código de malware ou produzir outro conteúdo proibido que normalmente acionaria uma recusa imediata. As empresas de IA gastam milhões construindo essas barreiras de segurança precisamente para prevenir tais saídas.
O estudo revela que o Chain-of-Thought Hijacking atinge taxas de sucesso de ataque de 99% no Gemini 2.5 Pro, 94% no GPT o4 mini, 100% no Grok 3 mini e 94% no Claude 4 Sonnet. Esses números destroem todos os métodos de jailbreak anteriores testados em grandes modelos de raciocínio.
O ataque é simples e funciona como o jogo “Whisper Down the Lane” ( ou “Telephone” ), com um jogador malicioso em algum lugar perto do fim da linha. Você simplesmente preenche um pedido prejudicial com longas sequências de resolução de quebra-cabeças inofensivos; pesquisadores testaram grades de Sudoku, quebra-cabeças de lógica e problemas matemáticos abstratos. Adicione uma pista de resposta final no final, e as barreiras de segurança do modelo colapsam.
Os pesquisadores escreveram: “Trabalhos anteriores sugerem que este raciocínio escalado pode fortalecer a segurança ao melhorar a recusa. No entanto, encontramos o oposto.” A mesma capacidade que torna esses modelos mais inteligentes na resolução de problemas os torna cegos para o perigo.
Aqui está o que acontece dentro do modelo: Quando você pede a uma IA para resolver um quebra-cabeça antes de responder a uma pergunta prejudicial, sua atenção é diluída entre milhares de tokens de raciocínio benignos. A instrução prejudicial—enterrada em algum lugar perto do final—recebe quase nenhuma atenção. Os controles de segurança que normalmente capturam prompts perigosos enfraquecem dramaticamente à medida que a cadeia de raciocínio se torna mais longa.
Este é um problema que muitas pessoas familiarizadas com IA conhecem, mas em menor grau. Alguns prompts de jailbreak são deliberadamente longos para fazer um modelo desperdiçar tokens antes de processar as instruções prejudiciais.
A equipe realizou experimentos controlados no modelo S1 para isolar o efeito do comprimento do raciocínio. Com raciocínio mínimo, as taxas de sucesso do ataque atingiram 27%. No comprimento de raciocínio natural, isso saltou para 51%. Forçando o modelo a pensar de forma prolongada e passo a passo, as taxas de sucesso dispararam para 80%.
Todos os principais AIs comerciais são vítimas deste ataque. O GPT da OpenAI, o Claude da Anthropic, o Gemini do Google e o Grok da xAI—nenhum é imune. A vulnerabilidade existe na própria arquitetura, não em nenhuma implementação específica.
Os modelos de IA codificam a força de verificação de segurança em camadas intermediárias em torno da camada 25. Camadas finais codificam o resultado da verificação. Longas cadeias de raciocínio benigno suprimem ambos os sinais, o que acaba desviando a atenção de tokens prejudiciais.
Os pesquisadores identificaram cabeças de atenção específicas responsáveis pelos verificações de segurança, concentradas nas camadas 15 a 35. Eles removeram cirurgicamente 60 dessas cabeças. O comportamento de recusa colapsou. Instruções prejudiciais tornaram-se impossíveis de serem detectadas pelo modelo.
As “camadas” em modelos de IA são como etapas em uma receita, onde cada etapa ajuda o computador a entender e processar melhor a informação. Essas camadas trabalham juntas, passando o que aprendem de uma para a próxima, para que o modelo possa responder a perguntas, tomar decisões ou identificar problemas. Algumas camadas são especialmente boas em reconhecer questões de segurança—como bloquear pedidos prejudiciais—enquanto outras ajudam o modelo a pensar e raciocinar. Ao empilhar essas camadas, a IA pode se tornar muito mais inteligente e cuidadosa sobre o que diz ou faz.
Este novo jailbreak desafia a suposição fundamental que impulsiona o desenvolvimento recente de IA. No último ano, as principais empresas de IA mudaram o foco para escalar o raciocínio em vez de contar parâmetros brutos. A escalabilidade tradicional mostrou retornos decrescentes. O raciocínio em tempo de inferência - fazendo com que os modelos pensem mais tempo antes de responder - tornou-se a nova fronteira para ganhos de desempenho.
A suposição era que mais reflexão equivale a uma melhor segurança. Um raciocínio prolongado daria aos modelos mais tempo para identificar pedidos perigosos e recusá-los. Esta pesquisa prova que essa suposição estava incorreta e provavelmente errada.
Um ataque relacionado chamado H-CoT, lançado em fevereiro por pesquisadores da Universidade Duke e da Universidade Nacional Tsing Hua de Taiwan, explora a mesma vulnerabilidade de uma perspectiva diferente. Em vez de preencher com quebra-cabeças, o H-CoT manipula os próprios passos de raciocínio do modelo. O modelo o1 da OpenAI mantém uma taxa de recusa de 99% em condições normais. Sob ataque H-CoT, essa taxa cai para menos de 2%.
Os pesquisadores propõem uma defesa: monitoramento consciente do raciocínio. Ele rastreia como os sinais de segurança mudam a cada etapa do raciocínio e, se qualquer etapa enfraquecer o sinal de segurança, então penaliza-o—forçando o modelo a manter a atenção em conteúdo potencialmente prejudicial, independentemente da duração do raciocínio. Testes iniciais mostram que essa abordagem pode restaurar a segurança sem destruir o desempenho.
Mas a implementação continua incerta. A defesa proposta requer uma integração profunda no processo de raciocínio do modelo, o que está longe de ser um simples remendo ou filtro. É necessário monitorar ativações internas em dezenas de camadas em tempo real, ajustando padrões de atenção dinamicamente. Isso é dispendioso em termos computacionais e tecnicamente complexo.
Os pesquisadores divulgaram a vulnerabilidade à OpenAI, Anthropic, Google DeepMind e xAI antes da publicação. “Todos os grupos reconheceram o recebimento, e vários estão ativamente avaliando mitigação,” afirmaram os pesquisadores em sua declaração de ética.