Gate News notícia, 25 de março, engenheiro do Ant Group, autor do framework front-end Umi.js, Chen Cheng, realizou engenharia reversa do código-fonte do Claude Code 2.1.81, restaurando completamente o mecanismo de decisão do Modo Automático. Descoberta principal: cada chamada de ferramenta passa por uma linha de decisão de quatro camadas, e só quando as três primeiras não puderem determinar, um classificador de IA independente é acionado para revisão de segurança.
As quatro camadas de decisão são: primeira, verificar as regras de permissão existentes, permitindo diretamente se houver correspondência; segunda, simular o modo acceptEdits (permite edição de arquivos), se passar nesta etapa, indica risco baixo, e o classificador é pulado; terceira, verificar a whitelist de ferramentas somente leitura (Read, Grep, Glob, LSP, WebSearch, etc.), que não modificam estado, permitindo sem condições; somente se nenhuma dessas condições for atendida, a quarta camada é acionada, enviando uma requisição API independente ao Claude Sonnet para classificação de segurança.
Detalhes-chave do design do classificador incluem: sempre usar Sonnet em vez de Opus, equilibrando custo e latência; temperatura definida como 0 para garantir saída determinística; o classificador é definido como “monitor de segurança de agentes de IA autônomos”, protegendo contra três riscos (injeção de prompts, propagação de escopo, danos acidentais); o arquivo de configuração CLAUDE.md do usuário é injetado no contexto do classificador, servindo como base para interpretar a intenção do usuário.
Regras de bloqueio cobrem mais de 22 categorias, incluindo force push, push direto para o branch main, download e execução de código externo, implantação de produção, vazamento de dados, auto-modificação de permissões, criação de vetores de execução remota, vazamento de credenciais, etc. Exceções de permissão incluem 7 categorias: chaves hardcoded de teste, operações de arquivo local no diretório de trabalho, requisições GET somente leitura, instalação de dependências declaradas, instalação de toolchains oficiais, leitura de credenciais de configuração enviadas ao provedor de destino, push para o branch de trabalho atual.
O sistema também possui mecanismo de fallback: após 3 recusas consecutivas ou 20 recusas acumuladas, o sistema faz downgrade para confirmação manual; no modo headless, o agente é interrompido diretamente. Quando o classificador está indisponível, uma flag de recurso controla se o sistema opera em “fail-closed” (rejeição direta) ou “fail-open” (downgrade para confirmação manual).
No Modo Automático, há controle de frequência na injeção de prompts de comportamento: uma injeção a cada 5 rodadas de diálogo, sendo que na primeira injeção de cada ciclo de 5 é a versão completa (cerca de 800 palavras, incluindo comandos como “executar imediatamente”, “reduzir interrupções”, “ação acima do plano” e outros seis), e as demais quatro são versões resumidas, equilibrando uso de espaço no contexto e estabilidade do comportamento.
Related Articles
Os 30 Parceiros Web3 da Fireblocks Gerem Mais de $200B nas Entradas Mensais de Stablecoins
A Receita da Moore Threads no 1.º Trimestre Dispara 155% em Relação ao Ano Anterior para $104M, E Vira para a Rentabilidade
As stablecoins não são apenas para pagamentos transfronteiriços—são também para a integração local! Relatório mais recente da a16z: a Ásia sustenta dois terços do volume de transações
Banco Central do Brasil: stablecoins dominam as compras de cripto no valor de mais de 6,9 mil milhões de dólares registadas no 1.º trimestre
Stablecoins Emergindo como Infraestrutura Financeira Central, Tendências de Localização Aceleram: Relatório da a16z
79% das caixas multibanco de cripto a nível global estão localizadas nos Estados Unidos