Análise GEPA de Berkeley: fazer com que a IA aprenda novas tarefas sem atualizar os pesos, 35 vezes menos custo de treino do que o RL

A equipa de investigação da Universidade da Califórnia, Berkeley, propôs um novo método de treino de IA, o GEPA, que já foi aceite na ICLR 2026 como artigo Oral. O GEPA não atualiza os pesos do modelo, não necessita de treino em GPU e apenas usa um LLM que “lê registos de treino”, reescrevendo repetidamente as instruções (prompts) do sistema de IA. Assim, consegue superar em média os métodos de reforço (reinforcement learning) dominantes GRPO em 6% em 6 tarefas, com melhor desempenho máximo de 20%, e usando 35 vezes menos tentativas de treino (rollouts). Depois de, por iniciativa da comunidade de engenharia de IA, a abordagem ser divulgada e discutida na plataforma X via difusão, já foi integrada no DSPy como um otimizador de primeira classe.

O que o GEPA está a fazer: usar os registos de treino como material didático, sem olhar apenas para pontuações

O fluxo de trabalho dos métodos tradicionais de aprendizagem por reforço (como o GRPO) é: fazer o IA executar uma tarefa, atribuir uma pontuação “+1 ou -1” com base no resultado, e ajustar repetidamente os pesos do modelo com base nessa pontuação. O problema é que o processo da IA ao executar uma única tarefa normalmente inclui passos de raciocínio com milhares de tokens, chamadas a ferramentas e mensagens de erro—todos esses detalhes ricos acabam comprimidos numa única pontuação e a informação do processo é descartada. Por isso, o RL precisa de correr dezenas de milhares de vezes para convergir.

A abordagem do GEPA é o oposto: após a IA terminar a tarefa, entrega a outra “LLM de reflexão” a totalidade do processo (raciocínio, chamadas a ferramentas, registos de erros) de forma fiel. A LLM de reflexão funciona como um engenheiro sénior a ler um log de código: identifica em que passo ocorreu o erro, por que motivo ocorreu e como deve ser alterado o prompt; em seguida, reescreve diretamente o prompt do módulo em causa. Do mesmo modo, ao correr a tarefa uma vez, o GEPA extrai muito mais sinal do que o RL, que usa apenas uma pontuação única.

Por que razão consegue vencer: trocar “dar pontuações” por “ler o processo todo”

O GEPA vence o GRPO em 6 tarefas: em média mais 6% e com máximo de 20%. Em comparação com outro otimizador de prompts dominante, o MIPROv2, também supera em mais de 10% (com uma melhoria de 12% na base de referência de problemas de matemática AIME-2025). O mais importante, porém, é o custo de treino: para atingir desempenho equivalente, o GEPA precisa de apenas 35 vezes menos rollouts (execuções completas de tarefas).

Outra métrica é que, após a integração com o DSPy, o “Full Program Adapter” do GEPA consegue otimizar todo o programa no DSPy (incluindo signature, módulos e controlo de fluxo). No benchmark de matemática MATH, atinge 93% de exatidão—muito acima dos 67% da escrita do ChainOfThought original do DSPy. O GEPA também se destaca em fluxos de trabalho multi-módulo (agentes de IA com módulos encadeados): consegue localizar com precisão um módulo que falhou e reescrever o seu prompt, em vez de ajustar todo o sistema.

Quem vai começar primeiro a usá-lo: DSPy como cidadão de primeira classe, e já com código aberto no GitHub

O código do GEPA já foi disponibilizado no GitHub e foi integrado no framework DSPy na forma dspy.GEPA; além disso, é publicado separadamente como uma biblioteca Python. A equipa de investigação é composta por membros de UC Berkeley, Stanford, Notre Dame, Anthropic e outras instituições; entre os autores do artigo estão Matei Zaharia (cofundador da Databricks e principal autor do DSPy) e Omar Khattab (principal autor do DSPy).

Para a comunidade de programadores, o GEPA oferece uma nova solução para o problema “temos muitos rollouts, mas não sabemos como utilizá-los”: muitas equipas já acumularam milhares de registos de execução de tarefas por agentes, mas, para além de folhear alguns registos quando ocorre um erro para dar “code bug” (inspeção pontual), não existe um método sistemático para transformar esses registos em melhoria do modelo. O próximo ponto de observação é como o GEPA é aplicado de forma prática em workflows empresariais de agentes (como automação de atendimento ao cliente e correção automática de código) e se surgirá uma implementação equivalente do GEPA fora do framework DSPy.

O artigo Berkeley: análise do GEPA—não atualizar pesos para a IA aprender novas tarefas, vencendo o RL com 35 vezes menos custo de treino—apareceu pela primeira vez na cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Vercel disponibiliza em open-source o framework deepsec, com mais de 1.000 de concorrência em sandbox para a verificação local de segurança de IA

De acordo com Beating, a Vercel abriu o código-fonte do deepsec, uma framework de testes de segurança orientada por IA que permite aos programadores analisar grandes bases de código localmente, sem expor o código-fonte a serviços de cloud externos. A framework utiliza um fluxo de verificação em várias etapas: após o primeiro filtro por regex, um

GateNews1h atrás

As câmaras de IA da Netradyne monitorizam o comportamento do condutor em frotas

Sistema de Monitorização do Condutor com IA da Netradyne A Netradyne, uma start-up indiana, está a implementar câmaras com IA em frotas de veículos comerciais para monitorizar o comportamento dos condutores e reduzir acidentes. As câmaras viradas para o interior focam-se no condutor em vez dos passageiros, alertando o condutor quando excede os limites de velocidade o

CryptoFrontier2h atrás

AequiSolva lança a arquitectura de IA Sentinel Stack para a verificação de activos institucionais a 30 de Abril

De acordo com a AequiSolva, a empresa lançou a sua arquitetura de bolsa Sentinel Stack™ integrada com IA a 30 de abril de 2026, com execução determinística, vigilância do mercado orientada por IA e o Omni-Attest Engine™ para uma prova criptográfica contínua de reservas. A plataforma combina três bases essenciais

GateNews7h atrás

Karpathy revela em primeira mão: um método completo para construir uma base de conhecimento pessoal com LLM

O antigo membro da equipa fundador da OpenAI e ex-diretor de IA da Tesla, Andrej Karpathy, publicou no X um fluxo de trabalho de “LLM Knowledge Bases”. Nele explica que, recentemente, converteu o uso de uma grande quantidade de tokens de “manipular código” para “manipular conhecimento” — usando LLM para transformar artigos, publicações, pastas, imagens dispersas num wiki pessoal automaticamente mantido. Todo o processo já acumulou, nos seus próprios projetos de investigação, cerca de ~100 artigos, ~400 mil palavras, e foi todo escrito e atualizado pelo LLM. Este artigo reúne o setup completo de Karpathy e fornece aos programadores que querem replicar uma lista de verificação que podem pôr em prática. Ideia central: dados em bruto → compilação com LLM → wiki → Q&A A filosofia de design de Karpathy pode ser resumida em

ChainNewsAbmedia14h atrás

Empresa de tesouraria de Bitcoin K Wave Media assegura até $485M para a construção de infraestruturas de IA

De acordo com o ChainCatcher, a empresa de tesouraria de bitcoin cotada na Nasdaq, K Wave Media, anunciou a 4 de maio uma viragem estratégica para infraestruturas de IA, garantindo até 485 milhões de dólares em apoio de capital para investimentos em centros de dados, serviços de aluguer de GPU e aquisições e parcerias em infraestruturas de IA. A empresa

GateNews15h atrás

A Antimatter lança um plano de centro de dados de IA com financiamento de 300 milhões de euros

A Antimatter, uma empresa francesa de infraestruturas cloud para cargas de trabalho de IA, lançou-se a 4 de maio ao reunir três empresas já existentes: Datafactory, Policloud e Hivenet. A empresa está a angariar 300 milhões de euros (351 milhões de dólares) para implementar 100 unidades de micro centros de dados em 2026 para inferência de IA

CryptoFrontier17h atrás
Comentar
0/400
Nenhum comentário