Phân tích Berkeley GEPA: không cần cập nhật trọng số vẫn có thể giúp AI học nhiệm vụ mới, giảm 35 lần chi phí huấn luyện so với RL

Đội nghiên cứu tại Đại học California, Berkeley đã đề xuất một phương pháp huấn luyện AI mới là GEPA, và đã được ICLR 2026 chấp nhận dưới dạng bài báo Oral. GEPA không cập nhật trọng số mô hình, không cần huấn luyện bằng GPU, chỉ dùng một LLM có nhiệm vụ “đọc lại các bản ghi huấn luyện” để liên tục viết lại prompt của hệ thống AI; nhờ đó, trong 6 nhiệm vụ, GEPA trung bình vượt các phương pháp tăng cường học tập phổ biến GRPO 6%, cao nhất vượt 20%, đồng thời số lần thử huấn luyện (rollouts) ít hơn 35 lần. Sau khi được cộng đồng kỹ sư AI tổng hợp và thảo luận trên X, hiện GEPA đã được tích hợp vào DSPy với vị thế một bộ tối ưu hóa “hạng nhất”.

GEPA đang làm gì: coi “bản ghi huấn luyện” như giáo trình, thay vì chỉ nhìn điểm số

Quy trình của các phương pháp tăng cường học tập truyền thống (như GRPO) là: cho AI chạy một lần nhiệm vụ, dựa trên kết quả gán một điểm “+1 hoặc -1”, rồi dùng điểm số đó để lặp lại điều chỉnh trọng số mô hình. Vấn đề là quá trình AI chạy một nhiệm vụ thường bao gồm các bước suy luận dài hàng nghìn token, gọi công cụ, và ghi lại lỗi—những chi tiết phong phú này bị nén lại thành một điểm số duy nhất, trong khi thông tin theo tiến trình bị loại bỏ. Vì vậy, RL cần chạy hàng chục nghìn lần để hội tụ.

Cách làm của GEPA lại ngược: sau mỗi lần AI chạy xong nhiệm vụ, toàn bộ quá trình (reasoning, lời gọi công cụ, lịch sử lỗi) được chuyển nguyên vẹn sang một “LLM phản tư” để đọc. LLM phản tư giống như một kỹ sư phần mềm giàu kinh nghiệm đọc log chương trình: tìm ra bước nào gây lỗi, vì sao lỗi, và cần sửa prompt như thế nào, rồi trực tiếp viết lại prompt của chính mô-đun đó. Cũng chạy một lần nhiệm vụ như trước, nhưng lượng tín hiệu mà GEPA trích xuất được nhiều hơn đáng kể so với RL chỉ nhận một điểm số.

Vì sao có thể thắng: chuyển từ “chấm điểm” sang “đọc cả đoạn quá trình”

GEPA trong 6 nhiệm vụ trung bình thắng GRPO 6%, cao nhất thắng 20%; đồng thời so với một bộ tối ưu hóa prompt phổ biến khác là MIPROv2 cũng thắng hơn 10% (trên bộ chuẩn AIME-2025 về bài toán toán học, tăng 12%). Quan trọng nhất là chi phí huấn luyện: để đạt hiệu năng tương đương, GEPA cần số rollouts (một lần chạy đầy đủ nhiệm vụ) ít hơn 35 lần.

Một dữ liệu khác là sau khi tích hợp GEPA với DSPy, “Full Program Adapter” có thể tối ưu toàn bộ chương trình DSPy (bao gồm signature, mô-đun, luồng điều khiển). Trên chuẩn MATH về toán học, nó đạt 93% độ chính xác, vượt xa cách viết ChainOfThought gốc của DSPy ở mức 67%. GEPA cũng thể hiện đặc biệt tốt trong các quy trình multi-module (tác nhân AI ghép nối nhiều mô-đun): có thể chính xác khoanh vùng đúng mô-đun gây lỗi để viết lại prompt, thay vì chỉ chỉnh sửa toàn bộ hệ thống.

Ai sẽ là người dùng sớm: DSPy coi GEPA là “công dân hạng nhất”, GitHub đã mở mã nguồn

Mã nguồn GEPA đã được mở trên GitHub, và được tích hợp vào khung DSPy dưới dạng dspy.GEPA; đồng thời cũng được phát hành độc lập như một thư viện Python. Nhóm nghiên cứu có sự tham gia từ UC Berkeley, Stanford, Notre Dame, Anthropic; các tác giả luận văn gồm Matei Zaharia (đồng sáng lập Databricks, tác giả chính của DSPy) và Omar Khattab (tác giả chính của DSPy).

Với cộng đồng nhà phát triển, GEPA đem đến một lời giải mới cho bài toán “có rất nhiều rollout nhưng không biết cách tận dụng”—đa số đội nhóm đã tích lũy hàng nghìn đến hàng vạn bản ghi chạy tác nhân để thực hiện nhiệm vụ, nhưng ngoài việc lật vài bản ghi khi xảy ra lỗi để tìm bug, họ lại không có phương pháp hệ thống để biến các bản ghi đó thành cải tiến mô hình. Điểm quan sát tiếp theo là GEPA sẽ được triển khai trong các workflow agentic ở doanh nghiệp như tự động hóa chăm sóc khách hàng hay tự sửa lỗi lập trình ở thực tế ra sao, và liệu sẽ có các bản triển khai GEPA tương đương ngoài khung DSPy hay không.

Bài viết “Berkeley GEPA giải thích”: không cập nhật trọng số vẫn giúp AI học nhiệm vụ mới, với chi phí huấn luyện ít hơn 35 lần để thắng RL lần đầu tiên xuất hiện trên chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Karpathy tiết lộ: Phương pháp hoàn chỉnh để xây dựng một kho kiến thức cá nhân bằng LLM

Thành viên nhóm sáng lập OpenAI, cựu giám đốc AI của Tesla Andrej Karpathy đã đăng trên X về quy trình làm việc “LLM Knowledge Bases” và giải thích rằng gần đây ông đã chuyển khối lượng token lớn từ “điều khiển mã nguồn” sang “điều khiển tri thức” — dùng LLM để gom các bài báo, bài viết, thư mục, hình ảnh rải rác lại thành một wiki cá nhân được tự động duy trì. Toàn bộ quy trình đã được ông tích lũy trong các dự án nghiên cứu của chính mình với ~100 bài viết, ~400 nghìn từ, và xuyên suốt được LLM viết và cập nhật. Bài viết này tổng hợp toàn bộ phần setup của Karpathy, kèm một checklist có thể thực thi cho các nhà phát triển muốn tự sao chép. Ý tưởng cốt lõi: dữ liệu thô → LLM biên dịch → wiki → Q&A Triết lý thiết kế của Karpathy có thể cô đọng thành một

ChainNewsAbmedia1giờ trước

Công ty quản lý quỹ Bitcoin K Wave Media đảm bảo nhận tới $485M để xây dựng hạ tầng AI

Theo ChainCatcher, công ty kho bạc bitcoin niêm yết trên Nasdaq là K Wave Media đã công bố vào ngày 4/5 một bước chuyển chiến lược sang hạ tầng AI, huy động được hỗ trợ vốn lên tới 485 triệu USD cho các khoản đầu tư trung tâm dữ liệu, dịch vụ cho thuê GPU, cùng các thương vụ mua lại và hợp tác về hạ tầng AI. Công ty

GateNews2giờ trước

Antimatter khởi động kế hoạch trung tâm dữ liệu AI với khoản tài trợ 300 triệu EUR

Antimatter, một công ty hạ tầng đám mây có trụ sở tại Pháp cho các tác vụ AI, đã ra mắt vào ngày 4/5 bằng cách hợp nhất ba công ty hiện có: Datafactory, Policloud và Hivenet. Công ty đang huy động 300 triệu euro (351 triệu USD) để triển khai 100 đơn vị trung tâm dữ liệu vi mô vào năm 2026 cho AI suy luận

CryptoFrontier4giờ trước

Bộ Giáo dục “Thư viện nào cũng có AI”: Thư viện miễn phí dùng ChatGPT, Claude! Xem ngay thời gian và địa điểm áp dụng

Bộ Giáo dục thúc đẩy sáng kiến “Thư viện có AI (館館有 AI)”. Từ quý 4 năm nay, tại các thư viện quốc gia như Thư viện Quốc gia sẽ bố trí mỗi thư viện 5 máy tính AI; người dân chỉ cần sử dụng thẻ mượn sách có thể dùng miễn phí các công cụ như ChatGPT, Claude, Gemini… nhằm thu hẹp khoảng cách AI vốn phải trả phí, đồng thời mở rộng ra 47 thư viện đại học quốc gia. Kinh phí do chính các trường tự huy động hoặc xin hỗ trợ; đồng thời cần vượt qua các thách thức như thời gian sử dụng, quản lý tài khoản, quyền riêng tư và vấn đề cấp phép.

ChainNewsAbmedia5giờ trước

Kinh tế học người mẫu ảo do AI tạo ra: phân tích 4 hệ thống Markdown của Aitana, Emily

AI người mẫu ảo từ thử nghiệm chủ đề đã phát triển thành một thực thể kinh doanh tạo ra thu nhập mỗi tháng lên tới vài chục nghìn đô la Mỹ, toàn bộ kỹ thuật stack trong 18 tháng đã nhanh chóng trưởng thành. Bài viết này tổng hợp 3 trường hợp điển hình: Aitana López thuộc The Clueless (Barcelona, thu nhập tháng €10.000), Emily Pellegrini do một tác giả ẩn danh tạo dựng (thu nhập mỗi tuần khoảng 1 vạn đô la Mỹ), và “Maya” gần đây lan truyền trên nền tảng X—một nữ sinh/ sinh viên bang Texas được cho là đã xây dựng một nhân cách ảo AI bằng 4 tệp markdown, và tháng đầu tiên mang về 43.000 đô la Mỹ trên tài khoản OnlyFans. Aitana López: Người mẫu ảo do The Clueless sở hữu, thu nhập tháng cao nhất €10.000 Aitana López là người…

ChainNewsAbmedia8giờ trước

TipTip đạt lợi nhuận EBITDA khi AI thúc đẩy mảng bán vé giải trí

Nền tảng giải trí và trải nghiệm của Indonesia TipTip đã công bố vào ngày 4/5 rằng công ty đạt trạng thái có lãi EBITDA trên toàn hệ thống vào đầu năm 2026, nhờ kiểm soát chi phí, cải thiện kinh tế đơn vị và quan hệ hợp tác với nhà đầu tư dẫn dắt East Ventures. Tăng trưởng vé giải trí TipTip's entertainment t

CryptoFrontier10giờ trước
Bình luận
0/400
Không có bình luận