100 triệu Token ngữ cảnh, mô hình nhỏ 4B vượt trội hoàn toàn so với 235B RAG! EverMind mở nguồn MSA gây chấn động
Bạn có từng nghĩ: dung lượng ký ức của con người trong một đời khoảng 2-3 tỷ Token, còn GPT, Claude ngày nay chỉ cố gắng duy trì đến 200K-1M, vượt quá sẽ sập? Dù có nhiều vector database hơn cũng không cứu nổi. Tìm kiếm luôn là phần phụ, nhiều bước suy luận một khi mất là quên; huấn luyện mô hình ngữ cảnh dài một lần tiêu tốn đắt đỏ bộ nhớ GPU, suy luận còn chậm chết đi được.
EverMind-AI một cú đấm mạnh, trực tiếp phá vỡ giới hạn. Họ mở nguồn MSA (Memory Sparse Attention), một kiến trúc ký ức dài hạn thực sự nguyên bản, tích hợp, có thể huấn luyện end-to-end, đưa dung lượng ký ức của LLM lên đến 100.000.000 Token, độ giảm chính xác chỉ chưa tới 9%!
Đây không phải là trò lừa dài ngữ cảnh nữa, đây là cuộc cách mạng khi ghép thẳng hippocampus vào Transformer.
//
MSA thực sự xuất sắc ở chỗ nào? Ba chiêu giết chết tất cả các đàn anh
1. Chú ý thưa + Document-wise RoPE
RoPE truyền thống khi dài quá sẽ bị lệch vị trí, MSA cho mỗi tài liệu độc lập đặt lại bộ đếm vị trí, huấn luyện 64K có thể mở rộng không giới hạn đến 100M. Độ phức tạp từ O(n²) biến thành gần như O(n), huấn luyện và suy luận đều tuyến tính mở rộng được.
2. Bộ đệm KV phân lớp nén + Memory Parallel
Chìa khóa định tuyến (phiên bản siêu nén) thường trực trên GPU, toàn bộ KV để trong bộ nhớ CPU. Khi suy luận chỉ lấy Top-k tài liệu cần thiết, 2 chiếc A800 có thể chạy 100M Token! Thử nghiệm chính thức: thông lượng tăng vọt.
3. Cơ chế Memory Interleave (kết hợp ký ức)
Không còn là truy xuất một lần, mà để mô hình tự suy nghĩ lặp lại: sinh → truy xuất → sinh tiếp → truy xuất tiếp. Quyết định động số tài liệu cần thiết, nhiều bước suy luận (HotpotQA, 2Wiki, v.v.) sống lại, thử nghiệm ablation cho thấy bỏ đi nó độ chính xác giảm tới 19%+.
Tóm lại: MSA đã hoàn toàn hòa quyện ký ức và suy nghĩ thành một vòng kín có thể phân biệt được, không còn là “tra cứu rồi trả lời”, mà là vừa nghĩ vừa hồi tưởng. Đây mới đúng là cách nhớ của AGI. Dữ liệu không nói dối: mô hình 4B vượt trội mọi thứ.
Chính thức dùng Qwen3-4B-Instruct làm backbone, so sánh với RAG cùng quy mô, stack RAG hàng đầu, HippoRAG2, v.v.:
• Điểm trung bình QA ngữ cảnh dài: MSA dẫn đầu backbone RAG 16%, dẫn đầu stack RAG mạnh nhất 11.5%.
• MS MARCO (hơn 7 triệu Token): MSA đạt 4.141 điểm, vượt xa dòng RAG.
• Bộ dữ liệu nhiều bước suy luận (HotpotQA, 2Wiki): lợi thế còn rõ ràng hơn.
• NIAH (đâm vào đống cỏ) 1M Token: mô hình truyền thống sụp xuống dưới 25%, MSA vẫn duy trì >94% độ chính xác.
• Toàn trình từ 16K đến 100M Token: độ giảm chính xác <9%, trong khi các phương án khác đã tụt dốc thảm khốc.
Thậm chí còn điên rồ hơn: một mô hình MSA 4B, hiệu năng vượt xa hệ thống RAG có số tham số gấp 60 lần. Điều này có nghĩa là: trong tương lai, Agent không còn cần mô hình khổng lồ 200B+ nữa, chỉ cần cài MSA là có trí nhớ gần như cả đời người.
Đội ngũ EverMind rõ ràng đã xem việc cho Agent có trí nhớ cá nhân là sứ mệnh cốt lõi, và MSA chính là món quà lớn đầu tiên họ gửi đến toàn thế giới.
github mở nguồn:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
121.31K Phổ biến
#
GateMarchTransparencyReport
42.94K Phổ biến
#
IsraelStrikesIranBTCPlunges
29.81K Phổ biến
#
GoldmanSachsFilesBitcoinIncomeETF
776.5K Phổ biến
#
USBlocksStraitofHormuz
749.94K Phổ biến

Ghim

sơ đồ trang web

Hỗ trợ cách mạng ký ức mã nguồn mở Trung Quốc, AI cuối cùng đã có trí nhớ dài hạn cấp nhân loại!

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Ghim