80B tham số, nhưng chỉ 3B được kích hoạt cho mỗi mã thông báo → Huấn luyện rẻ hơn 10 lần, suy diễn nhanh hơn 10 lần so với Qwen
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
7 thích
Phần thưởng
7
5
Đăng lại
Chia sẻ
Bình luận
0/400
MoonMathMagic
· 09-12 01:48
Mô hình lớn như vậy có thật sự chịu được hiệu suất không?
Xem bản gốcTrả lời0
StakeHouseDirector
· 09-12 01:47
Giảm thiểu tham số? Lùi bước công nghệ
Xem bản gốcTrả lời0
LiquidityHunter
· 09-12 01:46
Hay quá, vừa nhanh vừa tiết kiệm, bull
Xem bản gốcTrả lời0
AllInAlice
· 09-12 01:45
Tối ưu hóa rõ ràng như vậy, tôi cũng muốn đầu tư tiền.
Xem bản gốcTrả lời0
MemeKingNFT
· 09-12 01:33
Đại mô hình cũng bắt đầu đồ ngốc Giảm một nửa rồi à
Qwen3-Next-80B-A3B đã ra mắt
80B tham số, nhưng chỉ 3B được kích hoạt cho mỗi mã thông báo → Huấn luyện rẻ hơn 10 lần, suy diễn nhanh hơn 10 lần so với Qwen