80B parameter, tetapi hanya 3B yang diaktifkan per token → Pelatihan 10x lebih murah, inferensi 10x lebih cepat daripada Qwen
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
7 Suka
Hadiah
7
5
Posting ulang
Bagikan
Komentar
0/400
MoonMathMagic
· 09-12 01:48
Apakah kinerja model sebesar ini benar-benar dapat diandalkan?
Lihat AsliBalas0
StakeHouseDirector
· 09-12 01:47
Pengurangan parameter? Kemunduran teknologi
Lihat AsliBalas0
LiquidityHunter
· 09-12 01:46
Wah, cepat dan hemat, bull!
Lihat AsliBalas0
AllInAlice
· 09-12 01:45
Optimisasi yang begitu jelas membuat saya ingin menginvestasikan uang.
Qwen3-Next-80B-A3B telah keluar
80B parameter, tetapi hanya 3B yang diaktifkan per token → Pelatihan 10x lebih murah, inferensi 10x lebih cepat daripada Qwen