80B parâmetros, mas apenas 3B ativados por token → 10x mais barato para treinar, 10x mais rápido para inferir do que o Qwen
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
7 Curtidas
Recompensa
7
5
Repostar
Compartilhar
Comentário
0/400
MoonMathMagic
· 09-12 01:48
Um modelo tão grande realmente consegue suportar isso?
Ver originalResponder0
StakeHouseDirector
· 09-12 01:47
Redução de parâmetros? Retrocesso técnico
Ver originalResponder0
LiquidityHunter
· 09-12 01:46
Boa rapariga, rápido e econômico, bull.
Ver originalResponder0
AllInAlice
· 09-12 01:45
A otimização é tão evidente que eu até quero investir dinheiro.
Ver originalResponder0
MemeKingNFT
· 09-12 01:33
O grande modelo também começou a reduzir para metade os idiotas.
Qwen3-Next-80B-A3B está disponível
80B parâmetros, mas apenas 3B ativados por token → 10x mais barato para treinar, 10x mais rápido para inferir do que o Qwen