80B parâmetros, mas apenas 3B ativados por token → 10x mais barato para treinar, 10x mais rápido para inferir do que o Qwen
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
7 gostos
Recompensa
7
6
Republicar
Partilhar
Comentar
0/400
MetaverseVagrant
· 3h atrás
A Alibaba está a divertir-se bastante.
Ver originalResponder0
MoonMathMagic
· 09-12 01:48
Um modelo tão grande realmente consegue suportar isso?
Ver originalResponder0
StakeHouseDirector
· 09-12 01:47
Redução de parâmetros? Retrocesso técnico
Ver originalResponder0
LiquidityHunter
· 09-12 01:46
Boa rapariga, rápido e econômico, bull.
Ver originalResponder0
AllInAlice
· 09-12 01:45
A otimização é tão evidente que eu até quero investir dinheiro.
Ver originalResponder0
MemeKingNFT
· 09-12 01:33
O grande modelo também começou a reduzir para metade os idiotas.
Qwen3-Next-80B-A3B está disponível
80B parâmetros, mas apenas 3B ativados por token → 10x mais barato para treinar, 10x mais rápido para inferir do que o Qwen