80B parámetros, pero solo 3B activados por token → 10 veces más barato para entrenar, 10 veces más rápido en inferencia que Qwen
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
7 me gusta
Recompensa
7
5
Republicar
Compartir
Comentar
0/400
MoonMathMagic
· 09-12 01:48
¿Realmente puede soportar el rendimiento de un modelo tan grande?
Ver originalesResponder0
StakeHouseDirector
· 09-12 01:47
¿Reducción de parámetros? ¿Retroceso tecnológico?
Ver originalesResponder0
LiquidityHunter
· 09-12 01:46
Vaya, rápido y económico, alcista.
Ver originalesResponder0
AllInAlice
· 09-12 01:45
La optimización es tan evidente que hasta quiero invertir dinero.
Ver originalesResponder0
MemeKingNFT
· 09-12 01:33
Los grandes modelos también han comenzado a tener tontos Halving.
Qwen3-Next-80B-A3B ha sido lanzado
80B parámetros, pero solo 3B activados por token → 10 veces más barato para entrenar, 10 veces más rápido en inferencia que Qwen