80B параметров, но только 3B активированы на токен → в 10 раз дешевле обучение, в 10 раз быстрее вывод, чем у Qwen
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
7 Лайков
Награда
7
5
Репост
Поделиться
комментарий
0/400
MoonMathMagic
· 09-12 01:48
Такой большой модели действительно под силу справиться с нагрузкой?
Посмотреть ОригиналОтветить0
StakeHouseDirector
· 09-12 01:47
Сжатие параметров? Технический регресс
Посмотреть ОригиналОтветить0
LiquidityHunter
· 09-12 01:46
Хороший парень, быстро и экономно, бык!
Посмотреть ОригиналОтветить0
AllInAlice
· 09-12 01:45
Оптимизация настолько очевидна, что я тоже хочу вложить деньги.
Вышла версия Qwen3-Next-80B-A3B
80B параметров, но только 3B активированы на токен → в 10 раз дешевле обучение, в 10 раз быстрее вывод, чем у Qwen