Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Что действительно заставляет современные модели ИИ эволюционировать? Выделяются три обратные связи:



Академические стандарты теперь воспринимаются иначе. Задачи по математике уровня IMO и FrontierMath уже не просто тесты — они заставляют модели действительно рассуждать, а не просто сопоставлять паттерны. Когда ваша система не может справиться с ними, разрыв становится очевидным быстро.

Рыночные метрики рассказывают настоящую историю. Флуктуации DAU, кривые удержания, реальные паттерны использования — это не показательные цифры. Пользователи голосуют своими кошельками и вниманием. Модель, которая хорошо показывает себя на бенчмаркинге, но теряет пользователей? Это тревожный сигнал, который не покажет вам рейтинг.

Настроение в социальных медиа работает как канарейка в угольной шахте. Сообщества разработчиков и активные пользователи выявляют крайние случаи еще до того, как это сделает ваша команда контроля качества. Настроения имеют значение, потому что они агрегируют тысячи реальных взаимодействий в направляющие сигналы.

Модели, которые выигрывают в долгосрочной перспективе? Они оптимизируют все три измерения одновременно, а не только одну метрику.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
LiquidityWitchvip
· 4ч назад
честно говоря, вся эта история с "вибрациями как метрикой" — это пик 2024 года... социальное настроение на самом деле просто коллективное гадание толпы перед тем, как их обманут. настоящая алхимия? наблюдать за кривыми DAU, пока академики обсуждают проблемы IMO, которые никто все равно не решает. на самом деле это все просто разные слои одной и той же иллюзии.
Посмотреть ОригиналОтветить0
LiquidatorFlashvip
· 4ч назад
Ключевым является тот DAU-данные, эффект сифона, как только он запускается, его невозможно остановить...
Посмотреть ОригиналОтветить0
GasFeeNightmarevip
· 4ч назад
Честно говоря, академический Бенчмарк сейчас действительно не работает, нужно смотреть на коэффициент удержания и реальные данные пользователей. Высокий балл по benchmark, но не удерживает людей? Это просто шутка.
Посмотреть ОригиналОтветить0
DogeBachelorvip
· 4ч назад
В конечном счете, нужно действительно заниматься практикой. Те модели, которые только и делают, что прокачивают бенчмарки, теперь в неловком положении, пользователи не ценят это, а уровень удержания клиентов стремительно падает.
Посмотреть ОригиналОтветить0
  • Горячее на Gate FunПодробнее
  • РК:$3.67KДержатели:2
    0.00%
  • РК:$3.71KДержатели:1
    0.00%
  • РК:$3.76KДержатели:2
    0.04%
  • РК:$3.68KДержатели:1
    0.00%
  • РК:$3.69KДержатели:1
    0.00%
  • Закрепить