Война моделей в эпоху горячих больших моделей ИИ: инженерная проблема или научный вызов

"Битва ста моделей" в области ИИ: инженерная проблема или научный вызов?

В прошлом месяце в AI-индустрии разразилась "битва животных".

С одной стороны, модель Llama, выпущенная Meta, стала популярной среди разработчиков благодаря своей открытой природе. Одна японская компания, изучившая статьи и исходный код Llama, быстро разработала японскую версию ChatGPT, что решило проблему узкого места в области ИИ в Японии.

Другая сторона — это большая модель под названием Falcon. В мае этого года был представлен Falcon-40B, который обошел Llama и занял первое место в рейтинге открытых LLM. Этот список составлен сообществом открытых моделей и предоставляет стандарты для оценки возможностей LLM. В основном, в рейтинге Llama и Falcon чередуются на первых местах.

После выпуска Llama 2 серия Llama временно лидировала; но в начале сентября Falcon выпустил версию 180B, снова заняв более высокое место.

Интересно, что разработчик Falcon - это Институт научных исследований и инноваций в Абу-Даби, столице Объединенных Арабских Эмиратов. Правительство ОАЭ заявило: "Мы участвуем в этой области, чтобы разрушить основных игроков".

На следующий день после выпуска Falcon 180B министр искусственного интеллекта ОАЭ был включен в список "100 самых влиятельных людей в области ИИ", составленный журналом Time; вместе с ним в этот список вошли такие фигуры, как "отец ИИ" Джеффри Хинтон и Альтман из OpenAI.

Сегодня в области ИИ наступила эпоха конкуренции: любые страны и компании с определенным финансовым потенциалом создают свои большие языковые модели. В рамках стран Персидского залива уже есть не один участник — в августе Саудовская Аравия только что приобрела более 3000 чипов H100 для обучения LLM для своих университетов.

Некоторые инвесторы когда-то жаловались: "Когда-то я не обращал внимания на инновации бизнес-моделей интернета, думал, что нет барьеров: битва ста групп, битва ста автомобилей, битва ста трансляций; не ожидал, что в стартапах на основе жестких технологий по-прежнему будет битва ста моделей..."

Почему должно было быть высокотехнологичным и сложным, а превратилось в ситуацию, где одна страна делает одно и то же, и на одном акре собирают по десять тысяч斤?

Трансформер поглощает мир

Американские стартапы, китайские технологические гиганты и нефтяные магнаты Ближнего Востока могут преследовать большие модели благодаря той знаменитой статье: «Внимание — это всё, что вам нужно».

В 2017 году 8 ученых-компьютерщиков из Google опубликовали алгоритм Transformer в этой статье, открыв его для всего мира. Это третья по количеству цитирований статья в истории искусственного интеллекта, появление Transformer вызвало текущую волну увлечения ИИ.

На данный момент все большие модели, включая нашумевшую по всему миру серию GPT, построены на основе трансформеров.

Ранее "научить машину читать" было общепризнанной академической проблемой. В отличие от распознавания изображений, при чтении человек не только обращает внимание на текущие слова и фразы, но и учитывает контекст для понимания.

Ранние нейронные сети имели независимые входы и не могли понимать длинные тексты, даже целые статьи, что приводило к таким проблемам, как перевод "开水间" как "open water room".

В 2014 году компьютерный ученый Илья, сменивший работу в Google на OpenAI, первым добился прорыва. Он использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что позволило Google Translate быстро обойти конкурентов.

RNN предложил "циклический дизайн", который позволяет каждому нейрону одновременно получать текущий ввод и ввод предыдущего момента времени, наделяя нейронную сеть способностью "учитывать контекст".

Появление RNN вызвало интерес к исследованиям в академической среде, и позже автор статьи о Transformer Шазел также углубился в это исследование. Однако разработчики вскоре обнаружили, что у RNN есть серьезные недостатки:

Алгоритм использует последовательные вычисления, хотя и решает проблему контекста, но его эффективность не высока, и он с трудом справляется с большим количеством параметров.

Сложный дизайн RNN быстро утомил Шазеля. Поэтому с 2015 года Шазель и 7 единомышленников начали разработку заменителя RNN, в итоге получив Transformer.

По сравнению с RNN, у Transformer есть два больших преобразования:

Во-первых, использование кодирования позиций вместо циклического дизайна RNN позволяет осуществлять параллельные вычисления — это значительно повысило эффективность обучения Transformer, позволяя ему обрабатывать огромные объемы данных и выводя ИИ на эпоху больших моделей; во-вторых, дальнейшее усиление контекстной способности.

После того как Transformer в одночасье решил множество проблем, он постепенно стал доминирующим решением в NLP( обработке естественного языка ), возникает чувство, что "без Transformer не было бы и NLP, как вечная ночь". Даже Илья отказался от своего первоначально созданного RNN и переключился на Transformer.

Иными словами, Transformer является предком всех больших моделей сегодня, он превратил большие модели из теоретического исследования в чисто инженерную задачу.

В 2019 году OpenAI разработала GPT-2 на основе Transformer, который поразил академическое сообщество. В ответ Google быстро выпустила более мощную модель ИИ Meena.

По сравнению с GPT-2, Meena не имеет революционных алгоритмов, а лишь увеличила количество параметров в 8,5 раз и вычислительную мощность в 14 раз. Автор статьи о Transformer Шазел был сильно потрясен таким "грубым накапливанием" и сразу же написал меморандум под названием "Meena поглощает мир".

После появления Transformers скорость инноваций в базовых алгоритмах значительно замедлилась в академической среде. Инженерные факторы, такие как обработка данных, масштаб вычислений и архитектура моделей, становятся ключевыми в соревнованиях по ИИ, и компании с некоторыми техническими возможностями могут самостоятельно разрабатывать большие модели.

Поэтому компьютерный ученый Эндрю Нг в своей речи в Стэнфорде сказал: "ИИ является набором инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современный генеративный искусственный интеллект. Все это универсальные технологии, аналогичные электричеству и интернету."

OpenAI, безусловно, остается ориентиром в области LLM, но аналитическая компания в области полупроводников считает, что конкурентоспособность GPT-4 основана на инженерных решениях — если он будет с открытым исходным кодом, любой конкурент сможет быстро скопировать его.

Этот аналитик ожидает, что другие крупные технологические компании могут вскоре создать большие модели, сопоставимые по производительности с GPT-4.

Оборонительный ров на стекле

В настоящее время "битва ста моделей" больше не является метафорой, а является объективной реальностью.

Согласно отчетам, по состоянию на июль текущего года количество крупных моделей в стране достигло 130, что больше, чем в США, где их 114, успешно осуществив опережение на повороте, различные мифы и легенды уже почти не хватает для названий китайских технологических компаний.

Помимо Китая и США, некоторые более богатые страны также начали реализовывать концепцию "одна страна - одна модель": кроме Японии и Объединенных Арабских Эмиратов, есть также Bhashini, инициированная правительством Индии, и HyperClova X, разработанная южнокорейской интернет-компанией.

Перед нами такая обстановка, словно мы вернулись в те времена, когда интернет был полон пузырей, а капитал безраздельно властвовал.

Как упоминалось ранее, Transformer превратил большие модели в чисто инженерную задачу: стоит только кому-то иметь деньги и видеокарту, остальное зависит от параметров. Однако низкий порог входа не означает, что у всех есть возможность стать гигантом эпохи ИИ.

Упомянутая в начале «битва зверей» — типичный случай: хотя Falcon ранжируется лучше, чем Llama, сложно сказать, какое влияние она оказала на Meta.

Как всем известно, компании открывают свои научные достижения, чтобы поделиться технологическими дивидендами с обществом и привлечь коллективный разум. С ростом использования и улучшения Llama профессорами университетов, исследовательскими институтами и малыми и средними предприятиями, Meta может применить эти достижения в своих продуктах.

Для открытых моделей основным конкурентным преимуществом является активное сообщество разработчиков.

А еще в 2015 году, создавая лабораторию ИИ, Meta установила тон открытого исходного кода; Закерберг начал с социальных медиа и лучше понимает важность "хороших отношений с общественностью".

Например, в октябре Meta провела мероприятие "Мотивация для создателей ИИ": разработчики, использующие Llama 2 для решения социальных проблем, таких как образование и экология, имеют возможность получить финансирование в размере 500 000 долларов.

Теперь серия Llama от Meta стала ориентиром для открытых LLM.

На начало октября в топ-10 рейтинга открытых LLM, восемь из них были созданы на основе Llama 2 и используют его открытый протокол. Только на этой платформе LLM, использующих открытый протокол Llama 2, уже более 1500.

Конечно, улучшение производительности, как у Falcon, тоже не помешает, но на данный момент большинство LLM на рынке все еще значительно уступают GPT-4.

Например, недавно GPT-4 занял первое место в тестировании AgentBench с оценкой 4,41. AgentBench был совместно разработан Университетом Цинхуа, Университетом штата Огайо и Калифорнийским университетом в Беркли для оценки способности LLM к рассуждениям и принятию решений в многомерной открытой генеративной среде. Тестовое содержание охватывает задачи в 8 различных средах, включая операционные системы, базы данных, графы знаний и карточные игры.

Результаты тестирования показывают, что второй номер Claude получил всего 2,77 балла, разница все еще значительная. Что касается тех громких открытых LLM, то их результаты тестирования часто находятся около 1 балла, что составляет менее 1/4 от GPT-4.

Стоит отметить, что GPT-4 был выпущен в марте этого года, и это результат, достигнутый спустя более полугода после того, как его мировые конкуренты начали догонять. Причиной этой разницы является высокоразвинутая команда ученых OpenAI с "высокой плотностью интеллекта" и накопленный за долгие годы опыт в исследованиях LLM, что позволяет им постоянно оставаться на шаг впереди.

То есть, основной способностью больших моделей являются не параметры, а экосистемное строительство ( открытый ) или чисто выводная способность ( закрытый ).

С ростом активности открытого сообщества производительность различных LLM может стать схожей, так как все используют похожие архитектуры моделей и наборы данных.

Еще одной более наглядной проблемой является то, что, помимо Midjourney, похоже, ни одна крупная модель не может быть прибыльной.

Якорь ценности

В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла внимание. Основная идея статьи может быть изложена в одном предложении: OpenAI слишком быстро тратит деньги.

В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро возросли, только в 2022 году убытки составили около 540 миллионов долларов, и компании остается лишь ждать, когда инвесторы покроют эти расходы.

Хотя заголовок статьи и звучит громко, он отражает текущее состояние многих поставщиков больших моделей: серьезный дисбаланс между затратами и доходами.

Слишком высокие затраты привели к тому, что в настоящее время только Nvidia зарабатывает большие деньги на искусственном интеллекте, в лучшем случае к ней можно добавить Broadcom.

Согласно оценкам консалтинговой компании, Nvidia в этом году во втором квартале продала более 300000 чипов H100. Это чип AI, который имеет высокую эффективность в обучении ИИ, и его активно покупают технологические компании и научные учреждения по всему миру. Эти 300000 чипов H100 в сложенном виде весят столько же, сколько 4,5 самолета Boeing 747.

Выручка NVIDIA резко возросла, увеличившись на 854% по сравнению с прошлым годом, что в одно время шокировало Уолл-стрит. Стоит отметить, что в настоящее время цена H100 на вторичном рынке достигла 40-50 тысяч долларов, хотя его материальные затраты составляют всего около 3000 долларов.

Высокие затраты на вычислительную мощность стали препятствием для развития отрасли в определенной степени. Одна из компаний оценивала, что мировые технологические компании будут тратить 200 миллиардов долларов в год на строительство инфраструктуры для крупных моделей; по сравнению с этим, крупные модели могут приносить максимум 75 миллиардов долларов дохода в год, что создает разрыв как минимум в 125 миллиардов долларов.

Кроме того, за исключением некоторых случаев, таких как Midjourney, большинство программных компаний, потратив огромные средства, еще не нашли прибыльную модель. Особенно результаты двух ведущих компаний отрасли — Microsoft и Adobe — оставляют желать лучшего.

Инструмент генерации кода AI GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, хотя и взимает 10 долларов в месяц, на самом деле приносит убыток Microsoft в 20 долларов в месяц из-за затрат на инфраструктуру, а у пользователей с высокой нагрузкой убыток может достигать 80 долларов в месяц. Исходя из этого, можно предположить, что Microsoft 365 Copilot, цена которого составляет 30 долларов, может приносить еще большие убытки.

Точно так же, только что выпустивший инструмент Firefly AI Adobe быстро запустил сопутствующую систему баллов, чтобы предотвратить чрезмерное использование, которое может привести к убыткам компании. Если пользователь превысит свои ежемесячные распределенные баллы, Adobe снизит скорость обслуживания.

Следует помнить, что Microsoft и Adobe уже являются программными гигантами с четко определенными бизнес-сценариями и большим количеством платных пользователей. В то время как для большинства моделей с огромным количеством параметров, основным сценарием применения по-прежнему остается общение.

Нельзя отрицать, что если бы не появление OpenAI и ChatGPT, эта революция в области ИИ, вероятно, вообще бы не произошла; но в настоящее время ценность, приносимая обучением больших моделей, вероятно, вызывает вопросы.

Кроме того, с усилением конкуренции и увеличением количества открытых моделей выживаемость чисто крупных поставщиков моделей может еще больше сократиться.

Взрывная популярность iPhone 4 была не из-за 45-нм процессора A4, а потому что он мог играть в Plants vs. Zombies и Angry Birds.

GPT6.7%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Поделиться
комментарий
0/400
StableGeniusDegenvip
· 07-26 11:35
Цзэ, несколько больших моделей довольно активно соревнуются.
Посмотреть ОригиналОтветить0
consensus_whisperervip
· 07-26 01:46
Соревнуйтесь за место в списке, как будто играете.
Посмотреть ОригиналОтветить0
FallingLeafvip
· 07-25 11:47
Кто победит, еще не определено.
Посмотреть ОригиналОтветить0
OnChain_Detectivevip
· 07-23 15:02
анализ шаблонов показывает конкуренцию лама и сокола, к которой присоединяются классические риски безопасности... оставайтесь бдительными семья
Посмотреть ОригиналОтветить0
SnapshotStrikervip
· 07-23 14:59
Давай поиграем вместе на линии.
Посмотреть ОригиналОтветить0
PrivateKeyParanoiavip
· 07-23 14:57
Кто же настоящий босс в зоопарке?
Посмотреть ОригиналОтветить0
LightningPacketLossvip
· 07-23 14:43
Ты играй со своей большой моделью, а я с моим пакетом.
Посмотреть ОригиналОтветить0
  • Закрепить