AI битва ста моделей: от революции Transformer до экологической конкуренции

2025-07-24 05:05:58

Война моделей в эпоху бума больших AI-моделей

В прошлом месяце в мире ИИ разразилась "война животных". С одной стороны, Llama от Meta, который благодаря своей открытой природе стал популярен среди разработчиков. Японская компания NEC, сославшись на статьи и код Llama, быстро разработала японскую версию ChatGPT, что помогло преодолеть瓶颈 в развитии ИИ в Японии.

Другой стороной является большая модель под названием Falcon. В мае этого года появилась Falcon-40B, которая превзошла Llama и заняла первое место в рейтинге открытых LLM. Этот рейтинг составлен сообществом открытых моделей и предоставляет стандарты оценки LLM возможностей и ранжирует их. В рейтинге Llama и Falcon чередуются на первых позициях.

После выпуска Llama 2 он временно вернулся на первое место; но в начале сентября Falcon выпустил версию 180B, снова заняв более высокое место.

Интересно, что разработчиком Falcon является Институт научных инноваций в Абу-Даби, столице Объединенных Арабских Эмиратов, а не технологическая компания. Официальные лица ОАЭ заявили, что участие в конкуренции в области ИИ направлено на разрушение традиционных моделей.

На следующий день после выпуска Falcon 180B министр искусственного интеллекта ОАЭ попал в список "100 самых влиятельных людей в области ИИ" журнала "Time", вместе с такими личностями, как "отец ИИ" Джеффри Хинтон и Альтман из OpenAI.

Сегодня область ИИ вступила в стадию цветения. Государства и компании с определенными финансовыми возможностями пытаются создать местные версии ChatGPT. Только в регионе Персидского залива уже несколько участников. В августе Саудовская Аравия приобрела более 3000 чипов H100 для своих университетов, чтобы обучать LLM.

Инвестор Чжу Сяоху ранее прокомментировал, что в свое время стартапы в интернете считались лишенными барьеров, а сегодня стартапы в области жестких технологий и больших моделей также превратились в битву ста моделей.

Почему высокие технологии, изначально считавшиеся высокими барьерами, стали проектами, которые развиваются в разных странах?

Трансформер вызывает революцию в ИИ

Независимо от национальности, современные большие модели, включая серию GPT, основаны на алгоритме Transformer. В 2017 году восемь ученых из Google опубликовали алгоритм Transformer в статье «Attention Is All You Need», которая стала третьей по количеству цитирований в истории ИИ и ключевой для текущего бума ИИ.

Ранее "обучение машины чтению" было сложной задачей в академической среде. В отличие от распознавания изображений, люди при чтении сочетают контекст для понимания. Ранние нейронные сети с трудом понимали длинные тексты, что часто приводило к ошибкам перевода.

В 2014 году ученый из Google Илья предложил использовать рекуррентные нейронные сети (RNN) для обработки естественного языка, что значительно повысило производительность Google Translate. RNN вводит "рекурсивный дизайн", что позволяет нейронной сети учитывать контекст.

RNN разожгла интерес в научном сообществе, но существует проблема низкой эффективности и трудностей с обработкой большого количества параметров. С 2015 года Шазел и другие начали разрабатывать замену RNN, в результате чего появился Transformer.

У Transformer есть два основных улучшения по сравнению с RNN: первое - это использование позиционного кодирования вместо циклической конструкции, что позволяет выполнять параллельные вычисления и значительно повышает эффективность обучения; второе - это дальнейшее усиление способности понимания контекста. Transformer решает множество сложных задач и постепенно становится основным решением в области NLP.

В 2019 году OpenAI разработала GPT-2 на основе Transformer, что произвело фурор в академических кругах. Google немедленно представила более мощный Meena, который превзошел GPT-2 только за счет увеличения количества параметров и вычислительной мощности. Появление Transformer замедлило темпы инноваций в алгоритмах, и такие инженерные факторы, как данные, вычислительная мощность, архитектура моделей и т.д., стали ключевыми в соревновании по ИИ.

Компьютерный ученый Эндрю Нг считает, что ИИ становится универсальной технологией, такой как электричество и интернет. Аналитическая компания Semi Analysis ожидает, что другие крупные технологические компании вскоре создадут большие модели, сопоставимые по производительности с GPT-4.

Проблемы за битвой ста моделей

По состоянию на июль этого года, число крупных моделей в Китае достигло 130, что превышает 114 в США. Кроме Китая и США, другие богатые страны также начали разрабатывать местные крупные модели, такие как Bhashini в Индии и HyperClova X от Naver в Корее.

Эта ситуация напоминает эпоху интернет-пузыря. Хотя Transformer снизил порог разработки крупных моделей, это не означает, что каждый может стать гигантом ИИ. Например, в случае "Битвы животных", Falcon хотя и занимает более высокое место в рейтинге, но его влияние на Meta ограничено.

Для открытых крупных моделей активное сообщество разработчиков является основным конкурентным преимуществом. Meta установила стратегию открытия еще в 2015 году. В октябре Meta также запустила инициативу "Поощрение AI-креаторов", финансируя разработчиков, использующих Llama 2 для решения социальных проблем.

На данный момент серия Llama от Meta стала ориентиром для открытых LLM. На начало октября в первой десятке рейтинга Hugging Face 8 основаны на Llama 2, более 1500 LLM используют их лицензионное соглашение.

Хотя повышение производительности является возможным путем, многие LLM все еще имеют значительное отставание от GPT-4. В тесте AgentBench GPT-4 занял первое место с 4,41 балла, в то время как Claude на втором месте получил лишь 2,77 балла, а большинство открытых LLM находятся около 1 балла. Это отставание объясняется силой команды OpenAI и накопленным опытом.

Таким образом,核心竞争力大模型 заключается в экосистеме ( открытого кода ) или чисто аналитических способностях ( закрытого кода ). С развитием открытого сообщества производительность различных LLM может стать схожей. Более актуальный вопрос в том, что, помимо Midjourney, похоже, ни одна большая модель не достигла прибыльности.

Дилемма ценового якоря

В августе этого года статья, предсказывающая возможное банкротство OpenAI к концу 2024 года, привлекла внимание. В статье отмечается, что с момента разработки ChatGPT убытки OpenAI быстро увеличиваются, в 2022 году убытки составили около 540 миллионов долларов, и компания зависит от инвестиций Microsoft. Это отражает общую проблему дисбаланса затрат и доходов, с которой сталкиваются поставщики больших моделей.

Высокие затраты делают основными выгодополучателями компании-производители чипов, такие как NVIDIA. По оценкам Omdia, NVIDIA продала более 300 тысяч чипов H100 во втором квартале, что соответствует весу 4,5 самолета Boeing 747. Выручка NVIDIA значительно возросла, цена на вторичном рынке H100 взлетела до 40-50 тысяч долларов, в то время как стоимость составляет всего чуть более 3000 долларов.

Стоимость вычислительной мощности стала препятствием для развития отрасли. Sequoia Capital оценивает, что мировые технологические компании ежегодно потратят 200 миллиардов долларов на строительство инфраструктуры для больших моделей, в то время как годовой доход от больших моделей составит максимум 75 миллиардов долларов, что создает разрыв как минимум в 125 миллиардов долларов.

Большинство программных компаний, вложив огромные средства, все еще не нашли прибыльную модель. Даже такие гиганты, как Microsoft и Adobe, сталкиваются с трудностями. GitHub Copilot, разработанный в сотрудничестве Microsoft с OpenAI, теряет от 20 до 80 долларов на каждого пользователя в месяц. Adobe ввела систему баллов для инструмента Firefly AI, ограничивая чрезмерное использование пользователями.

Основные применения большинства крупных моделей все еще ограничены чатами. Хотя OpenAI и ChatGPT стали движущей силой революции в искусственном интеллекте, ценность простого обучения крупных моделей вызывает сомнения. С углублением конкуренции и увеличением числа открытых моделей пространство для чистых поставщиков крупных моделей может еще больше сократиться.

Как успех iPhone 4 не зависит от процессора A4, а от его экосистемы приложений, так и будущее больших моделей будет зависеть от той ценности, которую они создадут в реальных приложениях.

GPT-1.36%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
6
Поделиться

комментарий

0/400

NoodlesOrTokens

· 07-25 10:23

Я действительно не ожидал, что Объединенные Арабские Эмираты окажутся вовлеченными в битву AI за сто моделей.

Посмотреть ОригиналОтветить0

PumpBeforeRug

· 07-24 05:35

Кто станет последним победителем, еще неизвестно. Трудно сказать～

Посмотреть ОригиналОтветить0

SlowLearnerWang

· 07-24 05:33

Что за ерунда, никто не выиграл в драке животных.

Посмотреть ОригиналОтветить0

BankruptcyArtist

· 07-24 05:26

Эти взаимные параметры лучше бы заменить на большую модель, подключив большую модель.

Посмотреть ОригиналОтветить0

SocialAnxietyStaker

· 07-24 05:21

Какой смысл в том, чтобы повышать рейтинг, если это не квалификационный турнир?

Посмотреть ОригиналОтветить0

ChainDetective

· 07-24 05:13

Словно рейтинг в видеоиграх

Посмотреть ОригиналОтветить0

Тема
1/3
1Simple Earn Annual Rate 24.4%
26010 Популярность
2Gate Launchpad List IKA
31532 Популярность
3ETH Trading Volume Surges
28067 Популярность
4Gate ETH 10th Anniversary Celebration
20554 Популярность
5Trump’s AI Strategy
17339 Популярность

Закрепить

Карта сайта