AI Битва моделей: від революції Transformer до екологічної конкуренції

2025-07-24 05:05:58

"Битва сотні моделей" на фоні буму великих моделей ШІ

Минулого місяця в світі ШІ розгорнулася "війна тварин". Одна зі сторін - Llama від Meta, що отримала велику популярність серед розробників завдяки своїм відкритим характеристикам. Японська електронна компанія NEC, пославшись на статтю та код Llama, швидко розробила японську версію ChatGPT, вирішивши проблеми розвитку ШІ в Японії.

Інша сторона — це великий модель під назвою Falcon. У травні цього року з'явився Falcon-40B, який перевершив Llama і зайняв перше місце в рейтингу відкритих LLM. Цей рейтинг був складений спільнотою відкритих моделей і надає стандарти оцінки можливостей LLM та ранжування. У рейтингу Llama та Falcon чергуються на перших позиціях.

Після виходу Llama 2 тимчасово повернувся на перше місце; але на початку вересня Falcon випустив версію 180B, знову зайнявши вищу позицію.

Цікаво, що розробником Falcon є Інститут наукових досліджень та інновацій в Абу-Дабі, столиці ОАЕ, а не технологічна компанія. Офіційні особи ОАЕ заявили, що участь у конкуренції в галузі ШІ покликана підривати традиційний порядок.

На наступний день після випуску Falcon 180B міністр штучного інтелекту ОАЕ потрапив до списку "100 найвпливовіших у сфері ШІ" журналу "Тайм" разом з "батьком штучного інтелекту" Джеффрі Хінтоном, Альтманом з OpenAI та іншими.

Сьогодні сфера ШІ увійшла в етап розквіту. Країни та компанії з певними фінансовими ресурсами намагаються створити місцеві версії ChatGPT. Лише в районі Перської затоки вже є кілька учасників. У серпні Саудівська Аравія придбала понад 3000 чіпів H100 для національних університетів, щоб навчати LLM.

Інвестор Чжу Сяоху зазначив, що колись стартапи в Інтернеті вважалися такими, що не мають бар'єрів, а нині стартапи в галузі жорстких технологій перетворилися на війну сотень моделей.

Чому раніше вважалися високими бар'єрами жорсткі технології стали проектами, за якими змагаються країни?

Transformer викликав революцію в ШІ

Незалежно від національності, сучасні великі моделі, включаючи серію GPT, базуються на алгоритмі Transformer. У 2017 році 8 вчених з Google опублікували алгоритм Transformer у статті «Attention Is All You Need», яка стала третьою за кількістю цитувань у історії ШІ та ключовою для цього етапу буму ШІ.

Раніше "навчити машину читати" було складною задачею для академічного світу. На відміну від розпізнавання зображень, люди при читанні враховують контекст. Ранні нейронні мережі мали труднощі з розумінням довгих текстів, що часто призводило до помилок у перекладі.

У 2014 році вчений Google Ілля запропонував обробку природної мови за допомогою рекурентних нейронних мереж (RNN), що суттєво покращило продуктивність Google Translate. RNN впроваджує "циклічний дизайн", що надає нейронній мережі можливість враховувати контекст.

RNN запалив ентузіазм у науці, але має проблеми з низькою ефективністю та труднощами в обробці великої кількості параметрів. З 2015 року Шазель та інші почали розробляти альтернативи RNN, в результаті чого з'явився Transformer.

Transformer має два основних покращення в порівнянні з RNN: по-перше, використання позиційного кодування замість циклічного дизайну, що реалізує паралельні обчислення та значно підвищує ефективність навчання; по-друге, ще більше посилює здатність розуміти контекст. Transformer вирішив багато проблем і поступово став основним рішенням у сфері NLP.

У 2019 році OpenAI на основі Transformer розробила GPT-2, що шокувало наукову спільноту. Google негайно представила більш потужний Meena, який лише за рахунок збільшення параметрів і обчислювальної потужності перевершив GPT-2. Поява Transformer сповільнила швидкість інновацій у алгоритмах, і інженерні елементи, такі як дані, обчислювальна потужність, архітектура моделі тощо, стали ключовими у змаганнях штучного інтелекту.

Комп'ютерний вчений Ву Ен Да вважає, що ШІ стає універсальною технологією, як електрика та Інтернет. Аналітична компанія Semi Analysis очікує, що інші великі технологічні компанії незабаром створять моделі, що зможуть конкурувати з продуктивністю GPT-4.

Виклики за битвою сто моделей

Станом на липень цього року, кількість великих моделей у Китаї досягла 130, перевищивши 114 у США. Окрім Китаю та США, інші заможні країни також почали створювати власні великі моделі, такі як Bhashini в Індії, HyperClova X від Naver у Південній Кореї тощо.

Ця ситуація нагадує епоху інтернет-бульбашки. Хоча Transformer знизив поріг для розробки великих моделей, це не означає, що кожен може стати AI-гігантом. Наприклад, у випадку "Битви тварин", хоча Falcon переміг за рейтингом, його вплив на Meta є обмеженим.

Для відкритих великих моделей активне співтовариство розробників є основною конкурентною перевагою. Meta ще в 2015 році затвердила стратегію відкритого коду. У жовтні Meta також запустила акцію "AI творець винагороди", яка фінансує розробників, що використовують Llama 2 для вирішення соціальних проблем.

Наразі серія Llama від Meta стала орієнтиром для відкритих LLM. Станом на початок жовтня, 8 з 10 найкращих у рейтингу Hugging Face базуються на Llama 2, а кількість LLM, що використовують її відкриту ліцензію, перевищує 1500.

Хоча підвищення продуктивності є можливим шляхом, більшість LLM все ще має очевидний розрив з GPT-4. У тестуванні AgentBench GPT-4 отримав 4,41 бали, друге місце зайняв Claude з 2,77 бали, а відкриті LLM здебільшого мають близько 1 бали. Ця різниця походить від сили команди OpenAI та їхнього тривалого накопичення досвіду.

Тому основна конкурентоспроможність великих моделей полягає в екологічному будівництві ( відкритий код ) або чисто інферентна здатність ( закритий код ). З розвитком відкритої спільноти, ймовірно, що продуктивність різних LLM може зрівнятися. Пряме питання в тому, що, окрім Midjourney, здається, жодна велика модель не досягла прибутку.

Дилема цінового закріплення

У серпні цього року стаття, яка прогнозує, що OpenAI може збанкрутіти до кінця 2024 року, привернула увагу. У статті зазначається, що з моменту розробки ChatGPT, збитки OpenAI швидко зросли, в 2022 році збиток склав близько 540 мільйонів доларів, і компанія залежала від інвестицій Microsoft. Це відображає загальну проблему дисбалансу між витратами та доходами, з якою стикаються постачальники великих моделей.

Високі витрати призводять до того, що наразі основними вигодонабувачами є такі виробники чіпів, як NVIDIA. За оцінками Omdia, у другому кварталі NVIDIA продала понад 300 тисяч чіпів H100, що важить, як 4,5 літака Boeing 747. Результати NVIDIA різко зросли, а ціна на вторинному ринку H100 зросла до 40-50 тисяч доларів, тоді як собівартість лише трохи більше 3000 доларів.

Витрати на обчислювальну потужність стали перешкодою для розвитку галузі. Sequoia Capital оцінює, що глобальні технологічні компанії щорічно витрачатимуть 200 мільярдів доларів на побудову інфраструктури великих моделей, тоді як річний дохід від великих моделей становить максимум 75 мільярдів доларів, що створює принаймні 125 мільярдів доларів дефіциту.

Більшість програмних компаній, навіть витративши великі кошти, все ще не знайшли прибуткову модель. Навіть такі гіганти, як Microsoft та Adobe, стикаються з викликами. GitHub Copilot, розроблений у співпраці Microsoft з OpenAI, втрачає від 20 до 80 доларів на користувача щомісяця. Adobe впровадила систему балів для інструменту Firefly AI, щоб обмежити надмірне використання користувачами.

Основні застосування більшості великих моделей все ще обмежені чатами. Хоча OpenAI та ChatGPT сприяли революції в ШІ, цінність простого навчання великих моделей викликає сумніви. З посиленням гомогенізації конкуренції та збільшенням кількості відкритих моделей, простір для постачальників чистих великих моделей може ще більше звузитися.

Як успіх iPhone 4 не полягав у процесорі A4, а в його екосистемі додатків, так і майбутнє великих моделей залежатиме від цінності, яку вони створюють у реальних застосуваннях.

GPT2.3%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
6
Поділіться

Прокоментувати

0/400

NoodlesOrTokens