Битва ста моделей на тлі гарячої теми великих моделей ШІ: інженерна проблема чи науковий виклик

2025-07-23 14:34:19

"Битва ста моделей" в сфері ШІ: інженерна проблема чи науковий виклик?

Минулого місяця в індустрії ШІ відбулася "битва тварин".

Одна сторона – це модель Llama, яку випустила компанія Meta, що завдяки своїй відкритій природі отримала широку популярність серед розробників. Після вивчення статті та вихідного коду Llama, японська компанія швидко розробила японську версію ChatGPT, що вирішило проблему AI в Японії.

Інша сторона — це велика модель під назвою Falcon. У травні цього року з'явилася Falcon-40B, яка обійшла Llama та зайняла перше місце в рейтингу відкритих LLM. Цей рейтинг був створений спільнотою відкритих моделей і надає стандарти для оцінки можливостей LLM. Рейтинг в основному складається з чергування Llama і Falcon.

Після випуску Llama 2, серія Llama тимчасово стала лідером; але на початку вересня Falcon випустив версію 180B, знову зайнявши вищу позицію.

Цікаво, що розробником Falcon є Інститут технологічних інновацій в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Уряд ОАЕ заявив: "Ми беремо участь в цій галузі, щоб зруйнувати основних гравців".

На наступний день після випуску Falcon 180B міністр штучного інтелекту ОАЕ увійшов до списку "100 найвпливовіших людей у сфері ШІ" за версією журналу Time; разом з ним до списку потрапили також "батько штучного інтелекту" Джеффрі Хінтон, Альтман з OpenAI та інші.

Сьогодні область штучного інтелекту вступила в етап активної конкуренції: будь-яка країна та компанія з певними фінансовими можливостями намагається створити свою власну велику мовну модель. Лише в колі країн Перської затоки є не один учасник — в серпні Саудівська Аравія щойно придбала більше 3000 чіпів H100 для навчання LLM для своїх університетів.

Інвестор колись поскаржився: "Коли я не поважав інновації бізнес-моделей Інтернету, вважав, що немає бар'єрів: битва ста компаній, битва ста автомобілів, битва ста трансляцій; не сподівався, що стартапи в сфері жорстких технологій і великих моделей залишаються битвою ста моделей..."

Як же з високотехнологічної науки, що мала бути важкою, все перетворилося на ситуацію, коли в кожній країні однакові моделі та врожайність по тисячі кілограмів з гектару?

Transformer поглинає світ

Американські стартапи, китайські технологічні гіганти та середньосхідні нафтові магнати, які можуть переслідувати великі моделі, повинні дякувати за це відомій статті: «Увага — це все, що вам потрібно».

У 2017 році 8 комп'ютерних вчених з Google опублікували в цій статті алгоритм Transformer, що був відкритий для всього світу. Це третя найцитованіша стаття в історії штучного інтелекту, поява Transformer спровокувала нову хвилю буму в AI.

Наразі всі великі моделі, включаючи сенсаційні серії GPT, побудовані на основі Transformer.

Раніше "навчити машини читати" вважалося визнаною академічною проблемою. На відміну від розпізнавання зображень, людина під час читання не лише звертає увагу на поточні слова та речення, але й поєднує їх з контекстом для розуміння.

На ранніх етапах нейронні мережі обробляли незалежні входи, не здатні зрозуміти довгі тексти або цілі статті, що призводило до проблем, таких як переклад "开水间" як "open water room".

У 2014 році, після роботи в Google, комп'ютерний вчений Ілля, який перейшов в OpenAI, вперше досяг прориву. Він використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що дозволило Google Translate швидко випередити конкурентів.

RNN запропонувала "циклічний дизайн", який дозволяє кожному нейрону одночасно отримувати поточний вхід та вхід з попереднього моменту, надаючи нейронній мережі можливість "поєднувати контекст".

Поява RNN викликала дослідницький ентузіазм в науковій спільноті, і пізніше автор статті про Transformer Шазель також провів глибоке дослідження. Однак розробники швидко виявили, що RNN має серйозні недоліки:

Алгоритм використовує послідовні обчислення, хоча і вирішує проблему контексту, але його ефективність виконання не висока, що ускладнює обробку великої кількості параметрів.

Складний дизайн RNN швидко набрид Шазелю. Тому з 2015 року Шазель і 7 однодумців почали розробляти альтернативу RNN, якою в кінцевому підсумку став Transformer.

На відміну від RNN, у Transformer є дві великі революції:

По-перше, використання позиційного кодування замість циклічного дизайну RNN дозволяє реалізувати паралельні обчислення — це значно підвищує ефективність навчання Transformer, дозволяючи обробляти величезні обсяги даних і виводячи ШІ на етап великих моделей; по-друге, подальше зміцнення контекстних можливостей.

Після того, як Transformer вирішив багато недоліків, він поступово став домінуючим рішенням у NLP( обробці природної мови ), створюючи відчуття, що "якщо б не було Transformer, NLP залишався б у темряві вічно". Навіть Ілля відмовився від власноруч створеного RNN, перейшовши до Transformer.

Іншими словами, Transformer є прародичем усіх великих моделей сьогодні, він перетворив великі моделі з теоретичних досліджень на чисто інженерну задачу.

У 2019 році OpenAI на базі Transformer розробила GPT-2, яка вразила академічний світ. У відповідь Google швидко представила більш потужну AI-модель Meena.

У порівнянні з GPT-2, Meena не має нововведень у базовому алгоритмі, лише кількість параметрів зросла в 8,5 разів, а обчислювальна потужність – в 14 разів. Автори статті про Transformer Шазел були вражені цим "грубий підхід" і відразу ж написали меморандум під назвою "Meena поглинає світ".

Після появи трансформера швидкість інновацій основних алгоритмів в академічному середовищі значно сповільнилася. Інженерія даних, масштаб обчислювальної потужності, архітектура моделі та інші інженерні елементи все більше стають ключовими у змаганнях з ШІ, і будь-яка технологічна компанія з певними технічними можливостями може самостійно розробляти великі моделі.

Отже, комп'ютерний вчений Ендрю Нг під час виступу в Стенфордському університеті заявив: "ШІ - це набір інструментів, який включає в себе навчання з наглядом, навчання без нагляду, навчання з підкріпленням, а також сучасний генеративний штучний інтелект. Усі ці технології є універсальними, подібно до електрики та Інтернету."

OpenAI безумовно залишається орієнтиром для LLM, але аналітичні агентства в галузі напівпровідників вважають, що конкурентоспроможність GPT-4 походить з інженерних рішень — якщо він буде з відкритим вихідним кодом, будь-який конкурент зможе швидко його скопіювати.

Цей аналітик очікує, що інші великі технологічні компанії можуть незабаром створити великі моделі, що порівнянні за продуктивністю з GPT-4.

Крайня стіна на склі

На сьогодні "Битва ста моделей" вже не є метафорою, а є об'єктивною реальністю.

Відповідні звіти показують, що станом на липень цього року в країні вже налічується 130 великих моделей, що перевищує 114 в США, успішно здійснивши обгін на повороті; різних міфів та легенд вже недостатньо для назв китайських технологічних компаній.

Окрім США та Китаю, деякі більш заможні країни також почали реалізовувати "одна країна - одна модель": окрім Японії та ОАЕ, це також Bhashini, що розробляється урядом Індії, та HyperClova X, розроблений корейською інтернет-компанією.

На даний момент це все виглядає так, ніби ми повернулися в епоху, коли інтернет був на стадії бурхливого розвитку, а капітал панував повсюдно.

Як вже згадувалося раніше, Transformer перетворює великі моделі на чисто інженерну задачу: якщо у когось є гроші та відеокарта, решту можна довірити параметрам. Але хоча бар'єри для входу не є високими, це не означає, що кожен має можливість стати гігантом епохи ШІ.

Згадане на початку "Битва тварин" є типовим прикладом: хоча Falcon займає вищу позицію, ніж Llama, важко сказати, наскільки сильно він вплинув на Meta.

Як відомо, підприємства відкривають свої наукові результати, щоб поділитися технологічними дивідендами з суспільством та залучити розум громадськості. З розвитком використання та вдосконалення Llama з боку професорів університетів, дослідницьких установ та малих і середніх підприємств, Meta може застосовувати ці досягнення у своїх продуктах.

Для відкритих великих моделей активне співтовариство розробників є основною конкурентною перевагою.

А ще в 2015 році, коли була створена лабораторія штучного інтелекту, Meta встановила відкриту політику; Цукерберг, починаючи з соціальних медіа, краще розуміє важливість "налагодження відносин з громадськістю".

Наприклад, у жовтні Meta спеціально провела захід "Інcentivizing AI Creators": розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта та навколишнє середовище, мають можливість отримати фінансування у розмірі 500 000 доларів.

Сьогодні серія Llama від Meta стала орієнтиром для відкритих LLM.

Станом на початок жовтня, у топ-10 рейтингу відкритих LLM, 8 з них побудовані на основі Llama 2 та використовують його відкриту ліцензію. Лише на цій платформі кількість LLM, що використовують відкриту ліцензію Llama 2, перевищує 1500.

Звичайно, покращення продуктивності, як у Falcon, також є можливим, але наразі більшість LLM на ринку все ще має помітну різницю з GPT-4.

Наприклад, нещодавно GPT-4 зайняв перше місце в тестуванні AgentBench з результатом 4,41 бали. AgentBench був спільно розроблений університетом Цінхуа, державним університетом Огайо та університетом Каліфорнії в Берклі для оцінки здатності LLM до міркування та прийняття рішень у багатовимірному відкритому середовищі генерації, тестування охоплює завдання в 8 різних середовищах, таких як операційні системи, бази даних, знання графіків, карткові битви тощо.

Результати тестування показали, що друге місце зайняв Claude, набравши лише 2.77 балів, різниця все ще значна. Щодо тих гучних відкритих LLM, результати тестів зазвичай коливаються близько 1 бала, що навіть не становить 1/4 від GPT-4.

Слід зазначити, що GPT-4 був випущений у березні цього року, і це результат, який з'явився лише через півроку після того, як його конкуренти почали активно наздоганяти. Причиною цієї різниці є команда вчених OpenAI з надзвичайно високою "інтелектуальною щільністю" та накопичений досвід тривалих досліджень LLM, тому вони завжди залишаються попереду.

Тобто, основна здатність великої моделі не є параметрами, а екосистемною побудовою ( відкритим кодом ) або чисто виведенням ( закритим кодом ).

З огляду на те, що відкриті спільноти стають дедалі активнішими, продуктивність різних LLM може стати схожою, оскільки всі використовують подібні архітектури моделей і набори даних.

Інша більш наочна проблема: крім Midjourney, здається, жодна велика модель не може бути прибутковою.

Якір вартості

У серпні цього року стаття під заголовком "OpenAI може збанкрутувати до кінця 2024 року" привернула увагу. Основна ідея статті майже може бути зведена до одного речення: OpenAI витрачає гроші занадто швидко.

У тексті згадується, що з моменту розробки ChatGPT компанія OpenAI швидко нарощує збитки, лише у 2022 році збитки склали близько 540 мільйонів доларів, і компанії залишається лише чекати, поки інвестори покриють витрати.

Хоча заголовок статті звучить гучно, він відображає реальність численних постачальників великих моделей: витрати та доходи серйозно дисбалансовані.

Занадто висока вартість призвела до того, що в даний час тільки NVIDIA заробляє великі гроші на штучному інтелекті, максимум ще Broadcom.

Згідно з оцінками консультаційних компаній, NVIDIA у другому кварталі цього року продала понад 300 тисяч H100. Це чіп AI, який дуже ефективний для навчання AI, і світові технологічні компанії та наукові установи активно його купують. Ці 300 тисяч H100, складені разом, важать стільки ж, скільки 4,5 літака Boeing 747.

Виконання NVIDIA стрімко зросло, річний дохід зріс на 854%, що шокувало Уолл-стріт. Варто зазначити, що наразі H100 на вторинному ринку продається за ціною від 40 до 50 тисяч доларів, тоді як його матеріальні витрати складають лише близько 3000 доларів.

Високі витрати на обчислювальну потужність в певній мірі стали стримуючим фактором розвитку галузі. Один з капіталів оцінював: світові технологічні компанії щорічно витрачатимуть 200 мільярдів доларів на будівництво інфраструктури для великих моделей; в той же час, великі моделі можуть приносити не більше ніж 75 мільярдів доларів доходу на рік, між ними існує принаймні 125 мільярдів доларів дефіциту.

Крім того, з невеликою кількістю випадків, таких як Midjourney, більшість програмних компаній, витративши величезні кошти, ще не знайшли прибуткову модель. Особливо результати двох провідних гравців у галузі — Microsoft і Adobe — залишають бажати кращого.

Інструмент генерації коду на основі штучного інтелекту GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, хоч і стягує 10 доларів на місяць, але через витрати на інфраструктуру Microsoft щомісяця втрачає 20 доларів. Інтенсивні користувачі навіть можуть призвести до втрати Microsoft у 80 доларів на місяць. Судячи з цього, Microsoft 365 Copilot з ціною 30 доларів може бути ще більш збитковим.

Те ж саме, нещодавно випущений інструмент Firefly AI від Adobe також швидко запустив супутню систему балів, щоб запобігти надмірному використанню користувачами, що призводить до збитків компанії. Як тільки користувач перевищує щомісячну виділену кількість балів, Adobe зменшує швидкість обслуговування.

Слід зазначити, що Microsoft та Adobe вже є програмними гігантами з чітко визначеними бізнес-сценаріями і великою кількістю платних користувачів. А більшість моделей з величезною кількістю параметрів все ще найчастіше застосовуються для чатів.

Безсумнівно, якби не OpenAI та ChatGPT, ця революція в AI, можливо, взагалі б не відбулася; але наразі цінність, яку приносить навчання великих моделей, напевно, викликає питання.

І, з посиленням конкуренції за однаковістю та збільшенням кількості відкритих моделей, простір для виживання постачальників великих моделей може ще більше звузитися.

Популярність iPhone 4 не пов'язана з 45-нм процесором A4, а з тим, що він може запускати Plants vs. Zombies та Angry Birds.

GPT-1.34%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків

Нагородити
10
7
Поділіться

Прокоментувати

0/400

StableGeniusDegen

· 07-26 11:35

Ех, кілька великих моделей активно змагаються