Недавній розвиток індустрії штучного інтелекту деякі вважають четвертою промисловою революцією. Поява великих мовних моделей значно підвищила ефективність у різних галузях, за оцінками, підвищивши робочу ефективність в США приблизно на 20%. Водночас, здатність великих моделей до узагальнення вважається новою парадигмою проектування програмного забезпечення; на відміну від минулого, коли акцент робився на точному проєктуванні коду, тепер програмне забезпечення більше орієнтоване на вбудовування узагальнених моделей, що підтримують ширший діапазон модальностей введення та виведення. Технології глибокого навчання дійсно принесли новий етап процвітання в індустрію ШІ, і ця хвиля також вплинула на індустрію криптовалют.
У цьому звіті ми детально розглянемо розвиток індустрії штучного інтелекту, класифікацію технологій, а також вплив технології глибокого навчання на галузь. Потім глибоко проаналізуємо нинішній стан та тенденції розвитку ланцюга постачання, включаючи GPU, хмарні обчислення, джерела даних, пристрої на краю тощо. Нарешті, ми зосередимося на суті взаємозв'язку між Crypto та індустрією штучного інтелекту, розглянувши структуру ланцюга постачання AI, пов'язаного з Crypto.
Індустрія штучного інтелекту розпочалася в 50-х роках ХХ століття. Для досягнення бачення штучного інтелекту наукова та промислова спільноти в різні епохи та з різних дисциплін розвинули кілька шкіл для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам покладатися на дані для багаторазового ітераційного покращення продуктивності системи. Основні етапи включають введення даних в алгоритм, навчання моделі на цих даних, тестування та розгортання моделі, використання моделі для виконання автоматизованих прогнозних завдань.
Наразі в машинному навчанні існує три основні напрямки: коннекціонізм, символізм та біхевіоризм, які відповідно імітують нервову систему, мислення та поведінку людини.
Наразі нейронні мережі, які є представниками коннекціонізму, займають перевагу (, також відомі як глибоке навчання ). Основна причина полягає в тому, що ця архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів (, а також параметрів ) стає достатньо великою, це дає можливість адекватно підлаштовуватися під складні загальні завдання. Завдяки введенню даних можна постійно коригувати параметри нейронів, і після багатьох ітерацій з даними цей нейрон досягає оптимального стану ( параметрів ), що й пояснює появу слова "глибоке" — достатня кількість шарів і нейронів.
Наприклад, можна просто зрозуміти це як побудову функції, у яку ми вводимо X=2, тоді Y=3; X=3, тоді Y=5. Якщо ми хочемо, щоб ця функція підходила для всіх X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка відповідає цій умові, у вигляді Y = 2X -1, але якщо є дані X=2, Y=11, то потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляється, що Y = X2 -3X +5 підходить, але не потрібно повністю збігатися з даними, лише дотримуватися балансу і отримувати приблизно схожий вихід. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 – це їх параметри.
У цей момент, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів і ітерацій параметрів, щоб підлаштуватися під нові дані. Таким чином, ми зможемо підлаштуватися під всі дані.
А технології глибокого навчання на основі нейронних мереж також мають кілька технологічних ітерацій та еволюцій, зокрема, найраніші нейронні мережі, мережі з прямим проходженням, RNN, CNN, GAN, які зрештою еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer є лише одним з напрямків еволюції нейронних мереж, що додає перетворювач ( Transformer ), який використовується для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, таким чином нейронна мережа може підлаштуватися під будь-який тип даних, реалізуючи мульти-модальність.
Розвиток ШІ проходив через три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десятиліття після висунення ідеї ШІ; ця хвиля викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу людина-машина. В ту ж епоху з'явилися експертні системи, одна з яких — експертна система DENRAL, була завершена за підтримки однієї з американських університетів при національному управлінні аеронавтики і дослідження космічного простору США. Ця система має дуже глибокі знання в хімії і робить висновки через запитання, щоб генерувати відповіді, подібні до тих, що дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань та системи висновків.
Після експертних систем у 1990-х роках ізраїльський американець, учений і філософ Джудіа Перл запропонував байесівські мережі, які також відомі як мережі віри. У той же період Брукс запропонував робототехніку, засновану на поведінці, що ознаменувало народження біхевіоризму.
У 1997 році міжнародна шахова програма технологічної компанії перемогла чемпіона світу з шахів Гаррі Каспарова з рахунком 3.5:2.5. Ця перемога вважається віхою в розвитку штучного інтелекту, коли технології ШІ досягли другого піку розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три великі постаті глибокого навчання Яна Лекуна, Джеффрі Хінтона та Йошуа Бенгіо запропонували концепцію глибокого навчання, алгоритму, заснованого на штучних нейронних мережах, для навчання репрезентації даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer і Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технологій глибокого навчання, зокрема:
У 2011 році штучний інтелект переміг людину та здобув чемпіонство у телевізійному шоу «На межі небезпеки».
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу), яка навчається шляхом змагання двох нейронних мереж, здатну генерувати фотореалістичні зображення. Одночасно Goodfellow написав книгу "Глибоке навчання", яка стала однією з важливих вступних книг у галузі глибокого навчання.
У 2015 році Хінтон та інші запропонували алгоритми глибокого навчання, які одразу викликали великий резонанс у науковій спільноті та промисловості.
У 2015 році OpenAI було створено, і воно отримало інвестиції у 1 мільярд доларів від кількох відомих інвесторів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела битву людини з машиною в грі го проти чемпіона світу, професійного гравця дев'ятого дану Лі Сїшиця, вигравши з загальним рахунком 4:1.
У 2017 році, розроблений технологічною компанією гуманоїдний робот Софія отримав громадянство, володіючи багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році Google опублікував статтю "Увага – це все, що вам потрібно", в якій був представлений алгоритм Transformer, почали з'являтися великомасштабні мовні моделі.
У 2018 році OpenAI випустила GPT, побудований на алгоритмі Transformer, який на той час був однією з найбільших мовних моделей.
У 2018 році DeepMind випустила AlphaFold на основі глибокого навчання, який може прогнозувати структуру білків, що вважається великим досягненням у галузі штучного інтелекту.
У 2019 році OpenAI випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році OpenAI розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель використовувала 570 ГБ тексту для навчання та може досягати найсучасніших показників у кількох завданнях NLP.
У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйонів параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року було випущено застосунок ChatGPT на основі моделі GPT-4, у березні кількість користувачів досягла ста мільйонів, що зробило його найшвидшим застосунком в історії, який досягнув ста мільйонів користувачів.
У 2024 році OpenAI випустить GPT-4 omni.
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Великі моделі, очолювані GPT, спричинили хвилю інтересу до штучного інтелекту, в результаті чого на цей ринок прийшли численні гравці. Ми також виявили, що попит на дані та обчислювальні потужності різко зріс. Тому в цій частині звіту ми головним чином досліджуємо промисловий ланцюг алгоритмів глибокого навчання. У галузі штучного інтелекту, де домінують алгоритми глибокого навчання, ми розглянемо, як складаються його верхні та нижні ланки, а також як виглядає поточний стан та відносини попиту і пропозиції, а також майбутній розвиток.
По-перше, нам потрібно зрозуміти, що під час навчання великих моделей LLMs( на основі технології Transformer, очолюваних GPT), процес ділиться на три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач повинен перетворити текстовий ввід на числовий, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно з загальною практичною рекомендацією, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, подібно до прикладу, наведеного в першій частині звіту (X,Y), щоб знайти оптимальні параметри для кожного нейрона під цим моделлю, цього часу потрібно багато даних, а цей процес також є найвитратнішим за обчислювальними ресурсами, оскільки потрібно повторно ітеративно намагатися різні параметри нейронів. Після завершення навчання однієї партії пар даних зазвичай використовується та ж сама партія даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання полягає в наданні меншої, але дуже якісної партії даних для навчання, таке зміна покращить якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Етап доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, ми називаємо її "модель винагороди", мета цієї моделі дуже проста: провести сортування результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій досить вертикальний. Потім за допомогою цієї моделі ми будемо визначати, чи є вихідні дані нашої великої моделі високої якості, таким чином, можна використовувати модель винагороди для автоматичного ітеративного налаштування параметрів великої моделі. ( Але іноді також потрібно людське втручання для оцінки якості виходу моделі )
Коротко кажучи, під час тренування великих моделей попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших обчислювальних потужностей GPU. Налаштування моделі потребує даних вищої якості для покращення параметрів, а підкріплювальне навчання може повторно ітеративно коригувати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
У процесі тренування, чим більше параметрів, тим вища його здатність до генералізації, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому зміна параметрів обмежує дані, які можуть бути апроксимовані, оскільки по суті це все ще пряма лінія. Якщо нейронів більше, то можливо ітераційно налаштувати більше параметрів, а отже, апроксимувати більше даних, ось чому великі моделі творять дива, і це також причина, чому їх називають великими моделями, адже по суті це величезна кількість нейронів і параметрів, величезна кількість даних, а також необхідна величезна обчислювальна потужність.
Отже, на продуктивність великих моделей впливають три основні фактори: кількість параметрів, обсяг та якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до генералізації. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, розрахованому за кількістю токенів). Тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, таким чином ми зможемо приблизно оцінити, яку обчислювальну потужність нам потрібно придбати та час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє собою одну операцію з плаваючою комою. Операції з плаваючою комою є загальним терміном для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5+3.557. Плаваюча кома означає, що число може мати десяткову крапку, тоді як FP16 представляє точність, що підтримує десяткові дроби, FP32 є більш звичною точністю. Відповідно до практичних правил досвіду, попереднє навчання (Pre-traning) один раз ( зазвичай тренується кілька разів ) великі моделі, для чого потрібно приблизно 6np Flops, 6 називається галузевою константою. А інференс (Inference, це процес, коли ми вводимо дані і чекаємо виходу великої моделі ), розділений на дві частини: вводимо n токенів, виходимо n токенів, отже, загалом потрібно близько 2np Flops.
На початку використовувалися процесори CPU для тренування та надання обчислювальної потужності, але згодом почали поступово використовувати GPU, такі як чіпи Nvidia A100, H100 тощо. Тому що CPU існує як універсальне обчислення, але GPU може використовуватися як спеціалізоване.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
4
Репост
Поділіться
Прокоментувати
0/400
TokenDustCollector
· 08-13 22:14
Знову хвиля обдурювання людей, як лохів прийшла?
Переглянути оригіналвідповісти на0
ThesisInvestor
· 08-13 22:09
Не варто займатися пустими розмовами про ШІ, падіння покаже все.
ШІ та криптоактиви: нова структура промислового ланцюга під час технологічних інновацій
AI x Crypto: від нуля до вершини
Вступ
Недавній розвиток індустрії штучного інтелекту деякі вважають четвертою промисловою революцією. Поява великих мовних моделей значно підвищила ефективність у різних галузях, за оцінками, підвищивши робочу ефективність в США приблизно на 20%. Водночас, здатність великих моделей до узагальнення вважається новою парадигмою проектування програмного забезпечення; на відміну від минулого, коли акцент робився на точному проєктуванні коду, тепер програмне забезпечення більше орієнтоване на вбудовування узагальнених моделей, що підтримують ширший діапазон модальностей введення та виведення. Технології глибокого навчання дійсно принесли новий етап процвітання в індустрію ШІ, і ця хвиля також вплинула на індустрію криптовалют.
У цьому звіті ми детально розглянемо розвиток індустрії штучного інтелекту, класифікацію технологій, а також вплив технології глибокого навчання на галузь. Потім глибоко проаналізуємо нинішній стан та тенденції розвитку ланцюга постачання, включаючи GPU, хмарні обчислення, джерела даних, пристрої на краю тощо. Нарешті, ми зосередимося на суті взаємозв'язку між Crypto та індустрією штучного інтелекту, розглянувши структуру ланцюга постачання AI, пов'язаного з Crypto.
! Newcomer Science丨AI x Crypto: від нуля до піку
Історія розвитку AI-індустрії
Індустрія штучного інтелекту розпочалася в 50-х роках ХХ століття. Для досягнення бачення штучного інтелекту наукова та промислова спільноти в різні епохи та з різних дисциплін розвинули кілька шкіл для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам покладатися на дані для багаторазового ітераційного покращення продуктивності системи. Основні етапи включають введення даних в алгоритм, навчання моделі на цих даних, тестування та розгортання моделі, використання моделі для виконання автоматизованих прогнозних завдань.
Наразі в машинному навчанні існує три основні напрямки: коннекціонізм, символізм та біхевіоризм, які відповідно імітують нервову систему, мислення та поведінку людини.
Наразі нейронні мережі, які є представниками коннекціонізму, займають перевагу (, також відомі як глибоке навчання ). Основна причина полягає в тому, що ця архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів (, а також параметрів ) стає достатньо великою, це дає можливість адекватно підлаштовуватися під складні загальні завдання. Завдяки введенню даних можна постійно коригувати параметри нейронів, і після багатьох ітерацій з даними цей нейрон досягає оптимального стану ( параметрів ), що й пояснює появу слова "глибоке" — достатня кількість шарів і нейронів.
Наприклад, можна просто зрозуміти це як побудову функції, у яку ми вводимо X=2, тоді Y=3; X=3, тоді Y=5. Якщо ми хочемо, щоб ця функція підходила для всіх X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка відповідає цій умові, у вигляді Y = 2X -1, але якщо є дані X=2, Y=11, то потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляється, що Y = X2 -3X +5 підходить, але не потрібно повністю збігатися з даними, лише дотримуватися балансу і отримувати приблизно схожий вихід. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 – це їх параметри.
У цей момент, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів і ітерацій параметрів, щоб підлаштуватися під нові дані. Таким чином, ми зможемо підлаштуватися під всі дані.
А технології глибокого навчання на основі нейронних мереж також мають кілька технологічних ітерацій та еволюцій, зокрема, найраніші нейронні мережі, мережі з прямим проходженням, RNN, CNN, GAN, які зрештою еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer є лише одним з напрямків еволюції нейронних мереж, що додає перетворювач ( Transformer ), який використовується для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, таким чином нейронна мережа може підлаштуватися під будь-який тип даних, реалізуючи мульти-модальність.
Розвиток ШІ проходив через три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десятиліття після висунення ідеї ШІ; ця хвиля викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу людина-машина. В ту ж епоху з'явилися експертні системи, одна з яких — експертна система DENRAL, була завершена за підтримки однієї з американських університетів при національному управлінні аеронавтики і дослідження космічного простору США. Ця система має дуже глибокі знання в хімії і робить висновки через запитання, щоб генерувати відповіді, подібні до тих, що дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань та системи висновків.
Після експертних систем у 1990-х роках ізраїльський американець, учений і філософ Джудіа Перл запропонував байесівські мережі, які також відомі як мережі віри. У той же період Брукс запропонував робототехніку, засновану на поведінці, що ознаменувало народження біхевіоризму.
У 1997 році міжнародна шахова програма технологічної компанії перемогла чемпіона світу з шахів Гаррі Каспарова з рахунком 3.5:2.5. Ця перемога вважається віхою в розвитку штучного інтелекту, коли технології ШІ досягли другого піку розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три великі постаті глибокого навчання Яна Лекуна, Джеффрі Хінтона та Йошуа Бенгіо запропонували концепцію глибокого навчання, алгоритму, заснованого на штучних нейронних мережах, для навчання репрезентації даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer і Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технологій глибокого навчання, зокрема:
У 2011 році штучний інтелект переміг людину та здобув чемпіонство у телевізійному шоу «На межі небезпеки».
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу), яка навчається шляхом змагання двох нейронних мереж, здатну генерувати фотореалістичні зображення. Одночасно Goodfellow написав книгу "Глибоке навчання", яка стала однією з важливих вступних книг у галузі глибокого навчання.
У 2015 році Хінтон та інші запропонували алгоритми глибокого навчання, які одразу викликали великий резонанс у науковій спільноті та промисловості.
У 2015 році OpenAI було створено, і воно отримало інвестиції у 1 мільярд доларів від кількох відомих інвесторів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела битву людини з машиною в грі го проти чемпіона світу, професійного гравця дев'ятого дану Лі Сїшиця, вигравши з загальним рахунком 4:1.
У 2017 році, розроблений технологічною компанією гуманоїдний робот Софія отримав громадянство, володіючи багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році Google опублікував статтю "Увага – це все, що вам потрібно", в якій був представлений алгоритм Transformer, почали з'являтися великомасштабні мовні моделі.
У 2018 році OpenAI випустила GPT, побудований на алгоритмі Transformer, який на той час був однією з найбільших мовних моделей.
У 2018 році DeepMind випустила AlphaFold на основі глибокого навчання, який може прогнозувати структуру білків, що вважається великим досягненням у галузі штучного інтелекту.
У 2019 році OpenAI випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році OpenAI розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель використовувала 570 ГБ тексту для навчання та може досягати найсучасніших показників у кількох завданнях NLP.
У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйонів параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року було випущено застосунок ChatGPT на основі моделі GPT-4, у березні кількість користувачів досягла ста мільйонів, що зробило його найшвидшим застосунком в історії, який досягнув ста мільйонів користувачів.
У 2024 році OpenAI випустить GPT-4 omni.
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Великі моделі, очолювані GPT, спричинили хвилю інтересу до штучного інтелекту, в результаті чого на цей ринок прийшли численні гравці. Ми також виявили, що попит на дані та обчислювальні потужності різко зріс. Тому в цій частині звіту ми головним чином досліджуємо промисловий ланцюг алгоритмів глибокого навчання. У галузі штучного інтелекту, де домінують алгоритми глибокого навчання, ми розглянемо, як складаються його верхні та нижні ланки, а також як виглядає поточний стан та відносини попиту і пропозиції, а також майбутній розвиток.
По-перше, нам потрібно зрозуміти, що під час навчання великих моделей LLMs( на основі технології Transformer, очолюваних GPT), процес ділиться на три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач повинен перетворити текстовий ввід на числовий, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно з загальною практичною рекомендацією, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, подібно до прикладу, наведеного в першій частині звіту (X,Y), щоб знайти оптимальні параметри для кожного нейрона під цим моделлю, цього часу потрібно багато даних, а цей процес також є найвитратнішим за обчислювальними ресурсами, оскільки потрібно повторно ітеративно намагатися різні параметри нейронів. Після завершення навчання однієї партії пар даних зазвичай використовується та ж сама партія даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання полягає в наданні меншої, але дуже якісної партії даних для навчання, таке зміна покращить якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Етап доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, ми називаємо її "модель винагороди", мета цієї моделі дуже проста: провести сортування результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій досить вертикальний. Потім за допомогою цієї моделі ми будемо визначати, чи є вихідні дані нашої великої моделі високої якості, таким чином, можна використовувати модель винагороди для автоматичного ітеративного налаштування параметрів великої моделі. ( Але іноді також потрібно людське втручання для оцінки якості виходу моделі )
Коротко кажучи, під час тренування великих моделей попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших обчислювальних потужностей GPU. Налаштування моделі потребує даних вищої якості для покращення параметрів, а підкріплювальне навчання може повторно ітеративно коригувати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
У процесі тренування, чим більше параметрів, тим вища його здатність до генералізації, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому зміна параметрів обмежує дані, які можуть бути апроксимовані, оскільки по суті це все ще пряма лінія. Якщо нейронів більше, то можливо ітераційно налаштувати більше параметрів, а отже, апроксимувати більше даних, ось чому великі моделі творять дива, і це також причина, чому їх називають великими моделями, адже по суті це величезна кількість нейронів і параметрів, величезна кількість даних, а також необхідна величезна обчислювальна потужність.
Отже, на продуктивність великих моделей впливають три основні фактори: кількість параметрів, обсяг та якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до генералізації. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, розрахованому за кількістю токенів). Тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, таким чином ми зможемо приблизно оцінити, яку обчислювальну потужність нам потрібно придбати та час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє собою одну операцію з плаваючою комою. Операції з плаваючою комою є загальним терміном для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5+3.557. Плаваюча кома означає, що число може мати десяткову крапку, тоді як FP16 представляє точність, що підтримує десяткові дроби, FP32 є більш звичною точністю. Відповідно до практичних правил досвіду, попереднє навчання (Pre-traning) один раз ( зазвичай тренується кілька разів ) великі моделі, для чого потрібно приблизно 6np Flops, 6 називається галузевою константою. А інференс (Inference, це процес, коли ми вводимо дані і чекаємо виходу великої моделі ), розділений на дві частини: вводимо n токенів, виходимо n токенів, отже, загалом потрібно близько 2np Flops.
На початку використовувалися процесори CPU для тренування та надання обчислювальної потужності, але згодом почали поступово використовувати GPU, такі як чіпи Nvidia A100, H100 тощо. Тому що CPU існує як універсальне обчислення, але GPU може використовуватися як спеціалізоване.