Штучний інтелект та шифрування: від історії розвитку до повного аналізу виробничого ланцюга

AI x Crypto: від нуля до вершин

Вступ

Нещодавній розвиток галузі ШІ деякі люди розглядають як четверту промислову революцію. Поява великих моделей значно підвищила ефективність у різних сферах, згідно з оцінками, GPT підвищив ефективність роботи в США приблизно на 20%. Генералізаційні можливості, які приносять великі моделі, вважаються новою парадигмою проектування програмного забезпечення, де традиційне точне проектування коду перетворюється на більш узагальнені великі моделі, вбудовані в програмне забезпечення, що забезпечує кращу продуктивність і підтримку більш широких модальностей вводу та виводу. Технології глибокого навчання дійсно принесли четверте процвітання в галузі ШІ, і цей тренд також вплинув на галузь криптовалют.

Цей звіт детально розгляне історію розвитку галузі ШІ, класифікацію технологій, а також вплив винаходу технології глибокого навчання на галузь. Потім буде проведено детальний аналіз ланцюга постачання, що включає GPU, хмарні обчислення, джерела даних, пристрої на краю мережі та їх нинішній стан і тенденції. Після цього буде проведено есеїстичне дослідження сутності зв'язку між Crypto та галуззю ШІ, а також структуровано ланцюг постачання, пов'язаний із AI у Crypto.

! Newcomer Science丨AI x Crypto: від нуля до піку

Історія розвитку галузі штучного інтелекту

Індустрія штучного інтелекту почала свій розвиток з 50-х років XX століття. Для досягнення бачення штучного інтелекту наукові кола та промисловість у різні епохи та з різних дисциплін розвинули безліч напрямків реалізації штучного інтелекту.

Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", концепція якого полягає в тому, щоб машини покладалися на дані для багаторазової ітерації в завданні з метою поліпшення продуктивності системи. Основні етапи включають передачу даних до алгоритму, навчання моделі на цих даних, тестування та впровадження моделі, а також використання моделі для виконання автоматизованих прогнозних завдань.

Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм і біхевіоризм, які імітують людську нервову систему, мислення та поведінку.

На сьогоднішній день зв'язковий підхід, представлений нейронними мережами, домінує (, також відомий як глибоке навчання ). Основна причина полягає в тому, що архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів (, а також параметрів ) стають достатньо великими, з'являється достатня можливість для підгонки складних універсальних завдань. Завдяки введенню даних, можна постійно коригувати параметри нейронів, і врешті-решт, пройшовши через багато даних, цей нейрон досягне оптимального стану ( параметрів ), що також є походженням слова "глибина" - достатня кількість шарів і нейронів.

! Newcomer Science Popular丨AI x Crypto: від нуля до піку

Просте розуміння полягає в тому, що ми побудували функцію, в яку ми вводимо X=2, коли Y=3; X=3, коли Y=5. Якщо ми хочемо, щоб ця функція відповідала всім значенням X, нам потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, що задовольняє цій умові, як Y = 2X - 1, але якщо є дані X=2, Y=11, нам потрібно перебудувати функцію, що підходить для цих трьох точок. Використовуючи GPU для брутфорсу, виявляємо, що Y = X2 - 3X + 5 є більш підходящим, але немає необхідності, щоб дані повністю збігалися, потрібно лише дотримуватись балансу, щоб вихідні дані були приблизно схожими. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 є їхніми параметрами.

У цей момент, якщо ми введемо в нейронну мережу велику кількість даних, ми можемо збільшити кількість нейронів та ітерувати параметри, щоб підлаштуватися під нові дані. Таким чином, ми зможемо підлаштувати всі дані.

А технології глибокого навчання на основі нейронних мереж також мають багато технічних ітерацій та еволюцій, починаючи з найраніших нейронних мереж, мереж з прямою подачею, RNN, CNN, GAN і нарешті еволюціонуючи до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer є лише одним з напрямків еволюції нейронних мереж, до неї було додано перетворювач ( Transformer ), який використовується для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) в відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, що дозволяє нейронній мережі адаптуватися до будь-якого типу даних, досягаючи мульти-модальності.

Розвиток штучного інтелекту пройшов три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десять років після висунення технології ШІ. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та взаємодії людини з комп'ютером. У той же період з'явилися експертні системи, зокрема система DENRAL, завершена під наглядом Стенфордського університету в NASA. Ця система має дуже глибокі знання з хімії і робить висновки на основі питань, щоб генерувати відповіді, схожі на ті, що дав би хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань та системи висновків.

Після експертних систем, в 1990-х роках ізраїльський американець, учений і філософ Джудія Перл ( Judea Pearl ) запропонував байесівські мережі, які також відомі як мережі переконань. В той же час, Брукс запропонував поведінкову робототехніку, що стало знаковою подією для народження поведінкової науки.

У 1997 році суперкомп'ютер IBM Deep Blue з рахунком 3.5:2.5 переміг чемпіона світу з шахів Гарі Каспарова(Kasparov), ця перемога була визнана віхою в історії штучного інтелекту, а технології ШІ пережили другий етап розвитку.

Третя хвиля технологій ШІ відбулася в 2006 році. Три велетні глибокого навчання Ян ЛеКун, Джеффрі Хінтон та Йошуа Бенгіо запропонували концепцію глибокого навчання, алгоритму, що базується на архітектурі штучних нейронних мереж для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми разом сформували цю третю технологічну хвилю, що також є розквітом коннекціонізму.

Багато знакових подій також супроводжувалися дослідженнями та еволюцією технології глибокого навчання, включаючи:

  • У 2011 році IBM Watson( переміг людину та здобув титул чемпіона у вікторині «Небезпечна межа») Jeopardy(.

  • У 2014 році Goodfellow запропонував GAN) генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом змагання між двома нейронними мережами, здатна генерувати фотореалістичні зображення. Одночасно Goodfellow написав книгу "Deep Learning", відому як "квіткова книга", яка є однією з важливих вступних книг у галузі глибокого навчання.

  • У 2015 році Хінтон та ін. у журналі «Природа» представили алгоритм глибокого навчання, що викликало величезний резонанс у академічному світі та промисловості.

  • У 2015 році OpenAI було створено, Муск, президент YC Альтман, ангельський інвестор Пітер Тіль)Peter Thiel( та інші оголосили про спільне інвестування 1 мільярда доларів.

  • У 2016 році на основі технології глибокого навчання AlphaGo провела бій людина-машина в го з чемпіоном світу, професійним дев'ятим даном Лі Сьцзюнем, здобувши перемогу з рахунком 4:1.

  • У 2017 році компанія Hanson Robotics ), що базується в Гонконзі, розробила гуманоїдного робота на ім'я Софія, якого називають першим у світі роботом, що отримав статус повноправного громадянина. Вона має багатий спектр виразів обличчя та здатність розуміти людську мову.

  • У 2017 році компанія Google, яка має багатий кадровий потенціал та технічні резерви в галузі штучного інтелекту, опублікувала статтю «Увага — це все, що вам потрібно», в якій був представлений алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.

  • У 2018 році OpenAI випустила GPT( Генеративний попередньо навченний трансформер), побудований на основі алгоритму Transformer, який на той час був одним з найбільших мовних моделей.

  • У 2018 році команда Google Deepmind випустила AlphaGo на основі глибокого навчання, здатну прогнозувати структуру білків, що вважається величезним прогресом у сфері штучного інтелекту.

  • У 2019 році OpenAI випустила GPT-2, ця модель має 1,5 мільярда параметрів.

  • У 2020 році OpenAI розробила GPT-3, яка має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Модель використовує 570 ГБ тексту для навчання і може досягати передових результатів у виконанні різних завдань обробки природної мови(, таких як відповіді на запитання, переклад, написання статей).

  • У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.

  • У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досяг одного мільйона користувачів, ставши найшвидшим додатком в історії, який досяг одного мільйона користувачів.

  • У 2024 році OpenAI випустить GPT-4 omni.

Новачок науково-популярно丨AI x Crypto: від нуля до вершин

Ланцюг промисловості глибокого навчання

Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT, великі моделі спричинили бум штучного інтелекту, велика кількість гравців увійшла в цю сферу, і ми також виявили, що ринок відчуває величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми переважно досліджуємо промисловий ланцюг алгоритмів глибокого навчання, як складаються його верхні та нижні ланки в галузі ШІ, якою є нинішня ситуація в цих ланках, їхні відносини попиту та пропозиції, а також як виглядає їхнє майбутнє.

По-перше, нам потрібно чітко усвідомити, що під час тренування великих моделей LLMs на базі технології Transformer, зокрема GPT(, це ділиться на три етапи.

Перед навчанням, оскільки він базується на Transformer, тому перетворювач має перетворити текстовий вхід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно з загальними правилами, одне англійське слово або символ можна грубо вважати одним Token, тоді як кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.

Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, подібно до прикладу, наведеного в першій частині звіту )X,Y(, для пошуку оптимальних параметрів для кожного нейрона в цій моделі, в цей момент потрібно багато даних, і цей процес також є найбільш витратним за обчислювальною потужністю, адже потрібно неодноразово ітерувати нейрони, пробуючи різні параметри. Після завершення навчання на одній партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.

Другий крок, доопрацювання. Доопрацювання – це надання меншої, але дуже якісної партії даних для навчання, такі зміни підвищують якість виходу моделі, оскільки попереднє навчання потребує великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок високоякісних даних.

Третій крок, зміцнення навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди", мета цієї моделі дуже проста - це ранжування виходу результатів, тому реалізація цієї моделі буде досить простою, оскільки бізнес-сцена досить вертикальна. Після цього ми використовуємо цю модель для оцінки якості виходу нашої великої моделі, так що ми можемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ) Але іноді також потрібна людська участь для оцінки якості виходу моделі (.

Коротко кажучи, під час навчання великих моделей, попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших обчислювальних потужностей GPU, тоді як доопрацювання потребує більш якісних даних для покращення параметрів; навчання з підкріпленням може повторно ітеративно налаштовувати параметри за допомогою моделі винагороди для досягнення більш якісних результатів.

У процесі навчання, чим більше параметрів, тим вищою буде межа його узагальнюючої здатності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрону X та X0, тому, як би не змінювалися параметри, дані, які можна апроксимувати, є вкрай обмеженими, адже по суті це все ще пряма лінія. Якщо нейронів стає більше, то можна ітеративно налаштувати більше параметрів, отже, можна апроксимувати більше даних. Ось чому великі моделі створюють дива, і це також причина, чому їх називають великими моделями: по суті, це величезна кількість нейронів і параметрів, величезна кількість даних, а також величезна обчислювальна потужність.

Отже, вплив на результати великих моделей визначається переважно трьома аспектами: кількістю параметрів, обсягом та якістю даних, а також обчислювальною потужністю. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n), що розраховується за кількістю токенів(, тоді ми можемо оцінити необхідну обчислювальну потужність виходячи з загального досвіду, таким чином, ми можемо попередньо оцінити, яку обчислювальну потужність нам потрібно приблизно придбати і скільки часу знадобиться для навчання.

Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою крапкою. Операції з плаваючою крапкою - це загальний термін для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча крапка означає можливість наявності десяткової точки, тоді як FP16 представляє точність, що підтримує десяткові числа, а FP32 - це більш звична точність. Згідно з практичними правилом, попереднє навчання

GPT-3.66%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Поділіться
Прокоментувати
0/400
BearMarketSunriservip
· 07-28 01:17
Кажучи простіше, ті, хто займається торгівлею криптовалютою, чекають, що ШІ їх піднесе.
Переглянути оригіналвідповісти на0
FloorSweepervip
· 07-25 20:05
пшш... типові паперові руки, які фомлять в ай хайп прямо зараз... бачив цей цикл раніше
Переглянути оригіналвідповісти на0
MindsetExpandervip
· 07-25 13:44
Ага, код вже змінив великий модель?
Переглянути оригіналвідповісти на0
CryptoNomicsvip
· 07-25 13:43
ваше твердження про 20% ефективності позбавлене статистичної строгості... спочатку проведіть належний регресійний аналіз, смх
Переглянути оригіналвідповісти на0
  • Закріпити