Генерація відео за допомогою штучного інтелекту входить в еру мультимодальності, Web3 може стати найбільшим вигодополучателем.

robot
Генерація анотацій у процесі

Технологія генерації відео на основі ШІ досягла значного прориву, мультимодальна інтеграція стала новим трендом

Нещодавніми найзначнішими досягненнями в галузі ШІ стали прориви в технології генерації мультимедійних відео. Ця технологія еволюціонувала від генерації відео з одного тексту до інтегрованого рішення для повного циклу, що об'єднує текст, зображення та аудіо.

Кілька проривних випадків заслуговують на увагу:

  1. Відкритий фреймворк EX-4D, розроблений технологічною компанією, може перетворювати звичайні відео в контент 4D з вільним кутом огляду, рівень визнання користувачів складає 70,7%. Ця технологія дозволяє переглядати відео з будь-якого кута, що раніше вимагало професійної команди 3D-моделювання.

  2. Один з AI-платформ стверджує, що його функція "Малюючи ідеї" може перетворити одне зображення на 10-секундине відео "кіноякісного" рівня. Однак достовірність цієї заяви ще потребує перевірки.

  3. Відома дослідницька організація в галузі штучного інтелекту представила технологію Veo, яка може синхронно генерувати 4K відео та звукове середовище. Ця технологія подолала виклики синхронізації звуку і зображення в складних сценах, такі як точне співвідношення між рухом у кадрі та звуком кроків.

  4. Технологія ContentV на одній з платформ коротких відео має 80 мільярдів параметрів і може генерувати 1080p відео за 2,3 секунди, вартість складає 3,67 юанів/5 секунд. Хоча контроль витрат є непоганим, проте в якості генерації у складних сценах все ще є простір для покращення.

Ці технологічні прориви мають велике значення у таких аспектах, як якість відео, витрати на генерацію та сценарії застосування:

По-перше, складність технології генерації мультимодальних відео зростає експоненційно. Вона не лише повинна обробляти пікселі однієї кадру (приблизно 10^6), але й забезпечувати часову послідовність відео (принаймні 100 кадрів), а також враховувати синхронізацію аудіо (10^4 зразків на секунду) та просторову консистентність 3D. Тепер це складне завдання можна реалізувати через модульне розподіл і співпрацю великих моделей, що значно підвищує ефективність.

По-друге, значне зниження витрат стало можливим завдяки оптимізації архітектури висновків, включаючи технології ієрархічної генерації, механізми повторного використання кешу та динамічного розподілу ресурсів. Ці оптимізації дозволили деяким платформам контролювати витрати на генерацію відео на низькому рівні.

Врешті-решт, ці технологічні прориви завдали величезного удару традиційній індустрії відеовиробництва. Технології штучного інтелекту спростили процес, який раніше вимагав великої кількості обладнання, приміщень, акторів і постпродакшну, до операції, яка полягає у введенні підказок і очікуванні кількох хвилин. Це не лише знизило технічні та фінансові бар'єри для виробництва відео, але й дозволило досягти кутів зору та ефектів, які важко реалізувати традиційною зйомкою, що може спричинити новий етап перетворення в економіці творців.

Ці зміни також мали глибокий вплив на сферу Web3 AI:

  1. Змінилася структура попиту на обчислювальні потужності. Генерація мультимодальних відео потребує різноманітних комбінацій обчислювальних потужностей, що створює новий попит на розподілені бездіяльні обчислювальні потужності, а також на різноманітні моделі, алгоритми та платформи для розподіленого доопрацювання та інференції.

  2. Посилення вимог до аннотації даних. Для створення професійного відео потрібні точні описи сцен, референтні зображення, аудіостилі, траєкторії камери та умови освітлення та інші професійні дані. Механізм стимулювання Web3 може заохочувати фотографів, звукових дизайнерів та 3D-художників надавати високоякісні матеріали, що підвищує можливості генерації відео на базі штучного інтелекту.

  3. Зростає попит на децентралізовані платформи. Технологія ШІ поступово переходить від централізованого масштабного розподілу ресурсів до модульної співпраці, що само по собі є новим попитом на децентралізовані платформи. У майбутньому обчислювальні потужності, дані, моделі та механізми стимулювання можуть сформувати самоочищувальний позитивний цикл, що сприяє глибокій інтеграції Web3 AI та Web2 AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 2
  • Поділіться
Прокоментувати
0/400
GateUser-4745f9cevip
· 07-27 22:09
Темп, як у битві богів!
Переглянути оригіналвідповісти на0
WagmiWarriorvip
· 07-25 04:31
Революція в відновленні продуктивності
Переглянути оригіналвідповісти на0
  • Закріпити