Прориви технологій генерації відео на основі ШІ та їхнє майбутнє
Нещодавно одним із найзначніших досягнень у сфері ШІ стало суттєве прорив у технології мультимодального генерування відео. Ця технологія еволюціонувала від простого генерування відео за текстом до інтеграції тексту, зображень та аудіо в комплексну технологію генерації.
Ось кілька випадків технічних досягнень, на які варто звернути увагу:
Відкритий фреймворк EX-4D, розроблений певною технологічною компанією, може перетворити звичайне відео на контент у вільному ракурсі 4D, і рівень схвалення користувачів становить 70,7%. Ця технологія робить можливим створення багатокутового перегляду з відео з одного ракурсу, що в минулому вимагало професійної команди 3D-моделювання.
Деяка AI платформа запустила функцію "Малюємо думки", яка може створювати 10-секундне відео з одного зображення, стверджуючи, що це може досягти "кіноякісного" рівня. Проте точність цього твердження ще потребує подальшої перевірки.
Технологія Veo, розроблена міжнародним AI-дослідницьким інститутом, здатна синхронно генерувати 4K відео та навколишній звук. Ключовий прорив цієї технології полягає в досягненні справжнього семантичного відповідності між відео та аудіо, наприклад, у складних сценах досягається точне відповідність між дією ходьби на екрані та звуком кроків.
Технологія ContentV певної платформи коротких відео має 8 мільярдів параметрів і може за 2,3 секунди згенерувати відео в якості 1080p, вартість становить 3,67 юаня за 5 секунд. Хоча контроль витрат є непоганим, все ж є можливості для покращення якості генерації в складних сценах.
Ці технологічні прориви мають велике значення в таких аспектах, як якість відео, витрати на генерацію та сценарії застосування:
Технічна вартість прориву: складність генерації мультимодальних відео зазвичай зростає експоненційно. Це не лише потребує обробки пікселів одного кадру (приблизно 10^6), але й забезпечення принаймні 100 кадрів часової послідовності, одночасно враховуючи синхронізацію аудіо (приблизно 10^4 зразків на секунду) та просторову узгодженість 3D. Наразі це складне завдання реалізується через модульне розділення та співпрацю великих моделей, що значно підвищує ефективність.
Зниження витрат: за цим стоїть оптимізація архітектури висновків, включаючи покрокову стратегію генерації, механізм повторного використання кешу та динамічний розподіл ресурсів тощо. Ці оптимізації значно знизили витрати на генерацію відео.
Вплив застосування: Технології ШІ змінюють традиційний процес виробництва відео. Раніше виробництво 30-секундної реклами могло коштувати десятки тисяч, тепер потрібно лише одне ключове слово та кілька хвилин очікування. Це не тільки знижує технічні та фінансові бар'єри для виробництва відео, але й надає творцям більше можливостей, що може призвести до переосмислення всієї економіки творців.
Ці зміни мали глибокий вплив на розвиток технологій штучного інтелекту:
Структура попиту на обчислювальні потужності зазнала змін. Генерація мультимодальних відео потребує різноманітних комбінацій обчислювальних потужностей, що створює новий попит на розподілені незайняті обчислювальні потужності, а також на різні моделі, алгоритми та платформи для розподіленого тонкого налаштування і висновку.
Потреба в маркуванні даних зросла. Для створення професійного відео потрібні точні описи сцен, референтні зображення, аудіо стилі, траєкторії руху камери та умови освітлення тощо. Це відкриває нові можливості для професіоналів, таких як фотографи, звукорежисери та 3D-художники.
Зростання попиту на децентралізовані платформи. Технології штучного інтелекту поступово переходять від централізованого великомасштабного розподілу ресурсів до модульної співпраці, що само по собі є новим попитом на децентралізовані платформи. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть сформувати позитивний цикл самопідсилення, що сприятиме інтеграції та розвитку технологій штучного інтелекту в різних сферах.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
10
Поділіться
Прокоментувати
0/400
RektButSmiling
· 07-23 19:25
Корова! Скоро я зможу обдурити свою дівчину, зробивши її маленькою сестрою
Переглянути оригіналвідповісти на0
DYORMaster
· 07-23 17:57
Це всього лише хайп, а не жорсткий прорив.
Переглянути оригіналвідповісти на0
TokenGuru
· 07-23 11:47
Ще одна хвиля обдурювачів невдах прийшла, братва, зверніть увагу на ризики!
Переглянути оригіналвідповісти на0
ProofOfNothing
· 07-21 23:00
Чи справді те, що зроблено штучним інтелектом, можна побачити?
Переглянути оригіналвідповісти на0
AlgoAlchemist
· 07-20 20:23
Чи є у когось, хто робив відео, тест на це?
Переглянути оригіналвідповісти на0
BrokenYield
· 07-20 20:17
хмм, ще одна технічна бульбашка завантажується... ринок вже бачив цей фільм раніше, і спойлер: він закінчується сльозами
Переглянути оригіналвідповісти на0
BlockchainFoodie
· 07-20 20:16
йо, це відео з штучним інтелектом вражає ... як спостерігати, як рідкісний вагю перетворюється з сирого на ідеально підсмажений, не можу не зізнатися
Прорив у технології генерації мультимедійних відео на основі ШІ: Падіння витрат, підвищення якості, розширення застосування
Прориви технологій генерації відео на основі ШІ та їхнє майбутнє
Нещодавно одним із найзначніших досягнень у сфері ШІ стало суттєве прорив у технології мультимодального генерування відео. Ця технологія еволюціонувала від простого генерування відео за текстом до інтеграції тексту, зображень та аудіо в комплексну технологію генерації.
Ось кілька випадків технічних досягнень, на які варто звернути увагу:
Відкритий фреймворк EX-4D, розроблений певною технологічною компанією, може перетворити звичайне відео на контент у вільному ракурсі 4D, і рівень схвалення користувачів становить 70,7%. Ця технологія робить можливим створення багатокутового перегляду з відео з одного ракурсу, що в минулому вимагало професійної команди 3D-моделювання.
Деяка AI платформа запустила функцію "Малюємо думки", яка може створювати 10-секундне відео з одного зображення, стверджуючи, що це може досягти "кіноякісного" рівня. Проте точність цього твердження ще потребує подальшої перевірки.
Технологія Veo, розроблена міжнародним AI-дослідницьким інститутом, здатна синхронно генерувати 4K відео та навколишній звук. Ключовий прорив цієї технології полягає в досягненні справжнього семантичного відповідності між відео та аудіо, наприклад, у складних сценах досягається точне відповідність між дією ходьби на екрані та звуком кроків.
Технологія ContentV певної платформи коротких відео має 8 мільярдів параметрів і може за 2,3 секунди згенерувати відео в якості 1080p, вартість становить 3,67 юаня за 5 секунд. Хоча контроль витрат є непоганим, все ж є можливості для покращення якості генерації в складних сценах.
Ці технологічні прориви мають велике значення в таких аспектах, як якість відео, витрати на генерацію та сценарії застосування:
Технічна вартість прориву: складність генерації мультимодальних відео зазвичай зростає експоненційно. Це не лише потребує обробки пікселів одного кадру (приблизно 10^6), але й забезпечення принаймні 100 кадрів часової послідовності, одночасно враховуючи синхронізацію аудіо (приблизно 10^4 зразків на секунду) та просторову узгодженість 3D. Наразі це складне завдання реалізується через модульне розділення та співпрацю великих моделей, що значно підвищує ефективність.
Зниження витрат: за цим стоїть оптимізація архітектури висновків, включаючи покрокову стратегію генерації, механізм повторного використання кешу та динамічний розподіл ресурсів тощо. Ці оптимізації значно знизили витрати на генерацію відео.
Вплив застосування: Технології ШІ змінюють традиційний процес виробництва відео. Раніше виробництво 30-секундної реклами могло коштувати десятки тисяч, тепер потрібно лише одне ключове слово та кілька хвилин очікування. Це не тільки знижує технічні та фінансові бар'єри для виробництва відео, але й надає творцям більше можливостей, що може призвести до переосмислення всієї економіки творців.
Ці зміни мали глибокий вплив на розвиток технологій штучного інтелекту:
Структура попиту на обчислювальні потужності зазнала змін. Генерація мультимодальних відео потребує різноманітних комбінацій обчислювальних потужностей, що створює новий попит на розподілені незайняті обчислювальні потужності, а також на різні моделі, алгоритми та платформи для розподіленого тонкого налаштування і висновку.
Потреба в маркуванні даних зросла. Для створення професійного відео потрібні точні описи сцен, референтні зображення, аудіо стилі, траєкторії руху камери та умови освітлення тощо. Це відкриває нові можливості для професіоналів, таких як фотографи, звукорежисери та 3D-художники.
Зростання попиту на децентралізовані платформи. Технології штучного інтелекту поступово переходять від централізованого великомасштабного розподілу ресурсів до модульної співпраці, що само по собі є новим попитом на децентралізовані платформи. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть сформувати позитивний цикл самопідсилення, що сприятиме інтеграції та розвитку технологій штучного інтелекту в різних сферах.