Искусственный интеллект в видео генерации вступает в эпоху мультимодальности, Web3 может стать крупнейшим бенефициаром.

robot
Генерация тезисов в процессе

Технология генерации видео с помощью ИИ достигла значительного прорыва, многомодальная интеграция становится новой тенденцией

Недавние достижения в области ИИ в основном связаны с прорывом в технологии многомодальной генерации видео. Эта технология эволюционировала от генерации видео на основе единственного текста к интегрированному решению, которое объединяет текст, изображения и аудио.

Несколько прорывных случаев, на которые стоит обратить внимание:

  1. Открытая структура EX-4D от технологической компании может преобразовывать обычные видео в контент 4D с свободным углом обзора, и уровень одобрения пользователей достигает 70,7%. Эта технология позволяет просматривать видео с любого ракурса, что ранее требовало профессиональной команды 3D-моделирования.

  2. Одна AI платформа утверждает, что ее функция "Хуэйсян" может преобразовать одно изображение в 10-секундное видео "кинематографического" качества. Однако достоверность этого утверждения еще предстоит проверить.

  3. Известная исследовательская организация в области ИИ представила технологию Veo, которая может синхронно генерировать 4K-видео и окружающий звук. Эта технология преодолевает проблемы синхронизации звука и изображения в сложных сценах, такие как точное соответствие между движением ходьбы на экране и звуком шагов.

  4. Технология ContentV на одной из платформ коротких видео имеет 80 миллиардов параметров и может генерировать 1080p видео за 2,3 секунды при стоимости 3,67 юаня за 5 секунд. Хотя контроль затрат неплохой, качество генерации в сложных сценах все еще имеет пространство для улучшения.

Эти технологические прорывы имеют большое значение в таких аспектах, как качество видео, затраты на создание и сферы применения:

Во-первых, сложность технологий генерации многомодальных видео растет экспоненциально. Она должна обрабатывать пиксели одиночного кадра (около 10^6), а также обеспечивать временную согласованность видео (не менее 100 кадров), одновременно учитывая синхронизацию аудио (10^4 выборки в секунду) и согласованность в 3D-пространстве. Теперь эту сложную задачу можно решить с помощью модульной декомпозиции и сотрудничества больших моделей, что значительно повышает эффективность.

Во-вторых, значительное снижение затрат стало возможным благодаря оптимизации архитектуры вывода, включая технологии иерархической генерации, механизмы повторного использования кеша и динамическое распределение ресурсов. Эти оптимизации позволяют некоторым платформам контролировать затраты на генерацию видео на низком уровне.

В конечном итоге эти технологические прорывы оказали огромное влияние на традиционную индустрию видеопроизводства. Технология ИИ упрощает процесс, который ранее требовал большого количества оборудования, площадей, актеров и постпродакшна, до ввода ключевых слов и ожидания нескольких минут. Это не только снижает технический и финансовый порог для видеопроизводства, но также позволяет достигать перспектив и эффектов, которые трудно реализовать при традиционной съемке, что может вызвать новый виток перетасовки в экономике создателей.

Эти изменения также оказали глубокое влияние на область Web3 AI:

  1. Изменение структуры спроса на вычислительную мощность. Генерация мультимодальных видео требует разнообразных комбинаций вычислительной мощности, что создает новый спрос на распределенную неиспользуемую вычислительную мощность, а также на различные распределенные модели дообучения, алгоритмы и платформы для вывода.

  2. Увеличение требований к аннотации данных. Для создания профессионального видео необходимы точные описания сцен, эталонные изображения, аудиостили, траектории движения камеры и условия освещения и другие профессиональные данные. Механизмы вознаграждения Web3 могут стимулировать фотографов, звуковых дизайнеров и 3D-художников предоставлять высококачественные материалы, что повысит возможности генерации видео с помощью ИИ.

  3. Увеличение спроса на децентрализованные платформы. Технология ИИ постепенно переходит от централизованного большого распределения ресурсов к модульному сотрудничеству, что само по себе является новым спросом на децентрализованные платформы. В будущем вычислительная мощность, данные, модели и механизмы стимулирования могут образовать самоподдерживающийся позитивный цикл, способствуя глубокой интеграции сцен Web3 AI и Web2 AI.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 2
  • Поделиться
комментарий
0/400
GateUser-4745f9cevip
· 07-27 22:09
Ритм, как если бы боги сражались!
Посмотреть ОригиналОтветить0
WagmiWarriorvip
· 07-25 04:31
Произошла революция производительных сил.
Посмотреть ОригиналОтветить0
  • Закрепить