Прорыв в технологии генерации видео с использованием ИИ и будущее ее развития
В последнее время одним из самых заметных достижений в области ИИ стало значительное прорыв в технологии многомодальной генерации видео. Эта технология эволюционировала от простого текстового генератора видео к комплексной генерации, интегрирующей текст, изображения и аудио.
Вот несколько примеров технологий, на которые стоит обратить внимание:
Открытая платформа EX-4D, разработанная одной технологической компанией, позволяет преобразовывать обычные видео в 4D-контент с свободным углом обзора, при этом уровень одобрения пользователей достигает 70,7%. Эта технология делает возможным создание многогранного просмотра из видео с одним углом обзора, что ранее требовало профессиональной команды по 3D-моделированию.
На платформе ИИ была запущена функция "Хуэйсян", которая может генерировать 10-секундное видео из одного изображения, утверждая, что достигает "кинематографического" качества. Тем не менее, точность этого утверждения еще предстоит проверить.
Разработанная международным AI-исследовательским институтом технология Veo может синхронно генерировать 4K-видео и окружающий звук. Ключевое достижение этой технологии заключается в достижении истинного семантического соответствия между видео и аудио, например, в точном соответствии между действиями ходьбы на экране и звуком шагов в сложных сценах.
Технология ContentV на одной из платформ коротких видео обладает 8 миллиардами параметров и может генерировать 1080p видео за 2,3 секунды, стоимость составляет 3,67 юаня за 5 секунд. Хотя контроль затрат неплохой, качество генерации в сложных сценах все еще требует улучшения.
Эти технологические прорывы имеют важное значение для качества видео, затрат на его создание и областей применения:
Прорыв в технической ценности: Сложность генерации многомодальных видео обычно растет в геометрической прогрессии. Это не только требует обработки пикселей одиночного кадра (около 10^6), но также необходимо обеспечить хотя бы 100 кадров временной последовательности, при этом учитывать синхронизацию аудио (около 10^4 выборок в секунду) и согласованность в 3D-пространстве. В настоящее время эта сложная задача решается путем модульного разложения и сотрудничества больших моделей, что значительно повышает эффективность.
Снижение затрат: за этим стоят оптимизации архитектуры вывода, включая многоуровневую генерирующую стратегию, механизм повторного использования кэша и динамическое распределение ресурсов. Эти оптимизации значительно снижают затраты на генерацию видео.
Влияние применения: Технологии ИИ меняют традиционный процесс производства видео. Раньше создание 30-секундной рекламы могло стоить сотни тысяч, теперь достаточно одного подсказки и нескольких минут ожидания. Это не только снижает технический и финансовый порог для производства видео, но и предоставляет создателям больше возможностей, что может привести к пересмотру всей креативной экономики.
Эти изменения оказали глубокое влияние на развитие технологий ИИ:
Структура спроса на вычислительную мощность изменилась. Генерация мультимодальных видео требует разнообразных комбинаций вычислительной мощности, что создает новый спрос на распределенные неиспользуемые вычислительные мощности, а также различные распределенные модели дообучения, алгоритмы и платформы для вывода.
Усиление требований к аннотации данных. Для создания профессионального видео необходима точная аннотация таких профессиональных данных, как описание сцен, эталонные изображения, звуковые стили, траектории движения камеры и условия освещения. Это предоставляет новые возможности для профессионалов, таких как фотографы, звуковые дизайнеры и 3D-художники.
Увеличение спроса на децентрализованные платформы. Технология ИИ постепенно переходит от централизованного распределения крупных ресурсов к модульному сотрудничеству, что само по себе является новым требованием к децентрализованным платформам. В будущем вычислительная мощность, данные, модели и механизмы стимулов могут создать самоусиливающийся позитивный цикл, способствующий интеграции и развитию технологий ИИ в различных областях.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
10
Поделиться
комментарий
0/400
RektButSmiling
· 07-23 19:25
бык啊!很快就能把我френ骗成小姐姐了
Посмотреть ОригиналОтветить0
DYORMaster
· 07-23 17:57
Это всего лишь хайп, а не серьезный прорыв.
Посмотреть ОригиналОтветить0
TokenGuru
· 07-23 11:47
Еще одна волна разыгрывайте людей как лохов пришла, братья, будьте внимательны к рискам.
Посмотреть ОригиналОтветить0
ProofOfNothing
· 07-21 23:00
Аи действительно может видеть?
Посмотреть ОригиналОтветить0
AlgoAlchemist
· 07-20 20:23
Есть ли кто-то, кто делал видео и тестировал это?
Посмотреть ОригиналОтветить0
BrokenYield
· 07-20 20:17
хмм, ещё один технологический пузырь на подходе... рынок уже видел этот фильм, и спойлер: он заканчивается слезами
Посмотреть ОригиналОтветить0
BlockchainFoodie
· 07-20 20:16
йо, это видео с ИИ ощущается по-другому... как наблюдать, как редкое вагю превращается из сырого в идеально поджаренное, не буду лгать
Прорыв в технологии генерации видео с использованием многомодальных AI: Падение затрат, повышение качества, расширение применения
Прорыв в технологии генерации видео с использованием ИИ и будущее ее развития
В последнее время одним из самых заметных достижений в области ИИ стало значительное прорыв в технологии многомодальной генерации видео. Эта технология эволюционировала от простого текстового генератора видео к комплексной генерации, интегрирующей текст, изображения и аудио.
Вот несколько примеров технологий, на которые стоит обратить внимание:
Открытая платформа EX-4D, разработанная одной технологической компанией, позволяет преобразовывать обычные видео в 4D-контент с свободным углом обзора, при этом уровень одобрения пользователей достигает 70,7%. Эта технология делает возможным создание многогранного просмотра из видео с одним углом обзора, что ранее требовало профессиональной команды по 3D-моделированию.
На платформе ИИ была запущена функция "Хуэйсян", которая может генерировать 10-секундное видео из одного изображения, утверждая, что достигает "кинематографического" качества. Тем не менее, точность этого утверждения еще предстоит проверить.
Разработанная международным AI-исследовательским институтом технология Veo может синхронно генерировать 4K-видео и окружающий звук. Ключевое достижение этой технологии заключается в достижении истинного семантического соответствия между видео и аудио, например, в точном соответствии между действиями ходьбы на экране и звуком шагов в сложных сценах.
Технология ContentV на одной из платформ коротких видео обладает 8 миллиардами параметров и может генерировать 1080p видео за 2,3 секунды, стоимость составляет 3,67 юаня за 5 секунд. Хотя контроль затрат неплохой, качество генерации в сложных сценах все еще требует улучшения.
Эти технологические прорывы имеют важное значение для качества видео, затрат на его создание и областей применения:
Прорыв в технической ценности: Сложность генерации многомодальных видео обычно растет в геометрической прогрессии. Это не только требует обработки пикселей одиночного кадра (около 10^6), но также необходимо обеспечить хотя бы 100 кадров временной последовательности, при этом учитывать синхронизацию аудио (около 10^4 выборок в секунду) и согласованность в 3D-пространстве. В настоящее время эта сложная задача решается путем модульного разложения и сотрудничества больших моделей, что значительно повышает эффективность.
Снижение затрат: за этим стоят оптимизации архитектуры вывода, включая многоуровневую генерирующую стратегию, механизм повторного использования кэша и динамическое распределение ресурсов. Эти оптимизации значительно снижают затраты на генерацию видео.
Влияние применения: Технологии ИИ меняют традиционный процесс производства видео. Раньше создание 30-секундной рекламы могло стоить сотни тысяч, теперь достаточно одного подсказки и нескольких минут ожидания. Это не только снижает технический и финансовый порог для производства видео, но и предоставляет создателям больше возможностей, что может привести к пересмотру всей креативной экономики.
Эти изменения оказали глубокое влияние на развитие технологий ИИ:
Структура спроса на вычислительную мощность изменилась. Генерация мультимодальных видео требует разнообразных комбинаций вычислительной мощности, что создает новый спрос на распределенные неиспользуемые вычислительные мощности, а также различные распределенные модели дообучения, алгоритмы и платформы для вывода.
Усиление требований к аннотации данных. Для создания профессионального видео необходима точная аннотация таких профессиональных данных, как описание сцен, эталонные изображения, звуковые стили, траектории движения камеры и условия освещения. Это предоставляет новые возможности для профессионалов, таких как фотографы, звуковые дизайнеры и 3D-художники.
Увеличение спроса на децентрализованные платформы. Технология ИИ постепенно переходит от централизованного распределения крупных ресурсов к модульному сотрудничеству, что само по себе является новым требованием к децентрализованным платформам. В будущем вычислительная мощность, данные, модели и механизмы стимулов могут создать самоусиливающийся позитивный цикл, способствующий интеграции и развитию технологий ИИ в различных областях.