Technologie de génération de vidéos multimodales par IA : Goutte des coûts, amélioration de la qualité, élargissement des applications

Percées et développement futur de la technologie de génération de vidéos par IA

Récemment, l'une des avancées les plus significatives dans le domaine de l'IA est la percée majeure de la technologie de génération de vidéos multimodales. Cette technologie a évolué d'une simple génération de vidéos à partir de texte à une technologie de génération intégrée qui combine texte, images et audio.

Voici quelques exemples de progrès technologiques qui méritent d'être soulignés :

  1. Le cadre EX-4D, open source d'une entreprise technologique, peut transformer des vidéos ordinaires en contenu 4D à perspective libre, avec un taux d'acceptation des utilisateurs atteignant 70,7 %. Cette technologie rend possible la génération d'une expérience de visionnage multi-angle à partir de vidéos à perspective unique, ce qui nécessitait auparavant une équipe professionnelle de modélisation 3D.

  2. Une fonctionnalité appelée "Hui Xiang" lancée par une plateforme d'IA peut générer une vidéo de 10 secondes à partir d'une seule image, prétendant atteindre une qualité "cinématographique". Cependant, l'exactitude de cette affirmation doit encore être vérifiée.

  3. La technologie Veo développée par un institut international de recherche en IA peut générer simultanément des vidéos 4K et des sons d'ambiance. La percée clé de cette technologie réside dans la réalisation d'une correspondance véritable au niveau sémantique entre la vidéo et l'audio, par exemple en permettant une correspondance précise entre les mouvements de marche à l'écran et le son des pas dans des scènes complexes.

  4. La technologie ContentV d'une plateforme de courtes vidéos possède 8 milliards de paramètres, capable de générer une vidéo 1080p en 2,3 secondes, à un coût de 3,67 yuans/5 secondes. Bien que le contrôle des coûts soit satisfaisant, il y a encore de la marge pour améliorer la qualité de génération dans des scénarios complexes.

Ces avancées technologiques ont une importance significative en termes de qualité vidéo, de coût de génération et de scénarios d'application :

  1. Percée de la valeur technologique : La complexité de la génération de vidéos multimodales augmente généralement de manière exponentielle. Cela nécessite non seulement de traiter les pixels d'une image unique (environ 10^6), mais aussi de garantir une cohérence temporelle d'au moins 100 images, tout en tenant compte de la synchronisation audio (environ 10^4 points d'échantillonnage par seconde) et de la cohérence spatiale 3D. Actuellement, cette tâche complexe est réalisée par décomposition modulaire et collaboration entre grands modèles, ce qui améliore considérablement l'efficacité.

  2. Réduction des coûts : cela repose sur l'optimisation de l'architecture de raisonnement, y compris des stratégies de génération hiérarchique, des mécanismes de réutilisation du cache et une allocation dynamique des ressources, etc. Ces optimisations ont considérablement réduit le coût de génération vidéo.

  3. Impact des applications : La technologie AI transforme le processus de production vidéo traditionnel. Autrefois, une publicité de 30 secondes pouvait coûter des centaines de milliers de dollars à produire, maintenant il suffit d'un mot-clé et de quelques minutes d'attente. Cela a non seulement abaissé le seuil technique et financier de la production vidéo, mais a également offert aux créateurs davantage de possibilités, ce qui pourrait entraîner une réorganisation complète de l'économie des créateurs.

Ces changements ont eu un impact profond sur le développement des technologies AI.

  1. La structure de la demande en puissance de calcul a changé. La génération de vidéos multimodales nécessite une combinaison diversifiée de puissance de calcul, ce qui crée une nouvelle demande pour la puissance de calcul inutilisée distribuée ainsi que pour divers modèles de réglage fin distribués, algorithmes et plateformes d'inférence.

  2. Renforcement des besoins en annotation de données. La création de vidéos de niveau professionnel nécessite une annotation de données spécialisée, incluant des descriptions de scènes précises, des images de référence, des styles audio, des trajectoires de mouvement de caméra et des conditions d'éclairage. Cela offre de nouvelles opportunités aux professionnels tels que les photographes, les ingénieurs du son et les artistes 3D.

  3. Augmentation de la demande pour les plateformes décentralisées. La technologie AI passe progressivement d'une répartition centralisée des ressources à grande échelle à une collaboration modulaire, ce qui constitue en soi une nouvelle demande pour les plateformes décentralisées. À l'avenir, la puissance de calcul, les données, les modèles et les mécanismes d'incitation pourraient former un cercle vertueux d'auto-renforcement, favorisant l'intégration et le développement de la technologie AI dans divers domaines.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
AlgoAlchemistvip
· Il y a 21h
Y a-t-il des gars qui ont fait des vidéos pour tester ça ?
Voir l'originalRépondre0
BrokenYieldvip
· Il y a 21h
hmm une autre bulle technologique en préparation... le marché a déjà vu ce film et spoiler : ça se termine en larmes
Voir l'originalRépondre0
BlockchainFoodievip
· Il y a 21h
yo cette vidéo IA a un effet différent... c'est comme regarder un wagyu rare se transformer de cru à parfaitement saisi ngl
Voir l'originalRépondre0
RugpullAlertOfficervip
· Il y a 21h
Les grands investisseurs escrocs ont tous fait un rug pull !
Voir l'originalRépondre0
RugpullTherapistvip
· Il y a 21h
Encore incroyablement.
Voir l'originalRépondre0
UnluckyLemurvip
· Il y a 21h
Niveau cinéma ? Difficile à tenir.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)