La génération de vidéos par IA entre dans une ère multimodale, Web3 pourrait en être le plus grand bénéficiaire.

robot
Création du résumé en cours

La technologie de génération de vidéos par IA a fait des percées majeures, l'intégration multimodale devient une nouvelle tendance

Les avancées les plus significatives dans le domaine de l'IA ces derniers temps sont sans doute les percées dans la technologie de génération de vidéos multimodales. Cette technologie a évolué d'une génération de vidéos à partir d'un seul texte à une solution de génération entièrement intégrée combinant texte, images et audio.

Plusieurs cas révolutionnaires méritent d'être remarqués :

  1. Un cadre EX-4D open source développé par une entreprise technologique peut transformer des vidéos ordinaires en contenu 4D à vue libre, avec un taux d'acceptation des utilisateurs atteignant 70,7 %. Cette technologie rend possible le visionnage de vidéos sous n'importe quel angle, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle.

  2. Une plateforme d'IA prétend que sa fonctionnalité "Hui Xiang" peut transformer une seule image en une vidéo de qualité "cinématographique" de 10 secondes. Cependant, la véracité de cette affirmation reste à vérifier.

  3. La technologie Veo, lancée par un célèbre institut de recherche en IA, peut générer simultanément des vidéos 4K et des sons d'environnement. Cette technologie surmonte le défi de la synchronisation audio-visuelle dans des scènes complexes, comme la correspondance précise entre les mouvements de marche à l'écran et le bruit des pas.

  4. La technologie ContentV d'une plateforme de courtes vidéos dispose de 8 milliards de paramètres et peut générer des vidéos en 1080p en 2,3 secondes, avec un coût de 3,67 yuans pour 5 secondes. Bien que le contrôle des coûts soit satisfaisant, il reste de la place pour améliorer la qualité de génération dans des scénarios complexes.

Ces avancées technologiques ont une signification majeure en termes de qualité vidéo, de coûts de production et de cas d'application.

Tout d'abord, la complexité technique de la génération de vidéos multimodales augmente de manière exponentielle. Elle doit non seulement traiter les pixels d'une seule image (environ 10^6), mais aussi garantir la cohérence temporelle de la vidéo (au moins 100 images), tout en tenant compte de la synchronisation audio (10^4 points d'échantillonnage par seconde) et de la cohérence spatiale en 3D. Aujourd'hui, cette tâche complexe peut être réalisée grâce à la décomposition modulaire et à la collaboration de grands modèles, ce qui améliore considérablement l'efficacité.

Deuxièmement, la réduction significative des coûts est due à l'optimisation de l'architecture de raisonnement, y compris des stratégies de génération par niveaux, des mécanismes de réutilisation de cache et des techniques de répartition dynamique des ressources. Ces optimisations permettent à certaines plateformes de maintenir les coûts de génération vidéo à un niveau relativement bas.

Enfin, ces percées technologiques ont eu un impact énorme sur l'industrie traditionnelle de la production vidéo. La technologie AI a simplifié le processus qui nécessitait auparavant de nombreux équipements, lieux, acteurs et post-production, en le réduisant à une opération consistant à saisir des mots-clés et à attendre quelques minutes. Cela a non seulement abaissé le seuil technique et financier de la production vidéo, mais a également permis d'atteindre des angles et des effets spéciaux difficiles à réaliser avec les méthodes de tournage traditionnelles, ce qui pourrait déclencher une nouvelle vague de réorganisation dans l'économie des créateurs.

Ces changements ont également eu un impact profond sur le domaine de l'IA Web3 :

  1. La structure de la demande en puissance de calcul a changé. La génération de vidéos multimodales nécessite une combinaison de puissance de calcul diversifiée, ce qui crée une nouvelle demande pour la puissance de calcul inutilisée distribuée ainsi que pour divers modèles de réglage fin distribués, algorithmes et plateformes d'inférence.

  2. Renforcement des besoins en annotation des données. La génération de vidéos de niveau professionnel nécessite des descriptions de scènes précises, des images de référence, des styles audio, des trajectoires de mouvement de la caméra et des conditions d'éclairage, entre autres données professionnelles. Le mécanisme d'incitation de Web3 peut encourager les photographes, les ingénieurs du son et les artistes 3D à fournir des matériaux de données de haute qualité, ce qui améliore la capacité de génération de vidéos par l'IA.

  3. Augmentation de la demande pour les plateformes décentralisées. La technologie de l'IA passe progressivement d'une répartition centralisée des ressources à grande échelle à une collaboration modulaire, ce qui constitue en soi une nouvelle demande pour les plateformes décentralisées. À l'avenir, la puissance de calcul, les données, les modèles et les mécanismes d'incitation pourraient former un cercle vertueux d'auto-renforcement, favorisant une intégration profonde des scénarios d'IA Web3 et d'IA Web2.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 1
  • Partager
Commentaire
0/400
WagmiWarriorvip
· 07-25 04:31
Une révolution de la productivité est en cours.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)