Tecnología de generación de videos multimodales de IA: Soltar costos, mejorar calidad, expandir aplicaciones

Avances y futuro desarrollo de la tecnología de generación de videos con IA

Recientemente, uno de los avances más significativos en el campo de la IA ha sido el gran avance en la tecnología de generación de video multimodal. Esta tecnología ha evolucionado de generar videos solamente a partir de texto, a integrar texto, imágenes y audio en una tecnología de generación integral.

A continuación se presentan algunos casos de avances tecnológicos que merecen atención:

  1. El marco EX-4D de una empresa tecnológica de código abierto puede convertir videos normales en contenido 4D de libre perspectiva, con un nivel de aceptación del usuario de hasta el 70.7%. Esta tecnología hace posible generar experiencias de visualización de múltiples ángulos a partir de videos de un solo ángulo, lo cual en el pasado requería un equipo profesional de modelado 3D para llevar a cabo.

  2. La función "Hui Xiang" lanzada por una plataforma de IA puede generar un video de 10 segundos a partir de una sola imagen, afirmando alcanzar calidad de "nivel de película". Sin embargo, la precisión de esta afirmación aún debe ser verificada.

  3. La tecnología Veo desarrollada por una institución internacional de investigación en IA puede generar simultáneamente video en 4K y sonido ambiental. El avance clave de esta tecnología radica en lograr un emparejamiento real en el nivel semántico entre video y audio, por ejemplo, logrando una correspondencia precisa entre la acción de caminar en la imagen y el sonido de los pasos en escenas complejas.

  4. La tecnología ContentV de una plataforma de videos cortos cuenta con 80 mil millones de parámetros, puede generar videos en 1080p en 2.3 segundos, con un costo de 3.67 yuanes/5 segundos. Aunque el control de costos es bastante bueno, todavía hay espacio para mejorar la calidad de generación en escenas complejas.

Estos avances tecnológicos son de gran importancia en aspectos como la calidad del video, el costo de generación y los escenarios de aplicación:

  1. Superación del valor técnico: La complejidad de la generación de videos multimodales suele crecer de manera exponencial. No solo requiere procesar los píxeles de una sola imagen (aproximadamente 10^6), sino que también debe garantizar la coherencia temporal de al menos 100 fotogramas, al mismo tiempo que se considera la sincronización del audio (aproximadamente 10^4 puntos de muestreo por segundo) y la consistencia en el espacio 3D. Actualmente, esta tarea compleja se logra mediante la descomposición modular y la colaboración de grandes modelos, lo que mejora significativamente la eficiencia.

  2. Reducción de costos: Detrás de esto está la optimización de la arquitectura de inferencia, que incluye estrategias de generación en capas, mecanismos de reutilización de caché y asignación dinámica de recursos, entre otros. Estas optimizaciones han reducido significativamente el costo de generación de videos.

  3. Impacto de la aplicación: La tecnología de IA está transformando el proceso tradicional de producción de videos. En el pasado, un anuncio de 30 segundos podía costar cientos de miles en producción, ahora solo se necesita una palabra clave y unos minutos de tiempo de espera. Esto no solo ha reducido las barreras técnicas y financieras para la producción de videos, sino que también ha brindado a los creadores más posibilidades, lo que podría desencadenar una reconfiguración de toda la economía de creadores.

Estos cambios han tenido un profundo impacto en el desarrollo de la tecnología de IA:

  1. La estructura de la demanda de poder de cómputo está cambiando. La generación de videos multimodales requiere una combinación diversificada de poder de cómputo, lo que crea una nueva demanda para el poder de cómputo distribuido en desuso, así como para varios modelos de ajuste fino distribuidos, algoritmos y plataformas de inferencia.

  2. Aumento de la demanda de etiquetado de datos. La generación de videos de nivel profesional requiere descripciones de escenas precisas, imágenes de referencia, estilos de audio, trayectorias de movimiento de la cámara y condiciones de iluminación, entre otros datos de etiquetado especializados. Esto brinda nuevas oportunidades a profesionales como fotógrafos, ingenieros de sonido y artistas 3D.

  3. Aumento de la demanda de plataformas descentralizadas. La tecnología de IA está pasando gradualmente de la asignación de recursos a gran escala centralizados a la colaboración modular, lo que en sí mismo representa una nueva demanda de plataformas descentralizadas. En el futuro, la potencia de cálculo, los datos, los modelos y los mecanismos de incentivos podrían formar un ciclo virtuoso auto-reforzante, impulsando la integración y el desarrollo de la tecnología de IA en diversos campos.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • Compartir
Comentar
0/400
RektButSmilingvip
· 07-23 19:25
alcista啊!很快就能把我fren骗成小姐姐了
Ver originalesResponder0
DYORMastervip
· 07-23 17:57
Es solo hype, no es un avance real.
Ver originalesResponder0
TokenGuruvip
· 07-23 11:47
Otra ola de tontos que se los están tomando por tontos, hermanos, cuiden el riesgo.
Ver originalesResponder0
ProofOfNothingvip
· 07-21 23:00
¿Realmente se puede ver lo que hace la IA?
Ver originalesResponder0
AlgoAlchemistvip
· 07-20 20:23
¿Hay algún hermano que haya grabado un video sobre esto?
Ver originalesResponder0
BrokenYieldvip
· 07-20 20:17
hmm otra burbuja tecnológica en camino... el mercado ya ha visto esta película antes y spoiler: termina en lágrimas
Ver originalesResponder0
BlockchainFoodievip
· 07-20 20:16
oye, este tema del video de IA es diferente... es como ver un wagyu raro transformarse de crudo a perfectamente sellado, no voy a mentir
Ver originalesResponder0
RugpullAlertOfficervip
· 07-20 20:14
¡Los grandes inversores de fraude han hecho rug pull!
Ver originalesResponder0
RugpullTherapistvip
· 07-20 20:10
Otra vez has hecho algo increíble.
Ver originalesResponder0
UnluckyLemurvip
· 07-20 20:04
¿Nivel de película? Difícil de soportar
Ver originalesResponder0
Ver más
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)