تقنية إنتاج الفيديو باستخدام الذكاء الاصطناعي تحقق تقدمًا كبيرًا، والتكامل متعدد النماذج يصبح اتجاهًا جديدًا
أحدث تقدم ملحوظ في مجال الذكاء الاصطناعي مؤخرًا هو突破 تقنية إنشاء الفيديو متعدد النماذج. فقد تطورت هذه التقنية من إنشاء الفيديوهات من نصوص مفردة إلى حل شامل يتكامل فيه النصوص والصور والصوت.
هناك عدة حالات رائدة تستحق الاهتمام:
الإطار EX-4D مفتوح المصدر الذي قدمته شركة تكنولوجيا يمكن أن يحول مقاطع الفيديو العادية إلى محتوى 4D ذو زوايا رؤية حرة، حيث تصل نسبة قبول المستخدمين إلى 70.7%. هذه التقنية تجعل من الممكن مشاهدة الفيديو من أي زاوية، وهو ما كان يتطلب في الماضي فريقًا محترفًا من نمذجة ثلاثية الأبعاد.
تدعي منصة AI معينة أن ميزة "الرسوم المتحركة" لديها يمكن أن تحول صورة واحدة إلى فيديو بجودة "سينمائية" مدته 10 ثوان. ومع ذلك، لا يزال يتعين التحقق من صحة هذا الادعاء.
تم إطلاق تقنية Veo من قبل مؤسسة بحثية معروفة في مجال الذكاء الاصطناعي، والتي يمكنها توليد فيديو بدقة 4K وصوت بيئي في الوقت نفسه. تتغلب هذه التقنية على تحديات مزامنة الصوت والصورة في المشاهد المعقدة، مثل المطابقة الدقيقة بين حركة المشي في الصورة وصوت الأقدام.
تقنية ContentV على منصة الفيديو القصير تمتلك 80 مليار معلمة، ويمكنها إنتاج فيديو بدقة 1080p في 2.3 ثانية، بتكلفة 3.67 يوان/5 ثوان. على الرغم من أن التحكم في التكلفة جيد، إلا أنه لا يزال هناك مجال لتحسين جودة الإنتاج في المشاهد المعقدة.
تمتلك هذه الاختراقات التكنولوجية دلالة كبيرة من حيث جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق:
أولاً، تتزايد درجة تعقيد تقنية إنشاء الفيديو متعدد الوسائط بشكل أسي. فهي لا تتطلب فقط معالجة نقاط البكسل في الصورة الواحدة (حوالي 10^6 نقطة)، بل يجب أيضًا ضمان تتابع الفيديو الزمني (على الأقل 100 إطار)، بالإضافة إلى مراعاة مزامنة الصوت (10^4 نقطة عينة في الثانية) والاتساق المكاني ثلاثي الأبعاد. الآن، يمكن تحقيق هذه المهمة المعقدة من خلال تفكيكها إلى وحدات وتعاون النماذج الكبيرة، مما يزيد من الكفاءة بشكل كبير.
ثانياً، يعود الانخفاض الملحوظ في التكاليف إلى تحسين هيكل الاستدلال، بما في ذلك استراتيجيات التوليد المت层ية، وآليات إعادة استخدام التخزين المؤقت، وتخصيص الموارد الديناميكي، وغيرها من التقنيات. جعلت هذه التحسينات بعض المنصات قادرة على التحكم في تكاليف إنتاج الفيديو بمستويات منخفضة.
في النهاية، أحدثت هذه الاختراقات التكنولوجية صدمة كبيرة لصناعة إنتاج الفيديو التقليدية. حيث قامت تقنية الذكاء الاصطناعي بتبسيط العملية التي كانت تتطلب في السابق الكثير من المعدات، والمواقع، والممثلين، وعملية ما بعد الإنتاج إلى مجرد إدخال كلمات توجيه وانتظار بضع دقائق. وهذا لا يقلل فقط من العوائق التقنية والمالية لإنتاج الفيديو، بل يمكن أن يحقق أيضًا زوايا وتأثيرات خاصة يصعب الوصول إليها في التصوير التقليدي، مما قد يؤدي إلى جولة جديدة من إعادة تشكيل اقتصاد المبدعين.
لقد كان لهذه التغييرات تأثير عميق أيضًا على مجال الذكاء الاصطناعي Web3:
تغير هيكل طلب القدرة الحاسوبية. تتطلب توليد الفيديو متعدد النماذج مجموعات متنوعة من القدرة الحاسوبية، مما يخلق طلبًا جديدًا على القدرة الحاسوبية المتاحة الموزعة وأنواع مختلفة من نماذج التعديل الموزعة، والخوارزميات، ومنصات الاستدلال.
تعزيز متطلبات توضيح البيانات. يتطلب إنتاج فيديوهات بمستوى احترافي أوصاف دقيقة للمشاهد، وصور مرجعية، وأنماط صوتية، ومسارات حركة الكاميرا، وظروف إضاءة، وغيرها من البيانات المتخصصة. يمكن لآلية التحفيز في ويب 3 أن تشجع المصورين، ومهندسي الصوت، وفناني ثلاثي الأبعاد على تقديم مواد بيانات عالية الجودة، مما يعزز من قدرة الذكاء الاصطناعي على إنتاج الفيديو.
زيادة الطلب على المنصات اللامركزية. تتجه تقنية الذكاء الاصطناعي من تخصيص الموارد المركزية كبيرة النطاق تدريجياً نحو التعاون المعياري، وهذا بحد ذاته يمثل طلباً جديداً على المنصات اللامركزية. في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز حلقة تعزز ذاتياً، مما يدفع إلى الاندماج العميق بين سيناريوهات Web3 AI و Web2 AI.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
دخل إنشاء الفيديو بالذكاء الاصطناعي عصرًا متعدد النماذج ، وقد تكون Web3 أكبر المستفيدين.
تقنية إنتاج الفيديو باستخدام الذكاء الاصطناعي تحقق تقدمًا كبيرًا، والتكامل متعدد النماذج يصبح اتجاهًا جديدًا
أحدث تقدم ملحوظ في مجال الذكاء الاصطناعي مؤخرًا هو突破 تقنية إنشاء الفيديو متعدد النماذج. فقد تطورت هذه التقنية من إنشاء الفيديوهات من نصوص مفردة إلى حل شامل يتكامل فيه النصوص والصور والصوت.
هناك عدة حالات رائدة تستحق الاهتمام:
الإطار EX-4D مفتوح المصدر الذي قدمته شركة تكنولوجيا يمكن أن يحول مقاطع الفيديو العادية إلى محتوى 4D ذو زوايا رؤية حرة، حيث تصل نسبة قبول المستخدمين إلى 70.7%. هذه التقنية تجعل من الممكن مشاهدة الفيديو من أي زاوية، وهو ما كان يتطلب في الماضي فريقًا محترفًا من نمذجة ثلاثية الأبعاد.
تدعي منصة AI معينة أن ميزة "الرسوم المتحركة" لديها يمكن أن تحول صورة واحدة إلى فيديو بجودة "سينمائية" مدته 10 ثوان. ومع ذلك، لا يزال يتعين التحقق من صحة هذا الادعاء.
تم إطلاق تقنية Veo من قبل مؤسسة بحثية معروفة في مجال الذكاء الاصطناعي، والتي يمكنها توليد فيديو بدقة 4K وصوت بيئي في الوقت نفسه. تتغلب هذه التقنية على تحديات مزامنة الصوت والصورة في المشاهد المعقدة، مثل المطابقة الدقيقة بين حركة المشي في الصورة وصوت الأقدام.
تقنية ContentV على منصة الفيديو القصير تمتلك 80 مليار معلمة، ويمكنها إنتاج فيديو بدقة 1080p في 2.3 ثانية، بتكلفة 3.67 يوان/5 ثوان. على الرغم من أن التحكم في التكلفة جيد، إلا أنه لا يزال هناك مجال لتحسين جودة الإنتاج في المشاهد المعقدة.
تمتلك هذه الاختراقات التكنولوجية دلالة كبيرة من حيث جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق:
أولاً، تتزايد درجة تعقيد تقنية إنشاء الفيديو متعدد الوسائط بشكل أسي. فهي لا تتطلب فقط معالجة نقاط البكسل في الصورة الواحدة (حوالي 10^6 نقطة)، بل يجب أيضًا ضمان تتابع الفيديو الزمني (على الأقل 100 إطار)، بالإضافة إلى مراعاة مزامنة الصوت (10^4 نقطة عينة في الثانية) والاتساق المكاني ثلاثي الأبعاد. الآن، يمكن تحقيق هذه المهمة المعقدة من خلال تفكيكها إلى وحدات وتعاون النماذج الكبيرة، مما يزيد من الكفاءة بشكل كبير.
ثانياً، يعود الانخفاض الملحوظ في التكاليف إلى تحسين هيكل الاستدلال، بما في ذلك استراتيجيات التوليد المت层ية، وآليات إعادة استخدام التخزين المؤقت، وتخصيص الموارد الديناميكي، وغيرها من التقنيات. جعلت هذه التحسينات بعض المنصات قادرة على التحكم في تكاليف إنتاج الفيديو بمستويات منخفضة.
في النهاية، أحدثت هذه الاختراقات التكنولوجية صدمة كبيرة لصناعة إنتاج الفيديو التقليدية. حيث قامت تقنية الذكاء الاصطناعي بتبسيط العملية التي كانت تتطلب في السابق الكثير من المعدات، والمواقع، والممثلين، وعملية ما بعد الإنتاج إلى مجرد إدخال كلمات توجيه وانتظار بضع دقائق. وهذا لا يقلل فقط من العوائق التقنية والمالية لإنتاج الفيديو، بل يمكن أن يحقق أيضًا زوايا وتأثيرات خاصة يصعب الوصول إليها في التصوير التقليدي، مما قد يؤدي إلى جولة جديدة من إعادة تشكيل اقتصاد المبدعين.
لقد كان لهذه التغييرات تأثير عميق أيضًا على مجال الذكاء الاصطناعي Web3:
تغير هيكل طلب القدرة الحاسوبية. تتطلب توليد الفيديو متعدد النماذج مجموعات متنوعة من القدرة الحاسوبية، مما يخلق طلبًا جديدًا على القدرة الحاسوبية المتاحة الموزعة وأنواع مختلفة من نماذج التعديل الموزعة، والخوارزميات، ومنصات الاستدلال.
تعزيز متطلبات توضيح البيانات. يتطلب إنتاج فيديوهات بمستوى احترافي أوصاف دقيقة للمشاهد، وصور مرجعية، وأنماط صوتية، ومسارات حركة الكاميرا، وظروف إضاءة، وغيرها من البيانات المتخصصة. يمكن لآلية التحفيز في ويب 3 أن تشجع المصورين، ومهندسي الصوت، وفناني ثلاثي الأبعاد على تقديم مواد بيانات عالية الجودة، مما يعزز من قدرة الذكاء الاصطناعي على إنتاج الفيديو.
زيادة الطلب على المنصات اللامركزية. تتجه تقنية الذكاء الاصطناعي من تخصيص الموارد المركزية كبيرة النطاق تدريجياً نحو التعاون المعياري، وهذا بحد ذاته يمثل طلباً جديداً على المنصات اللامركزية. في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز حلقة تعزز ذاتياً، مما يدفع إلى الاندماج العميق بين سيناريوهات Web3 AI و Web2 AI.