تحديث DeepSeek V3: قوة الحوسبة ترقص مع الخوارزمية لإعادة تشكيل صناعة الذكاء الاصطناعي

2025-07-26 21:49:53

إنشاء الملخص قيد التقدم

تحديث DeepSeek V3: قوة الحوسبة وعصر الخوارزمية الجديد

مؤخراً، أصدرت DeepSeek آخر تحديث للنسخة V3 على منصة Hugging Face - DeepSeek-V3-0324. وصلت معلمات النموذج في هذه النسخة إلى 6850 مليار، مع تحسينات ملحوظة في قدرة البرمجة وتصميم واجهة المستخدم والقدرة على الاستدلال.

في مؤتمر GTC 2025 الذي انتهى مؤخرًا، قدّم قادة الصناعة تقييمًا عاليًا لـ DeepSeek. وأشاروا إلى أن الرأي السائد في السوق بأن نموذج DeepSeek الفعال سيقلل من الطلب على الرقائق هو رأي خاطئ، وأن الطلب على الحوسبة في المستقبل سيزداد، وليس العكس.

تعتبر DeepSeek كمنتج تمثيلي للاختراق في الخوارزمية، العلاقة بينها وبين توريد الرقائق أثارت تفكير الناس حول قوة الحوسبة والخوارزمية في تطوير الصناعة.

قوة الحوسبة والخوارزمية

في مجال الذكاء الاصطناعي، فإن تحسين قوة الحوسبة يوفر أساسًا لتشغيل الخوارزميات الأكثر تعقيدًا، مما يمكن النماذج من معالجة كميات أكبر من البيانات، وتعلم أنماط أكثر تعقيدًا؛ بينما يمكن أن يؤدي تحسين الخوارزمية إلى استخدام قوة الحوسبة بشكل أكثر كفاءة، مما يعزز كفاءة استخدام موارد الحوسبة.

قوة الحوسبة والخوارزمية التي تعيش في تكافل تعيد تشكيل مشهد صناعة الذكاء الاصطناعي:

تباين المسارات التقنية: تسعى بعض الشركات لبناء تجمعات قوة حوسبة ضخمة، بينما تركز أخرى على تحسين كفاءة الخوارزمية، مما يؤدي إلى تكوين مدارس تقنية مختلفة.
إعادة هيكلة سلسلة القيمة: أصبحت عمالقة الرقائق قادة في قوة الحوسبة للذكاء الاصطناعي من خلال النظام الإيكولوجي، بينما يقوم مزودو الخدمات السحابية بتقليل عتبة النشر من خلال خدمات القوة الحوسبية المرنة.
تعديل تخصيص الموارد: تسعى الشركات لتحقيق توازن بين الاستثمار في البنية التحتية للأجهزة وتطوير الخوارزمية الفعالة.
ظهور المجتمع المفتوح المصدر: نماذج المصدر المفتوح تجعل الابتكار في الخوارزمية ونتائج تحسين قوة الحوسبة قابلة للمشاركة، مما يسرع من تكرار التكنولوجيا وانتشارها.

الابتكار التكنولوجي في DeepSeek

نجاح DeepSeek مرتبط ارتباطًا وثيقًا بالابتكار التكنولوجي الخاص بها. فيما يلي تفسير بسيط لنقاط الابتكار الرئيسية لديها:

تحسين هيكل النموذج

تعتمد DeepSeek على الهيكل المعماري المدمج Transformer+MOE (خليط من الخبراء) ، وتقدم آلية الانتباه الكامنة متعددة الرؤوس (MLA). يشبه هذا الهيكل فريقًا خارقًا، حيث يتولى Transformer التعامل مع المهام العادية، بينما يعمل MOE كفريق خبراء داخل الفريق، حيث يمتلك كل خبير مجاله الخاص من التخصص، وعندما يواجهون مشكلة معينة، يتم التعامل معها من قبل الخبير الأكثر كفاءة، مما يزيد بشكل كبير من كفاءة النموذج ودقته. تتيح آلية MLA للنموذج التركيز بشكل أكثر مرونة على تفاصيل مهمة مختلفة أثناء معالجة المعلومات، مما يعزز أداء النموذج بشكل أكبر.

طريقة التدريب الابتكارية

قدمت DeepSeek إطار عمل التدريب بدقة مختلطة FP8. يعمل هذا الإطار مثل مدبر موارد ذكي، قادر على اختيار دقة الحساب المناسبة ديناميكيًا بناءً على احتياجات مراحل التدريب المختلفة. يتم استخدام دقة أعلى عند الحاجة إلى حسابات ذات دقة عالية لضمان دقة النموذج؛ بينما يتم تقليل الدقة عندما يمكن قبول دقة أقل، مما يوفر موارد الحوسبة، ويزيد من سرعة التدريب، ويقلل من استخدام الذاكرة.

تحسين كفاءة الاستدلال

في مرحلة الاستدلال، قدمت DeepSeek تقنية التنبؤ المتعدد الرموز (Multi-token Prediction, MTP). الطريقة التقليدية للاستدلال هي خطوة بخطوة، حيث يتم التنبؤ برمز واحد في كل خطوة. بينما تتيح تقنية MTP التنبؤ بعدة رموز دفعة واحدة، مما يزيد بشكل كبير من سرعة الاستدلال ويقلل من تكاليفه.

###突破 الخوارزمية التعلم المعزز

خوارزمية التعلم المعزز الجديدة GRPO (تحسين المكافأة العامة المعاقبة) من DeepSeek تحسن عملية تدريب النموذج. التعلم المعزز يشبه تجهيز النموذج بمدرب، حيث يتم توجيه النموذج لتعلم سلوكيات أفضل من خلال المكافآت والعقوبات. خوارزمية DeepSeek الجديدة أكثر كفاءة، حيث تستطيع تقليل الحسابات غير الضرورية مع ضمان تحسين أداء النموذج، وتحقيق توازن بين الأداء والتكلفة.

تشكّل هذه الابتكارات نظامًا تقنيًا كاملًا، حيث يقلل من متطلبات قوة الحوسبة في سلسلة كاملة من التدريب إلى الاستدلال. يمكن الآن لبطاقات الرسوميات الاستهلاكية العادية تشغيل نماذج الذكاء الاصطناعي القوية، مما يقلل بشكل كبير من عوائق استخدام تطبيقات الذكاء الاصطناعي، مما يمكّن المزيد من المطورين والشركات من المشاركة في الابتكار في مجال الذكاء الاصطناعي.

تأثير على صناعة الرقائق

يعتقد الكثيرون أن DeepSeek قد تجاوزت بعض الطبقات التقنية ، وبالتالي تخلصت من الاعتماد على شرائح معينة. في الواقع ، تقوم DeepSeek بتحسين الخوارزمية مباشرة من خلال طبقة PTX (تنفيذ الخيوط المتوازية) الأساسية. PTX هي لغة تمثيل وسيطة تقع بين الشيفرة عالية المستوى وتعليمات GPU الفعلية ، من خلال التعامل مع هذه الطبقة ، يمكن لـ DeepSeek تحقيق ضبط أداء أكثر دقة.

إن تأثير ذلك على صناعة الرقائق له جانبان: من ناحية، فإن DeepSeek مرتبط في الواقع بالأجهزة والنظام البيئي ذي الصلة بشكل أعمق، وانخفاض عتبة تطبيقات الذكاء الاصطناعي قد يوسع من حجم السوق الكلي؛ من ناحية أخرى، قد تؤدي تحسينات الخوارزمية لـ DeepSeek إلى تغيير هيكل الطلب في السوق على الرقائق عالية الأداء، حيث أن بعض نماذج الذكاء الاصطناعي التي كانت تحتاج في الأصل إلى وحدات معالجة الرسوميات عالية الأداء، قد تستطيع الآن العمل بكفاءة على بطاقات الرسوميات المتوسطة أو حتى الاستهلاكية.

معنى ذلك لصناعة الذكاء الاصطناعي في الصين

أدى تحسين الخوارزمية لـ DeepSeek إلى توفير مسار للت突破 التكنولوجي لصناعة الذكاء الاصطناعي الصينية. في ظل قيود شرائح المعالجة المتطورة، خففت فكرة "البرمجيات تعوض عن الأجهزة" من الاعتماد على الشرائح المستوردة الرائدة.

في upstream، الخوارزمية الفعالة تقلل من ضغط الطلب على قوة الحوسبة، مما يمكّن مقدمي خدمات قوة الحوسبة من تحسين البرمجيات لتمديد فترة استخدام الأجهزة وزيادة العائد على الاستثمار. في downstream، النموذج المفتوح المصدر المحسن يقلل من عتبة تطوير تطبيقات الذكاء الاصطناعي. العديد من الشركات الصغيرة والمتوسطة لا تحتاج إلى موارد قوة حوسبة كبيرة، ويمكنها أيضًا تطوير تطبيقات تنافسية بناءً على نموذج DeepSeek، مما سيؤدي إلى ظهور المزيد من حلول الذكاء الاصطناعي في المجالات الرأسية.

التأثير العميق على Web3+AI

بنية تحتية للذكاء الاصطناعي اللامركزي

تقدم تحسينات الخوارزمية في DeepSeek دفعة جديدة للبنية التحتية للذكاء الاصطناعي في Web3، حيث تجعل الهيكلية المبتكرة والخوارزميات الفعالة ومتطلبات قوة الحوسبة المنخفضة الاستدلال الذكي الموزع ممكنًا. هيكلية MoE مناسبة بطبيعتها للنشر الموزع، حيث يمكن أن تحتوي العقد المختلفة على شبكات خبراء مختلفة، دون الحاجة إلى تخزين نموذج كامل في عقدة واحدة، مما يقلل بشكل كبير من متطلبات التخزين والحوسبة في العقدة الواحدة، وبالتالي يزيد من مرونة وكفاءة النموذج.

إطار تدريب FP8 يقلل من الحاجة إلى موارد حوسبة عالية الأداء، مما يسمح بمزيد من موارد الحوسبة للانضمام إلى شبكة العقد. وهذا لا يقلل فقط من عتبة المشاركة في الحوسبة اللامركزية للذكاء الاصطناعي، بل يزيد أيضًا من قدرة وكفاءة الحوسبة في الشبكة بأكملها.

نظام متعدد الوكلاء

تحسين استراتيجيات التداول الذكية: من خلال التعاون بين تحليل بيانات السوق في الوقت الحقيقي agent، وتوقع تقلبات الأسعار قصيرة الأجل agent، وتنفيذ التداول على السلسلة agent، ومراقبة نتائج التداول agent، مما يساعد المستخدمين على تحقيق عوائد أعلى.
التنفيذ الآلي للعقود الذكية: تعمل وكالات مراقبة العقود الذكية، ووكالات تنفيذ العقود الذكية، ووكالات الإشراف على نتائج التنفيذ معًا لتحقيق أتمتة منطق الأعمال الأكثر تعقيدًا.
إدارة محفظة استثمارية مخصصة: تساعد الذكاء الاصطناعي المستخدمين في العثور على أفضل فرص التخزين أو تقديم السيولة في الوقت الحقيقي بناءً على تفضيلات المخاطر والأهداف الاستثمارية والوضع المالي للمستخدم.

تسعى DeepSeek، في ظل قيود قوة الحوسبة، إلى تحقيق突破 من خلال الابتكار في الخوارزمية، مما يفتح مسارًا متميزًا لتطور صناعة الذكاء الاصطناعي في الصين. تقليل عتبة التطبيق، وتعزيز دمج Web3 مع الذكاء الاصطناعي، وتقليل الاعتماد على الشرائح عالية الأداء، وتمكين الابتكار المالي، كل هذه التأثيرات تعيد تشكيل معالم الاقتصاد الرقمي. في المستقبل، لن يكون تطوير الذكاء الاصطناعي مجرد سباق على قوة الحوسبة، بل سيكون سباقًا لتحسين تكامل قوة الحوسبة مع الخوارزمية. في هذا المضمار الجديد، يقوم المبتكرون مثل DeepSeek بإعادة تعريف قواعد اللعبة باستخدام الذكاء الصيني.

DEEPSEEK-7.17%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 11