هذه الخدعة الغريبة واحدة تهزم ميزات أمان الذكاء الاصطناعي في 99% من الحالات

Decrypt

2025-11-13 19:39:00

مركز فنون الموضة والترفيه لـ Decrypt.

اكتشف SCENE

<br>

اكتشف الباحثون في مجال الذكاء الاصطناعي من أنثروبيك وستانفورد وأوكسفورد أن جعل نماذج الذكاء الاصطناعي تفكر لفترة أطول يجعل من السهل اختراقها - وهو عكس ما كان يعتقده الجميع.

كان الافتراض السائد هو أن التفكير المطول سيجعل نماذج الذكاء الاصطناعي أكثر أمانًا، لأنه يمنحها المزيد من الوقت لاكتشاف ورفض الطلبات الضارة. بدلاً من ذلك، وجد الباحثون أنه ينشئ طريقة موثوقة لتجاوز الحماية تتجاوز الفلاتر الأمنية تمامًا.

باستخدام هذه التقنية، يمكن للمهاجم إدخال تعليمات في عملية سلسلة التفكير لأي نموذج ذكاء اصطناعي وإجباره على توليد تعليمات لإنشاء أسلحة، كتابة كود ضار، أو إنتاج محتوى محظور آخر من شأنه عادةً أن يؤدي إلى رفض فوري. تنفق شركات الذكاء الاصطناعي ملايين الدولارات لبناء هذه الحواجز الأمنية لمنع مثل هذه المخرجات.

تظهر الدراسة أن اختطاف سلسلة الأفكار يحقق معدلات نجاح هجوم بنسبة 99٪ على Gemini 2.5 Pro، و94٪ على GPT o4 mini، و100٪ على Grok 3 mini، و94٪ على Claude 4 Sonnet. تدمر هذه الأرقام كل طريقة اختراق تم اختبارها سابقًا على النماذج الكبيرة للتفكير.

الهجوم بسيط ويعمل مثل لعبة “همس على طول الطريق” ( أو “الهاتف” )، مع لاعب خبيث في مكان ما بالقرب من نهاية السلسلة. ما عليك سوى إضافة طلب ضار مع تسلسلات طويلة من الألغاز غير الضارة؛ اختبر الباحثون شبكات سودوكو، والألغاز المنطقية، ومشاكل الرياضيات المجردة. أضف إشارة إلى الإجابة النهائية في النهاية، وتنهار حواجز الأمان للنموذج.

“تشير الأعمال السابقة إلى أن هذا التفكير المقاس قد يعزز السلامة من خلال تحسين الرفض. ومع ذلك، نجد العكس،” كتب الباحثون. إن نفس القدرة التي تجعل هذه النماذج أذكى في حل المشكلات تجعلها عمياء للخطر.

إليك ما يحدث داخل النموذج: عندما تطلب من الذكاء الاصطناعي حل لغز قبل الإجابة على سؤال ضار، فإن انتباهه يتشتت عبر آلاف الرموز المنطقية غير الضارة. التعليمات الضارة - المدفونة في مكان ما بالقرب من النهاية - تتلقى تقريبًا اهتمامًا ضئيلًا. تتحلل فحوصات السلامة التي عادةً ما تكتشف المطالبات الخطرة بشكل كبير مع زيادة طول سلسلة التفكير.

هذه مشكلة يدركها العديد من الأشخاص المألوفين بالذكاء الاصطناعي، ولكن بدرجة أقل. بعض مطالبات كسر الحماية طويلة عمداً لجعل النموذج يستهلك الرموز قبل معالجة التعليمات الضارة.

أجرى الفريق تجارب محكومة على نموذج S1 لعزل تأثير طول التفكير. مع الحد الأدنى من التفكير، بلغت معدلات نجاح الهجوم 27%. عند طول التفكير الطبيعي، قفزت هذه النسبة إلى 51%. إذا أجبرت النموذج على التفكير خطوة بخطوة بشكل موسع، ارتفعت معدلات النجاح إلى 80%.

كل ذكاء اصطناعي تجاري رئيسي يقع ضحية لهذا الهجوم. جي بي تي من أوبن إيه آي، كلود من أنثروبيك، جيميني من جوجل، وغروك من xAI—لا أحد محصن. الضعف موجود في العمارة نفسها، وليس في أي تنفيذ محدد.

تشفّر نماذج الذكاء الاصطناعي قوة فحص الأمان في الطبقات الوسطى حول الطبقة 25. تشفّر الطبقات المتأخرة نتيجة التحقق. تسهم سلاسل طويلة من التفكير الخالي من الضرر في كتم كلا الإشارتين مما يؤدي إلى تحويل الانتباه بعيدًا عن الرموز الضارة.

حدد الباحثون رؤوس الانتباه المحددة المسؤولة عن فحوصات الأمان، والتي تتركز في الطبقات من 15 إلى 35. قاموا بإزالة 60 من هذه الرؤوس جراحيًا. انهار سلوك الرفض. أصبحت التعليمات الضارة مستحيلة على النموذج اكتشافها.

“الطبقات” في نماذج الذكاء الاصطناعي تشبه الخطوات في الوصفة، حيث تساعد كل خطوة الكمبيوتر على فهم المعلومات ومعالجتها بشكل أفضل. تعمل هذه الطبقات معًا، تمرر ما تتعلمه من واحدة إلى الأخرى، حتى يتمكن النموذج من الإجابة على الأسئلة، اتخاذ القرارات، أو اكتشاف المشكلات. بعض الطبقات جيدة بشكل خاص في التعرف على مشكلات الأمان—مثل حظر الطلبات الضارة—بينما تساعد الأخرى النموذج على التفكير والاستدلال. من خلال تكديس هذه الطبقات، يمكن أن يصبح الذكاء الاصطناعي أكثر ذكاءً وحذرًا بشأن ما يقوله أو يفعله.

يتحدى هذا الاختراق الجديد الافتراض الأساسي الذي يحرك تطوير الذكاء الاصطناعي في الآونة الأخيرة. على مدار العام الماضي، غيرت شركات الذكاء الاصطناعي الكبرى تركيزها نحو توسيع التفكير بدلاً من عدد المعاملات الخام. أظهرت عملية التوسع التقليدية عوائد متناقصة. أصبح التفكير في وقت الاستدلال - جعل النماذج تفكر لفترة أطول قبل الإجابة - الحدود الجديدة لتحقيق مكاسب الأداء.

كان الافتراض هو أن المزيد من التفكير يساوي أمانًا أفضل. ستمنح العمليات الموسعة النماذج مزيدًا من الوقت لرصد الطلبات الخطرة ورفضها. تثبت هذه الأبحاث أن هذا الافتراض كان غير دقيق، وربما كان خاطئًا.

هجوم ذو صلة يسمى H-CoT، تم إصداره في فبراير من قبل باحثين من جامعة ديوك وجامعة تشينغ هوا الوطنية في تايوان، يستغل نفس الثغرة من زاوية مختلفة. بدلاً من استخدام الألغاز كحشو، يقوم H-CoT بالتلاعب بخطوات التفكير الخاصة بالنموذج. يحافظ نموذج o1 من OpenAI على معدل رفض بنسبة 99% في الظروف العادية. تحت هجوم H-CoT، ينخفض هذا المعدل إلى أقل من 2%.

يقدم الباحثون دفاعًا: المراقبة الواعية بالتفكير. تتعقب كيفية تغير إشارات الأمان عبر كل خطوة من خطوات التفكير، وإذا كانت أي خطوة تضعف إشارة الأمان، فإنه يتم معاقبتها - إجبار النموذج على الحفاظ على الانتباه على المحتوى الضار المحتمل بغض النظر عن طول التفكير. تظهر الاختبارات المبكرة أن هذه الطريقة يمكن أن تستعيد الأمان دون تدمير الأداء.

لكن التنفيذ لا يزال غير مؤكد. يتطلب الدفاع المقترح تكاملًا عميقًا في عملية تفكير النموذج، وهو بعيد عن كونه مجرد تصحيح أو فلتر بسيط. يحتاج إلى مراقبة التفعيلات الداخلية عبر عشرات الطبقات في الوقت الحقيقي، وضبط أنماط الانتباه بشكل ديناميكي. هذا مكلف حسابيًا ومعقد تقنيًا.

كشف الباحثون عن الثغرة الأمنية لـ OpenAI و Anthropic و Google DeepMind و xAI قبل النشر. “جميع المجموعات أكدت استلامها، والعديد منها يقيم بنشاط إجراءات التخفيف،” كما زعم الباحثون في بيانهم الأخلاقي.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.