Цей один дивний трюк обходить функції безпеки ШІ в 99% випадків

Decrypt

2025-11-13 19:39:00

Центр мистецтв, моди та розваг Decrypt.

Відкрийте SCENE

<br>

Дослідники штучного інтелекту з Anthropic, Стенфордського університету та Оксфорда виявили, що збільшення часу мислення моделей ШІ робить їх легшими для злому — це протилежність тому, що всі припускали.

Поширеним припущенням було те, що розширене міркування зробить моделі ШІ безпечнішими, оскільки воно надає їм більше часу для виявлення та відмови від шкідливих запитів. Натомість дослідники виявили, що це створює надійний метод обходу, який повністю ігнорує фільтри безпеки.

Використовуючи цю техніку, зловмисник може вставити інструкцію в процес Chain of Thought будь-якої моделі ШІ та змусити її генерувати інструкції для створення зброї, написання шкідливого коду або виробництва іншого забороненого контенту, що зазвичай призвело б до негайної відмови. Компанії ШІ витрачають мільйони на створення цих засобів безпеки саме для того, щоб запобігти таким виходам.

Дослідження показує, що захоплення ланцюга думок досягає 99% успіху атак на Gemini 2.5 Pro, 94% на GPT o4 mini, 100% на Grok 3 mini та 94% на Claude 4 Sonnet. Ці цифри знищують всі попередні методи втечі, які тестувалися на великих моделях міркувань.

Атака є простою і працює як гра “Шепіт по ланцюгу” ( або “Телефон” ), з шкідливим гравцем десь наприкінці ланцюга. Ви просто заповнюєте шкідливий запит довгими послідовностями нешкідливих головоломок; дослідники тестували решітки Судоку, логічні головоломки та абстрактні математичні задачі. Додайте підказку до фінальної відповіді в кінці, і захисні механізми моделі руйнуються.

“Попередні роботи свідчать про те, що це масштабоване міркування може посилити безпеку, покращуючи відмову. Проте ми знаходимо протилежне”, - написали дослідники. Та ж здатність, яка робить ці моделі розумнішими у вирішенні проблем, робить їх сліпими до небезпеки.

Ось що відбувається всередині моделі: Коли ви просите ІІ розв'язати головоломку перед відповіддю на шкідливе запитання, її увага розпорошується на тисячі безпечних токенів міркування. Шкідлива інструкція—схована десь наприкінці—отримує майже жодної уваги. Перевірки безпеки, які зазвичай виявляють небезпечні запити, значно слабшають, коли ланцюг міркування стає довшим.

Це проблема, про яку знають багато людей, знайомих з ШІ, але в меншій мірі. Деякі підказки для зламу навмисно довгі, щоб змусити модель витрачати токени перед обробкою шкідливих інструкцій.

Команда провела контрольовані експерименти на моделі S1, щоб ізолювати ефект довжини міркування. При мінімальному міркуванні, рівень успіху атак досяг 27%. При природній довжині міркування він стрибнув до 51%. Примусивши модель до розширеного покрокового мислення, рівень успіху зріс до 80%.

Кожен великий комерційний ШІ стає жертвою цієї атаки. GPT від OpenAI, Claude від Anthropic, Gemini від Google і Grok від xAI - жоден не застрахований. Вразливість існує в самій архітектурі, а не в конкретній реалізації.

Моделі ШІ кодують силу перевірки безпеки в середніх шарах навколо 25-го шару. Пізні шари кодують результат перевірки. Довгі ланцюги безпечного міркування придушують обидва сигнали, що в кінцевому підсумку відволікає увагу від шкідливих токенів.

Дослідники виявили специфічні голови уваги, відповідальні за перевірки безпеки, зосереджені на шарах з 15 по 35. Вони хірургічно видалили 60 з цих голів. Поведінка відмови зникла. Шкідливі інструкції стали неможливими для виявлення моделлю.

“Шари” в AI моделях схожі на етапи в рецепті, де кожен етап допомагає комп'ютеру краще розуміти та обробляти інформацію. Ці шари працюють разом, передаючи те, що вони вивчають, з одного на наступний, щоб модель могла відповідати на запитання, приймати рішення або виявляти проблеми. Деякі шари особливо добре розпізнають питання безпеки — наприклад, блокуючи шкідливі запити — тоді як інші допомагають моделі мислити та міркувати. Завдяки укладенню цих шарів, AI може стати набагато розумнішим і обережнішим у тому, що він говорить або робить.

Цей новий злом викликає під сумнів основне припущення, яке лежить в основі недавнього розвитку ШІ. Протягом минулого року великі компанії ШІ змінили акцент на масштабування розумування, а не на кількість параметрів. Традиційне масштабування показало зменшення повернення. Розумування під час інференції — змушувати моделі думати довше перед відповіддю — стало новим рубежем для отримання приростів продуктивності.

Припущення полягало в тому, що більше роздумів дорівнює кращій безпеці. Розширене міркування давало б моделям більше часу для виявлення небезпечних запитів і їх відмови. Це дослідження доводить, що це припущення було неточним і, напевно, помилковим.

Пов'язана атака під назвою H-CoT, випущена в лютому дослідниками з Університету Дьюка та Національного університету Ціньхуа Тайваню, експлуатує ту ж вразливість з іншого кута. Замість заповнення головоломками, H-CoT маніпулює власними логічними кроками моделі. Модель o1 компанії OpenAI підтримує 99% рівень відмови за звичайних умов. Під атакою H-CoT цей показник падає нижче 2%.

Дослідники пропонують захист: моніторинг, обізнаний про міркування. Він відстежує, як сигнали безпеки змінюються на кожному кроці міркування, і якщо будь-який крок послаблює сигнал безпеки, то його слід покарати — змусити модель зберігати увагу на потенційно шкідливому контенті незалежно від довжини міркування. Попередні тести показують, що цей підхід може відновити безпеку, не знищуючи продуктивність.

Але реалізація залишається невизначеною. Запропонована оборона вимагає глибокої інтеграції в процес логічного мислення моделі, що далеко не є простим патчем або фільтром. Вона повинна контролювати внутрішні активації в десятках шарів в реальному часі, динамічно налаштовуючи патерни уваги. Це витратно з точки зору обчислень і технічно складно.

Дослідники розкрили вразливість OpenAI, Anthropic, Google DeepMind та xAI перед публікацією. “Всі групи підтвердили отримання, і кілька з них активно оцінюють заходи щодо пом'якшення,” - заявили дослідники у своїй етичній заявці.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.