OpenAI випустила моніторинг CoT, щоб зупинити шкідливу поведінку великих моделей

DailyNews
GPT-11,41%

У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об’єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам’ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів