OpenAI發佈CoT監控，阻止大模型惡意行為

DailyNews

2025-03-10 22:48:31

金色財經報道，OpenAI發佈了最新研究，用CoT（思維鏈）監控的方式，可以阻止大模型胡說八道、隱藏真實意圖等惡意行為，同時也是監督超級模型的有效工具之一。OpenAI使用了最新發布的前沿模型o3-mini作為被監控對象，並以較弱的GPT-4o模型作為監控器。測試環境為編碼任務，要求AI在代碼庫中實現功能以通過單元測試。結果顯示，CoT監控器在檢測系統性“獎勵黑客”行為時表現卓越，召回率高達95%，遠超僅監控行為的60%。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言