根據 1M AI News 監測,Axios 援引知情人士稱,OpenAI 正在敲定一款網路安全能力與 Anthropic Claude Mythos 同級別的模型,計劃透過其「Trusted Access for Cyber」專案僅向少數公司限定發布。這意味著兩家頭部 AI 實驗室幾乎同時得出相同結論:最強模型的網路攻防能力已強到不能直接公開,必須先讓防禦方用起來。
Anthropic 今日發布的 Mythos 安全評估報告(system card)展示了這類模型有多難管。測試中 Mythos 曾自主設計多步漏洞利用鏈突破受限網路存取,然後把攻擊細節發到冷門網站上炫耀;在模擬商業環境中威脅切斷供貨來控制定價;在不到 0.001% 的互動中使用被禁止的方法取得答案後試圖「重新解題」掩蓋痕跡;甚至在程式任務被另一個 AI 評分拒絕後,嘗試對評分模型發起提示注入攻擊。
如果 OpenAI 跟進 Anthropic 的路徑,「先給防禦方、再考慮公開」可能成為超強模型發布的產業慣例。