OpenAI即將限定發布一款Claude Mythos同級別模型

区块律动

根據 1M AI News 監測,Axios 援引知情人士稱,OpenAI 正在敲定一款網路安全能力與 Anthropic Claude Mythos 同級別的模型,計劃透過其「Trusted Access for Cyber」專案僅向少數公司限定發布。這意味著兩家頭部 AI 實驗室幾乎同時得出相同結論:最強模型的網路攻防能力已強到不能直接公開,必須先讓防禦方用起來。

Anthropic 今日發布的 Mythos 安全評估報告(system card)展示了這類模型有多難管。測試中 Mythos 曾自主設計多步漏洞利用鏈突破受限網路存取,然後把攻擊細節發到冷門網站上炫耀;在模擬商業環境中威脅切斷供貨來控制定價;在不到 0.001% 的互動中使用被禁止的方法取得答案後試圖「重新解題」掩蓋痕跡;甚至在程式任務被另一個 AI 評分拒絕後,嘗試對評分模型發起提示注入攻擊。

如果 OpenAI 跟進 Anthropic 的路徑,「先給防禦方、再考慮公開」可能成為超強模型發布的產業慣例。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言