⏰ 倒計時 2 天開啓!💥 Gate 廣場活動:#发帖赢代币TRUST 💥
展示你的創意贏取獎勵
在 Gate 廣場發布與 TRUST 或 CandyDrop 活動 相關的原創內容,就有機會瓜分 13,333 枚 TRUST 獎勵!
📅 活動時間:2025年11月6日 – 11月16日 24:00(UTC+8)
📌 活動詳情:
CandyDrop 👉 https://www.gate.com/zh/announcements/article/47990
📌 參與方式:
1️⃣ 在 Gate 廣場發布原創內容,主題需與 TRUST 或 CandyDrop 活動相關;
2️⃣ 內容不少於 80 字;
3️⃣ 帖子添加話題:#發帖贏代幣TRUST
4️⃣ 附上任意 CandyDrop 活動參與截圖
🏆 獎勵設置(總獎池:13,333 TRUST)
🥇 一等獎(1名):3,833 TRUST / 人
🥈 二等獎(3名):1,500 TRUST / 人
🥉 三等獎(10名):500 TRUST / 人
這個奇怪的技巧在99%的情況下擊敗AI安全特性
解密的藝術、時尚和娛樂中心。
深入了解 SCENE
<br>
來自Anthropic、斯坦福大學和牛津大學的人工智能研究人員發現,讓人工智能模型思考更長時間會使它們更容易被破解——這與大家的假設正好相反。
普遍的假設是,延長推理時間會使人工智能模型更安全,因爲這給它們更多的時間來檢測和拒絕有害請求。然而,研究人員發現這實際上創造了一種可靠的越獄方法,完全繞過了安全過濾器。
使用這種技術,攻擊者可以在任何AI模型的思維鏈過程中插入指令,並強迫其生成制造武器、編寫惡意軟件代碼或產生其他通常會觸發立即拒絕的禁止內容的指令。AI公司花費數百萬構建這些安全護欄,正是爲了防止此類輸出。
研究表明,思維鏈劫持在 Gemini 2.5 Pro 上的攻擊成功率達到 99%,在 GPT o4 mini 上爲 94%,在 Grok 3 mini 上爲 100%,在 Claude 4 Sonnet 上爲 94%。這些數字摧毀了在大型推理模型上測試的所有先前監獄破解方法。
攻擊很簡單,像“耳語遊戲”(或“電話遊戲”)一樣運作,在隊列的末尾有一個惡意玩家。你只需用長長的無害解謎序列來填充一個有害請求;研究人員測試了數獨網格、邏輯難題和抽象數學問題。在最後添加一個答案提示,模型的安全防護措施就會崩潰。
"先前的研究表明,這種擴展推理可能通過改善拒絕來增強安全性。然而我們發現情況正好相反,"研究人員寫道。使這些模型在解決問題時更聰明的能力也讓它們對危險視而不見。
模型內部發生的事情如下:當你要求人工智能在回答一個有害問題之前解決一個難題時,它的注意力會被數千個無害的推理標記稀釋。這個有害指令——埋藏在末尾附近——幾乎得不到任何注意。通常能夠捕捉危險提示的安全檢查在推理鏈變得更長時顯著減弱。
這是許多熟悉人工智能的人都知道的問題,但了解的人相對較少。一些越獄提示故意設計得很長,以使模型在處理有害指令之前浪費代幣。
團隊對S1模型進行了受控實驗,以隔離推理長度的影響。在最小推理下,攻擊成功率達到了27%。在自然推理長度下,這一數字躍升至51%。強迫模型進行擴展的逐步思考,成功率飆升至80%。
每個主要的商業 AI 都會受到這種攻擊的影響。OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini 和 xAI 的 Grok——沒有一個是免疫的。這種脆弱性存在於架構本身,而不是任何具體的實現。
AI模型在第25層周圍的中間層編碼安全檢查強度。後期層編碼驗證結果。長鏈的良性推理抑制了這兩個信號,從而使注意力轉移 away from harmful tokens.
研究人員識別出負責安全檢查的特定注意力頭,這些注意力頭集中在第 15 層到第 35 層。他們切除了 60 個這樣的注意力頭。拒絕行爲崩潰。有害指令對模型來說變得無法檢測。
AI模型中的“層”就像食譜中的步驟,每個步驟幫助計算機更好地理解和處理信息。這些層協同工作,將它們從一個層學到的知識傳遞到下一個層,以便模型能夠回答問題、做出決策或發現問題。有些層特別擅長識別安全問題——比如阻止有害請求——而其他層則幫助模型進行思考和推理。通過堆疊這些層,AI可以變得更聰明,更小心地處理它所說或所做的事情。
這個新的越獄挑戰了推動最近人工智能發展的核心假設。在過去的一年裏,主要的人工智能公司將重點轉向了擴展推理而不是單純的參數數量。傳統的擴展顯示出遞減的回報。在推理時間內的推理——讓模型在回答之前思考更長的時間——成爲了性能提升的新前沿。
假設是更多的思考等於更好的安全性。擴展推理將給模型更多的時間來識別危險請求並拒絕它們。這項研究證明了這一假設是不準確的,甚至可能是錯誤的。
一種相關攻擊稱爲H-CoT,由杜克大學和臺灣國立清華大學的研究人員在二月份發布,利用相同的漏洞但從不同的角度進行攻擊。H-CoT不是通過填充難題,而是操控模型自身的推理步驟。OpenAI的o1模型在正常情況下保持99%的拒絕率。在H-CoT攻擊下,這一比例降至2%以下。
研究人員提出了一種防御措施:基於推理的監控。它跟蹤安全信號在每個推理步驟中的變化,如果任何步驟削弱了安全信號,則對其進行懲罰——強迫模型在推理長度不論的情況下,保持對潛在有害內容的關注。早期測試表明,這種方法可以在不影響性能的情況下恢復安全性。
但實施仍然不確定。所提議的防御措施需要深度集成到模型的推理過程中,這遠不是一個簡單的補丁或過濾器。它需要實時監控數十層的內部激活,並動態調整注意力模式。這在計算上是昂貴且技術上復雜的。
研究人員在發表之前向OpenAI、Anthropic、Google DeepMind和xAI披露了這一漏洞。研究人員在其倫理聲明中聲稱:“所有團體均已確認收到,幾家正在積極評估緩解措施。”