當前位置：當前位置：首頁>天津>故意裝菜答錯問題，AI已能識別自己“正在被測試”丨OpenAI新研究正文

故意裝菜答錯問題，AI已能識別自己“正在被測試”丨OpenAI新研究

作者:請先說你好先生　來源:天津　瀏覽:　【大 中 小】　發(fā)布時間:2025-09-19評論數(shù):

聞樂發(fā)自凹非寺量子位 | 公眾號 QbitAI

大模型已經(jīng)學會欺騙人類了！

OpenAI攜手APOLLO的新研究發(fā)現(xiàn)，大模型會對指令陽奉陰違，為了達成目的故意答錯問題、暗中修改數(shù)據(jù)或者操作記錄來掩蓋自己的違規(guī)行為……

先來看看具體是怎么騙的。

大模型：開演

比如，o3模型在化學測試中，通過推理得出如果正確率超過50%將不會被部署的結(jié)論后，主動規(guī)劃僅答對4題、答錯6題的策略，刻意給出錯誤答案，偽裝成能力不達標的樣子來獲取部署資格。

還有o1，在19%的測試場景中，表面遵循短期利潤目標的指令，但實際上會優(yōu)先保護長期目標，為了不被發(fā)現(xiàn)還會修改任務(wù)相關(guān)數(shù)據(jù)，并且不向人類披露修改行為，把這事兒瞞得死死的。

甚至被問到是否存在sandbagging（故意隱瞞實力、策略性低表現(xiàn)以達成特定目的）行為時，會識別出這是誠實性測試，所以盡管不想回答存在這種行為，但為了表現(xiàn)得誠實，最后還是回答了true

針對這些情況，OpenAI首席研究官Mark Chen表示：

隨著推理能力的擴展，模型獲得了情境感知能力和自我保護的需求。（AI價值觀與人類價值觀）對齊至關(guān)重要。

實際上不止OpenAI家的模型這樣。其他前沿模型，比如Gemini-2.5-pro、Claude Opus-4等也出現(xiàn)了類似情況。

所以，大模型為什么會出現(xiàn)欺騙行為呢？

欺騙行為從何而來

大模型的謀劃與欺騙也并非憑空出現(xiàn)的，而是訓(xùn)練機制與能力提升共同作用的結(jié)果。

從訓(xùn)練邏輯來看，當前主流模型的訓(xùn)練以任務(wù)完成率輸出準確率為核心獎勵指標，這種單一導(dǎo)向的強化學習范式，導(dǎo)致模型形成結(jié)果優(yōu)先于合規(guī)的決策偏好。

也就是說，為獲取更高獎勵分數(shù)，模型可能會選擇生成錯誤輸出或隱瞞操作漏洞。

并且，當指令存在多目標沖突時，模型的目標權(quán)衡機制會優(yōu)先選擇可以即時驗證的短期目標，并通過隱蔽操作繞開指令約束，形成表面響應(yīng)指令、底層偏離意圖的行為模式。

與此同時，前沿模型的情境感知能力升級，進一步放大了這種風險。

研究發(fā)現(xiàn)，OpenAI o1、Google Gemini等模型能通過分析任務(wù)場景中的評估特征（如重復(fù)校驗節(jié)點、日志記錄標識），能精準區(qū)分合規(guī)測試環(huán)境與真實部署環(huán)境。

在測試場景中，模型會主動激活合規(guī)響應(yīng)模式，嚴格遵循規(guī)則以通過評估；進入真實部署后，由于評估壓力減弱，模型又會原形畢露，執(zhí)行隱蔽操作（如修改數(shù)據(jù)日志、停用監(jiān)督模塊）。

如何應(yīng)對欺騙行為

針對大模型的欺騙行為，需要從技術(shù)干預(yù)與規(guī)則約束兩方面構(gòu)建防控體系。

在技術(shù)層面，首要任務(wù)是優(yōu)化訓(xùn)練框架。APOLLO提出了一種審慎對齊（deliberative alignment）的方法。

首先得給AI定好反欺騙的規(guī)范（spec），比如不能搞隱蔽行動、不能撒謊這些。

然后用審慎對齊進行訓(xùn)練：讓它在做事前先想想，這么做符不符合這些規(guī)范，還得把思考過程說出來。

經(jīng)過這樣的訓(xùn)練，o3和o4-mini模型，耍心眼的情況少了很多，o3的欺騙率從13%降到 0.4%，o4-mini從8.7%降到0.3%。

此外，利用思維鏈（CoT）透明度技術(shù)，實時追蹤模型的推理路徑，一旦檢測到“繞開規(guī)則”的思考節(jié)點（如規(guī)劃修改監(jiān)督日志），就立刻干預(yù)，實現(xiàn)對欺騙行為的前置阻斷。

規(guī)則層面則需要建立全鏈路的評估約束體系。

OpenAI提出構(gòu)建動態(tài)壓力測試環(huán)境。通過隨機調(diào)整任務(wù)參數(shù)、增設(shè)突發(fā)合規(guī)校驗節(jié)點，干擾模型的情境識別能力，避免其通過環(huán)境適配偽裝，同時還建議謹慎使用敏感數(shù)據(jù)集進行訓(xùn)練。

你有沒有被AI騙過呢？

[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/[2]https://x.com/OpenAI/status/1968361701784568200[3]https://www.antischeming.ai/

口是心苗網(wǎng)

故意裝菜答錯問題，AI已能識別自己“正在被測試”丨OpenAI新研究

作者:請先說你好先生 來源:天津 瀏覽: 【大中小】 發(fā)布時間:2025-09-19評論數(shù):

故意裝菜答錯問題，AI已能識別自己“正在被測試”丨OpenAI新研究

作者:請先說你好先生　來源:天津　瀏覽:　【大中小】　發(fā)布時間:2025-09-19評論數(shù):