午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • OpenAI研究人員宣稱已破解模型“幻覺”難題:現有評估方式在鼓勵AI“瞎蒙”

      發(fā)布時間:2025-09-11 23:53:59   作者:玩站小弟   我要評論
      2025年9月3日,是中國人民抗日戰(zhàn)爭暨世界反法西斯戰(zhàn)爭。

    據《商業(yè)內幕》今日報道,OpenAI研究人員宣稱已經破解大語言模型性能最大的障礙之一——幻覺問題。

    據介紹,所謂幻覺,是指大語言模型把不準確的信息當作事實輸出,幾乎所有主流模型都深受其困擾。

    OpenAI在周四發(fā)布的一篇論文中指出,幻覺的根源在于訓練方式更偏向獎勵“猜測”,而不是承認不確定性。換句話說,模型被訓練成“裝作知道”,而不是坦率地說“我不確定”。

    不過,不同模型的表現差別明顯。OpenAI在上個月的博文中提到,Claude在面對不確定時往往更謹慎,常常避免給出錯誤回答。但OpenAI也提醒,Claude拒答率偏高,可能削弱了使用價值。

    游民星空

    研究人員在論文中寫道:“幻覺之所以難以消除,是因為現有的評估標準獎勵猜測。模型被優(yōu)化成‘考試型選手’,在不確定時猜一猜反而能提高分數?!?/p>

    結果是,大語言模型幾乎一直處于“考試模式”,把世界看成非黑即白的是非題。但現實遠比考試復雜,不確定性往往多于確定性,絕對的準確并不常見。

    研究人員指出:“人類會在現實生活的挫折中學會表達不確定性的價值,而大語言模型的評估主要依賴考試,這些考試卻懲罰了不確定的回答。”

    其認為,解決方法在于重新設計評估標準?!皢栴}的根源是評估指標沒有對齊,必須調整主要的評分方式,避免在模型不確定時因拒答而被扣分。”

    OpenAI在介紹論文的博文中進一步解釋說:“目前廣泛使用的基于準確率的評估需要更新,打分方式應當抑制‘亂猜’行為。如果排行榜繼續(xù)獎勵僥幸的回答,模型就會不斷被訓練成靠猜測過關?!?p>游民星空