智東西編譯 程茜編輯 心緣
阿聯(lián)酋的高性能推理模型,剛剛開源!
智東西9月10日消息,今日上午,阿布扎比穆罕默德·本·扎耶德人工智能大學(MBZUAI)聯(lián)合AI創(chuàng)企G42推出的新低成本推理模型K2 Think,相關論文已arXiv預印本平臺發(fā)表,昨天下午模型在Hugging Face、GitHub上開源。
K2 Think有320億個參數,基于阿里巴巴的開源模型Qwen 2.5構建,性能超過參數規(guī)模是其20倍的OpenAI和DeepSeek旗艦推理模型。
在復雜數學任務基準測試中,研究人員計算了K2 Think在AIME24、AIME25、HMMT25和OMNI-Math-HARD中的平均得分,超過GPT-OSS、DeepSeek V3.1、Qwen3 235B-A22B等一眾開源模型。
技術報告中,研究人員提到K2 Think背后有六大技術創(chuàng)新協(xié)同,研究人員通過監(jiān)督微調擴展基礎模型的思維鏈能力,然后通過可驗證獎勵強化學習(RLVR)增強推理性能、利用推理時間技術增強模型,最后在部署K2-Think時進行兩項速度優(yōu)化,包括推測解碼和Cerebras的晶圓級芯片,同時使用公開可用的開源數據集訓練。
值得一提的是,研究人員將K2-Think部署在Cerebras晶圓級芯片WSE系統(tǒng),WSE每秒可交付約2000個token,相比在NVIDIA H100/H200 GPU等常規(guī)部署環(huán)境中觀測到的標稱每秒200個token,性能提升了10倍。
K2-Think背后有兩大強力推手:一方是穆罕默德?本?扎耶德人工智能大學(MBZUAI),這是阿拉伯聯(lián)合酋長國專門設立、聚焦AI研究的機構;另一方是阿布扎比支持的科技集團G42,不僅在2024年拿到微軟15億美元投資,還在阿聯(lián)酋建造OpenAI、軟銀等企業(yè)聯(lián)合投資的AI基建 “星際之門”。
該模型的權重、訓練數據、部署代碼和測試時優(yōu)化代碼已經在Hugging Face、GitHub上開源。
Hugging Face地址:
https://huggingface.co/LLM360/K2-Think
GitHub地址:
https://github.com/MBZUAI-IFM/K2-Think-SFT
https://github.com/MBZUAI-IFM/K2-Think-Inference
K2 Think主頁:
https://www.k2think.ai/
技術報告:
https://arxiv.org/abs/2509.07604
一、數學性能領先OpenAI、DeepSeek旗下開源模型,要為數學、科學提供特定用途服務
MBZUAI校長兼首席AI研究員Eric Xing在接受外媒WIRED采訪時透露,K2 Think是使用數千個GPU開發(fā)的,最終的訓練過程涉及200到300塊芯片。
K2 Think并非一個完整的大語言模型,是專門用于推理的模型,能夠通過模擬推理方式來回答復雜問題,而不是快速綜合信息來提供信息輸出,Xing提到,他們在未來幾個月將K2 Think整合到一個完整的大模型中。
在復雜數學領域,K2 Think在AIME 2024、AIME 2025、HMMT 2025 和 Omni-MATH-HARD四個基準測試中的平均得分為67.99分,超過規(guī)模更大的DeepSeek V3.1 671B、GPT-OSS 120B模型。
編程能力上,K2-Think在開源代碼能力基準LiveCodeBench上獲得63.97分,超越了規(guī)模相近的同類模型GPT-OSS 20B、Qwen3-30B-A3B。
在用于評估大模型將復雜科學問題轉化為可執(zhí)行代碼能力的SciCode基準測試中,K2-Think獲得39.2分排名第二,與第一名的Qwen3 235BA22B僅有0.1分之差。
在科學推理方面,模型在GPQA-Diamond基準測試中的表現(xiàn)為71.08,表現(xiàn)優(yōu)于除OpenReasoning-Nemotron-32B、GPT-OSS 120B之外的大多數開源模型。
MBZUAI基礎模型研究所所長Hector Liu提到,K2-Think的特別之處在于,他們將其視為一個系統(tǒng),他們的目標不是構建類似ChatGPT的聊天機器人,而是為數學和科學等領域的特定用途提供服務。
二、六項系統(tǒng)級創(chuàng)新,全訓練過程均采用開源數據集
K2-Think的技術報告顯示,其背后有六大技術創(chuàng)新,包括思維鏈監(jiān)督微調、可驗證獎勵強化學習(RLVR)、推理前的Agent規(guī)劃、測試時擴展、推測解碼和推理優(yōu)化硬件、僅使用公開可用的開源數據集訓練。
基于這種系統(tǒng)化的技術創(chuàng)新,K2-Think通過長鏈式思維監(jiān)督微調增強了邏輯深度、可驗證獎勵的強化學習提高了解決難題的準確率、Agent式規(guī)劃使模型能夠在推理前分解復雜挑戰(zhàn)、測試時擴展技術進一步提升了模型的適應性,最終實現(xiàn)性能對標更大參數規(guī)模模型。這使得模型能夠提供強大的思維鏈推理能力和近乎即時的響應時間。
在監(jiān)督微調階段,K2-Think使用思維鏈對基礎模型進行監(jiān)督微調。研究人員采用了現(xiàn)有的AM-Thinking-v1-Distilled數據集,該數據集由CoT推理痕跡和指令/響應對組成,提示來自數學推理、代碼生成、科學推理、指令遵循和一般聊天等任務。他們評估發(fā)現(xiàn),SFT模型在各個采樣預算下均優(yōu)于基礎模型。
在可驗證獎勵強化學習階段,可驗證獎勵強化學習通過直接優(yōu)化模型生成的正確性,降低了基于人類反饋強化學習(RLHF)基于偏好對齊的復雜性和成本。因此研究人員使用了Guru數據集,該數據集包含數學、編程、科學、邏輯、模擬和表格六個領域任務、近92000個可驗證問題。
在測試時間改進階段,為了進一步提升模型性能,研究人員開發(fā)了測試時框架,為訓練后的推理模型提供結構化輸入,包括推理前的Agent規(guī)劃,即“先計劃后思考”,以及使用Best-of-N采樣的測試時擴展。
▲模型從輸入到最終響應的信息流
從輸入到最終響應時,模型會重構提示以概述總體規(guī)劃、突出相關概念。然后這一增強的提示將通過K2-Think模型生成多個響應,最后對候選響應進行兩兩比較,最終選出最佳生成結果作為推理系統(tǒng)的最終輸出。
第四階段是部署,在具有挑戰(zhàn)性的數學證明或多步驟編碼問題中,一個典型復雜推理任務一般會生成32000個token的響應。在NVIDIA H100上,這可以在不到3分鐘的時間內完成,在WSE上,同樣32000個token的生成任務只需16秒。
這是因為GPU必須在每個token生成時不斷將權重從高帶寬內存?zhèn)鬏數紾PU核心,而WSE將所有模型權重存儲在海量片上內存中,充分利用每秒25PB的片上內存帶寬,比最新NVIDIA B200 GPU提供的0.008PB/s高出3000多倍。
結語:小參數模型經后期訓練,可媲美更大參數模型
K2-Think模型的性能證明,320億參數規(guī)模的模型經過后期訓練,能夠生成較長的推理思路鏈,并結合相對較少的測試時間計算,可以實現(xiàn)小模型與參數數量級更大的模型相媲美的能力。
MBZUAI基礎模型研究所的總經理Richard Morton認為,人腦的基本推理是所有思維過程的基礎,K2-Think的應用,可以縮短研究人員思考特定任務、進行臨床試驗的時間,從而將先進的AI技術擴大到AI基礎設施稀缺的地區(qū)。