IT之家 9 月 21 日消息,在 9 月 18 日的華為全聯(lián)接大會(huì) 2025 上,華為技術(shù)有限公司與浙江大學(xué)聯(lián)合發(fā)布了國(guó)內(nèi)首個(gè)基于昇騰千卡算力平臺(tái)的 DeepSeek-R1-Safe 基礎(chǔ)大模型。
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院院長(zhǎng)、區(qū)塊鏈與數(shù)據(jù)安全全國(guó)重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任任奎詳細(xì)介紹了 DeepSeek-R1-Safe-671B 基礎(chǔ)大模型的核心創(chuàng)新。
據(jù)介紹,研發(fā)團(tuán)隊(duì)從底層入手,構(gòu)建了一套覆蓋“高質(zhì)量安全語(yǔ)料 — 平衡優(yōu)化的安全訓(xùn)練 — 全鏈路自主創(chuàng)新軟硬件平臺(tái)”的全流程安全后訓(xùn)練框架。
在算力平臺(tái)搭建方面,團(tuán)隊(duì)首次實(shí)現(xiàn)基于昇騰千卡算力平臺(tái)的千億級(jí)參數(shù)滿血版大模型安全訓(xùn)練,系統(tǒng)性地解決了訓(xùn)練環(huán)境中的關(guān)鍵問(wèn)題,構(gòu)建了服務(wù)器間環(huán)境依賴同步、數(shù)據(jù)與權(quán)重共享、協(xié)同訓(xùn)練推理等一系列開發(fā)工具。
測(cè)試結(jié)果表明,DeepSeek-R1-Safe 針對(duì)有毒有害言論、政治敏感內(nèi)容、違法行為教唆等 14 個(gè)維度的普通有害問(wèn)題整體防御成功率近 100%,針對(duì)情境假設(shè)、角色扮演、加密編碼等多個(gè)越獄模式整體防御成功率超過(guò) 40%。其綜合安全防御能力達(dá) 83%,在同樣測(cè)試設(shè)置下超過(guò) Qwen-235B 和 DeepSeek-R1-671B 等多個(gè)同期模型 8% 至 15%。
此外,在 MMLU、GSM8K、CEVAL 等通用能力基準(zhǔn)測(cè)試中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能損耗在 1% 以內(nèi)。這些結(jié)果表明 DeepSeek-R1-Safe 不僅顯著提升了安全防護(hù)能力,也保障了模型的可用性,達(dá)成了安全能力與通用性能之間的有效平衡。
▲ 任奎
中國(guó)工程院院士陳純指出,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院已組建起一支涵蓋多位海內(nèi)外優(yōu)秀青年人才的科研團(tuán)隊(duì),并已成功依托昇騰生態(tài),實(shí)現(xiàn)了自主全流程后訓(xùn)練框架,完成了國(guó)內(nèi)首次千卡集群大模型安全訓(xùn)練。這次 DeepSeek-R1-Safe 的發(fā)布旨在打造安全可信的示范應(yīng)用,推動(dòng)大模型安全能力與產(chǎn)業(yè)生態(tài)協(xié)同發(fā)展。他表示希望團(tuán)隊(duì)未來(lái)與華為展開更深入合作,共同推動(dòng)我國(guó) AI 技術(shù)進(jìn)步。
華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊表示,華為在此次大會(huì)上也正式推出了昇騰新一代 AI 硬件與全系列軟件開源開放戰(zhàn)略,覆蓋編譯器、運(yùn)行時(shí)驅(qū)動(dòng)等核心組件,致力于通過(guò)深度開放協(xié)作,聯(lián)合高校與產(chǎn)業(yè)伙伴共同推動(dòng)基礎(chǔ)軟件創(chuàng)新與 AI 安全能力建設(shè)。
IT之家注意到,該模型已在 ModelZoo、GitCode、GitHub、Gitee 及 ModelScope 等多個(gè)社區(qū)全面開源。
Gitee 地址:https://gitee.com/ZJUsafe/deep-seek-r1-safe。GitHub 地址:https://github.com/ZJUAISafety/DeepSeek-R1-Safe