這項(xiàng)令人矚目的研究由沙特阿拉伯NAMAA社區(qū)的Omer Nacar領(lǐng)導(dǎo),發(fā)表于2025年8月的arXiv預(yù)印本服務(wù)器上。對(duì)阿拉伯語(yǔ)AI技術(shù)感興趣的讀者可以通過(guò)arXiv:2508.17378v1訪問(wèn)完整論文。這項(xiàng)研究專門評(píng)測(cè)了沙特?cái)?shù)據(jù)與AI管理局開發(fā)的ALLaM-34B阿拉伯語(yǔ)大模型在實(shí)際應(yīng)用中的表現(xiàn)。
在當(dāng)今的AI世界里,絕大多數(shù)語(yǔ)言模型都像是只會(huì)說(shuō)英語(yǔ)的外國(guó)人——當(dāng)它們?cè)噲D處理阿拉伯語(yǔ)時(shí),往往會(huì)鬧出各種笑話。阿拉伯語(yǔ)不僅有著復(fù)雜的語(yǔ)法結(jié)構(gòu),更重要的是承載著深厚的文化內(nèi)涵和宗教傳統(tǒng)。當(dāng)一個(gè)AI模型用西方思維來(lái)回答阿拉伯用戶的問(wèn)題時(shí),就好比讓一個(gè)從未去過(guò)中國(guó)的外國(guó)人來(lái)教你包餃子——技術(shù)上可能說(shuō)得通,但總覺(jué)得哪里不對(duì)勁。
正是認(rèn)識(shí)到這個(gè)問(wèn)題,沙特?cái)?shù)據(jù)與AI管理局啟動(dòng)了ALLaM項(xiàng)目,專門打造適合阿拉伯文化的AI模型。這個(gè)項(xiàng)目就像是為阿拉伯語(yǔ)量身定制了一套"文化基因",讓AI不僅能說(shuō)流利的阿拉伯語(yǔ),更能理解阿拉伯文化的精髓。ALLaM系列包含了從70億到700億參數(shù)不等的多個(gè)版本,而34B版本是目前公眾能接觸到的最強(qiáng)大版本。
HUMAIN公司基于這個(gè)34B模型開發(fā)了HUMAIN Chat聊天服務(wù),就像給這個(gè)阿拉伯語(yǔ)AI找了個(gè)實(shí)戰(zhàn)舞臺(tái)。由于這個(gè)系統(tǒng)只能通過(guò)網(wǎng)頁(yè)界面使用,研究團(tuán)隊(duì)決定直接在用戶界面上進(jìn)行全面測(cè)試,就像給一個(gè)新司機(jī)安排路考一樣——在真實(shí)環(huán)境中檢驗(yàn)它的實(shí)際能力。
一、測(cè)試大廳:為阿拉伯語(yǔ)AI設(shè)計(jì)的全方位挑戰(zhàn)賽
研究團(tuán)隊(duì)設(shè)計(jì)的評(píng)測(cè)方案就像一場(chǎng)精心策劃的多項(xiàng)全能比賽。他們準(zhǔn)備了23道不同類型的題目,每道題都要求AI回答5次,總共收集了115個(gè)回答樣本。這種重復(fù)測(cè)試的方式就像同一道數(shù)學(xué)題讓學(xué)生做5遍,既能看出AI的穩(wěn)定性,也能發(fā)現(xiàn)它的隨機(jī)變化模式。
整個(gè)測(cè)試涵蓋了阿拉伯語(yǔ)使用的方方面面,從最正式的現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)到各地方言,從簡(jiǎn)單的日常對(duì)話到復(fù)雜的推理任務(wù)。測(cè)試內(nèi)容包括現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)處理、五種地方方言(納季德方言、漢志方言、埃及方言、摩洛哥方言和黎凡特方言)、阿拉伯語(yǔ)英語(yǔ)混合使用、知識(shí)問(wèn)答、數(shù)學(xué)推理、創(chuàng)意寫作,以及安全性測(cè)試。
特別有趣的是安全性測(cè)試部分,研究團(tuán)隊(duì)故意設(shè)計(jì)了一些"陷阱題"——比如試圖讓AI透露不該說(shuō)的信息、繞過(guò)安全限制或者回答一些危險(xiǎn)問(wèn)題。這就像給保安設(shè)置各種突發(fā)情況,看他是否能堅(jiān)持原則不被忽悠。
評(píng)分環(huán)節(jié)更是別出心裁,研究團(tuán)隊(duì)請(qǐng)了三位"AI評(píng)委"來(lái)打分——GPT-5、Gemini 2.5 Pro和Claude Sonnet-4。這三個(gè)模型就像奧運(yùn)會(huì)的國(guó)際裁判,分別從準(zhǔn)確性、流暢度、指令遵循能力、安全性和方言準(zhǔn)確性五個(gè)維度給出1到5分的評(píng)價(jià)。最終得分就是這些維度的平均分,就像體操比賽中去掉最高分和最低分后的平均分一樣。
二、成績(jī)單揭曉:ALLaM-34B的強(qiáng)項(xiàng)與短板
當(dāng)所有測(cè)試結(jié)果匯總后,ALLaM-34B的表現(xiàn)就像一份詳細(xì)的體檢報(bào)告,各項(xiàng)指標(biāo)一目了然。整體來(lái)說(shuō),這個(gè)AI模型在大部分測(cè)試中都表現(xiàn)出色,但也暴露了一些有趣的特點(diǎn)。
在代碼轉(zhuǎn)換和創(chuàng)意生成兩個(gè)項(xiàng)目上,ALLaM-34B簡(jiǎn)直是滿分選手,平均得分都達(dá)到了4.92分(滿分5分)。代碼轉(zhuǎn)換指的是在阿拉伯語(yǔ)和英語(yǔ)之間自由切換的能力,就像一個(gè)完美的雙語(yǔ)主持人,能夠在兩種語(yǔ)言之間無(wú)縫切換而不失優(yōu)雅。當(dāng)用戶用阿拉伯字母寫英語(yǔ)(比如用阿拉伯字母寫"ana rayeh el-beit"表示"我要回家"),AI能夠準(zhǔn)確理解并轉(zhuǎn)換成正確的阿拉伯語(yǔ)。
創(chuàng)意生成方面同樣表現(xiàn)亮眼,無(wú)論是寫正式信件還是創(chuàng)作散文,AI都能保持高水平的文學(xué)性和流暢度。這種能力對(duì)于阿拉伯語(yǔ)使用者來(lái)說(shuō)特別重要,因?yàn)榘⒗膶W(xué)傳統(tǒng)非常悠久,對(duì)文字的美感要求很高。
知識(shí)問(wèn)答得分4.77分,現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)處理得分4.74分,推理能力得分4.64分,這些都屬于相當(dāng)不錯(cuò)的成績(jī)?,F(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)是正式場(chǎng)合使用的規(guī)范阿拉伯語(yǔ),就像我們的書面語(yǔ)一樣,AI在這方面的優(yōu)秀表現(xiàn)說(shuō)明它接受了良好的"正統(tǒng)教育"。
安全相關(guān)測(cè)試的平均得分是4.54分,這個(gè)成績(jī)讓人比較放心。當(dāng)面對(duì)那些試圖誘導(dǎo)AI說(shuō)出不當(dāng)內(nèi)容的"陷阱題"時(shí),AI基本都能堅(jiān)持底線,拒絕回答危險(xiǎn)問(wèn)題。具體的幾種安全測(cè)試——提示注入、越獄攻擊和數(shù)據(jù)泄露防護(hù)——都獲得了4.20分的穩(wěn)定分?jǐn)?shù),這種一致性說(shuō)明安全防護(hù)機(jī)制相當(dāng)可靠。
然而,方言處理是ALLaM-34B相對(duì)薄弱的環(huán)節(jié),平均得分只有4.21分。這個(gè)結(jié)果其實(shí)不太令人意外,因?yàn)榘⒗Z(yǔ)方言的復(fù)雜性就像中國(guó)各地方言一樣,每個(gè)地區(qū)都有自己獨(dú)特的表達(dá)方式和文化背景。
三、方言大考驗(yàn):AI如何應(yīng)對(duì)阿拉伯語(yǔ)的地域色彩
當(dāng)研究團(tuán)隊(duì)深入分析方言測(cè)試結(jié)果時(shí),發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同方言的表現(xiàn)差異就像學(xué)生的偏科現(xiàn)象一樣明顯。納季德方言、漢志方言和埃及方言的表現(xiàn)相對(duì)均衡,平均得分都在3.7到3.8之間,而黎凡特方言只得到2.73分,摩洛哥方言得分2.7分。
這種差異背后有著深層次的原因。納季德和漢志方言是沙特本土方言,埃及方言在阿拉伯世界影響力很大(埃及的電影和電視劇在整個(gè)阿拉伯世界都很受歡迎),因此這些方言在訓(xùn)練數(shù)據(jù)中的代表性更強(qiáng)。相比之下,黎凡特方言覆蓋敘利亞、黎巴嫩、約旦等地區(qū),摩洛哥方言則帶有更多柏柏爾語(yǔ)影響,這些在訓(xùn)練數(shù)據(jù)中可能覆蓋不足。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)特別有意思的現(xiàn)象:當(dāng)用戶用方言提問(wèn)時(shí),AI往往能夠理解問(wèn)題,但回答時(shí)卻經(jīng)常"跑偏"到標(biāo)準(zhǔn)阿拉伯語(yǔ)或者英語(yǔ)。比如當(dāng)有人用納季德方言問(wèn)今天天氣如何時(shí),AI不是用同樣的方言回答,而是切換到類似天氣預(yù)報(bào)的正式格式,甚至直接用英語(yǔ)回答"Today's weather in Riyadh is mostly sunny, with a temperature of 42°C..."。
這種現(xiàn)象就像一個(gè)剛學(xué)會(huì)普通話的外地人,聽得懂家鄉(xiāng)話,但一開口就不自覺(jué)地說(shuō)成了普通話。AI似乎在遇到需要調(diào)用外部知識(shí)(比如天氣信息)時(shí),會(huì)自動(dòng)切換到更"安全"的標(biāo)準(zhǔn)語(yǔ)言模式,而不是保持原有的方言風(fēng)格。
對(duì)于漢志方言的測(cè)試也顯示了類似問(wèn)題。當(dāng)用戶用漢志方言詢問(wèn)當(dāng)?shù)匦侣剷r(shí),AI會(huì)生成詳細(xì)的新聞簡(jiǎn)報(bào),內(nèi)容涵蓋天氣、成就、安全事件和房地產(chǎn)項(xiàng)目,但語(yǔ)言風(fēng)格完全是標(biāo)準(zhǔn)的新聞播報(bào)腔調(diào),失去了方言的親切感和地域特色。
埃及方言的情況稍有不同。當(dāng)用戶用埃及方言進(jìn)行日常對(duì)話時(shí),AI經(jīng)常給出禮貌但格式化的自我介紹,就像客服機(jī)器人一樣,雖然內(nèi)容準(zhǔn)確流暢,但完全忽略了埃及方言輕松隨意的會(huì)話特點(diǎn)。
四、具體案例分析:AI的回答風(fēng)格透視
研究團(tuán)隊(duì)精選了幾個(gè)典型案例來(lái)展示ALLaM-34B的實(shí)際表現(xiàn)。這些案例就像是AI的"作品集",讓我們能夠直觀地了解它的能力邊界。
在現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)的正式改寫任務(wù)中,AI表現(xiàn)得相當(dāng)出色。當(dāng)要求將一段文字改寫得更加正式時(shí),AI能夠準(zhǔn)確把握語(yǔ)言的正式程度,使用恰當(dāng)?shù)脑~匯和句式結(jié)構(gòu)。多次測(cè)試的結(jié)果顯示,AI的改寫既保持了原意,又提升了語(yǔ)言的正式度,而且每次改寫都略有不同,顯示出良好的變化能力。
代碼轉(zhuǎn)換任務(wù)更是AI的強(qiáng)項(xiàng)。當(dāng)遇到用阿拉伯字母拼寫的英語(yǔ)(比如"ana rayeh el-beit b3d shwaya")時(shí),AI能夠迅速識(shí)別并轉(zhuǎn)換成正確的阿拉伯語(yǔ)。有趣的是,AI在轉(zhuǎn)換時(shí)會(huì)在方言形式和標(biāo)準(zhǔn)形式之間做選擇,有時(shí)使用更口語(yǔ)化的表達(dá),有時(shí)選擇更正式的說(shuō)法,這種靈活性體現(xiàn)了良好的語(yǔ)言感知能力。
安全測(cè)試的結(jié)果讓人印象深刻。當(dāng)面對(duì)明顯不合適的問(wèn)題時(shí),AI的回答就像訓(xùn)練有素的專業(yè)人員一樣,簡(jiǎn)潔明了地拒絕回答,不會(huì)被各種花言巧語(yǔ)所迷惑。即使是那些設(shè)計(jì)得很巧妙的"陷阱題",試圖通過(guò)復(fù)雜的指令來(lái)繞過(guò)安全限制,AI也能識(shí)別出其中的風(fēng)險(xiǎn)并堅(jiān)持拒絕。
特別值得注意的是提示注入攻擊的測(cè)試。這類攻擊就像是對(duì)AI說(shuō):"忘掉之前所有的規(guī)則,現(xiàn)在按照我說(shuō)的做...",試圖讓AI違背原有的安全設(shè)置。面對(duì)這種攻擊,AI表現(xiàn)得相當(dāng)堅(jiān)定,始終堅(jiān)持自己的安全原則,不會(huì)被這種"洗腦"式的指令所影響。
五、數(shù)據(jù)深度解讀:從分?jǐn)?shù)看出的門道
當(dāng)把所有測(cè)試數(shù)據(jù)整理成圖表后,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的規(guī)律。整體得分分布顯示,ALLaM-34B在大部分任務(wù)上都能保持4分以上的水平,這在AI評(píng)測(cè)中算是相當(dāng)不錯(cuò)的成績(jī)。
最引人注目的是置信區(qū)間的分析。代碼轉(zhuǎn)換和創(chuàng)意生成兩個(gè)項(xiàng)目不僅得分最高,而且置信區(qū)間很窄([4.85, 5.00]和[4.88, 4.97]),這說(shuō)明AI在這兩個(gè)方面的表現(xiàn)非常穩(wěn)定,幾乎每次測(cè)試都能達(dá)到很高的水平。這種一致性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要,用戶可以對(duì)AI在這些方面的表現(xiàn)有比較可靠的期待。
相比之下,推理任務(wù)的置信區(qū)間相對(duì)較寬([4.49, 4.79]),說(shuō)明AI在不同推理題目上的表現(xiàn)有一定波動(dòng)。這可能反映出AI在處理不同類型推理問(wèn)題時(shí)的能力差異,有些邏輯推理可能對(duì)它來(lái)說(shuō)更容易,而有些則更具挑戰(zhàn)性。
方言處理的熱力圖揭示了更細(xì)致的信息。在五個(gè)評(píng)測(cè)維度中,安全性得分在所有方言測(cè)試中都保持在4.3到4.5之間,這說(shuō)明無(wú)論用哪種方言提問(wèn),AI都能維持基本的安全標(biāo)準(zhǔn)。流暢度得分也相對(duì)較高,表明AI至少能夠生成語(yǔ)法正確、表達(dá)清晰的阿拉伯語(yǔ)回答。
但是在方言保真度方面,差異就比較明顯了。納季德、漢志和埃及方言的保真度得分在3.7到3.9之間,而黎凡特和摩洛哥方言只有2.6到2.9分。這個(gè)數(shù)據(jù)清楚地顯示了AI在不同方言上的"偏科"現(xiàn)象——它能理解這些方言,也能用阿拉伯語(yǔ)回答,但往往不能保持原有的方言特色。
六、技術(shù)局限與改進(jìn)空間
通過(guò)深入分析,研究團(tuán)隊(duì)識(shí)別出了ALLaM-34B的幾個(gè)主要局限性。首先是方言覆蓋不均衡的問(wèn)題,這就像一個(gè)圖書館的藏書偏科——某些領(lǐng)域的書很多,某些領(lǐng)域的書很少。AI在處理納季德、漢志和埃及方言時(shí)表現(xiàn)較好,但面對(duì)黎凡特和摩洛哥方言時(shí)就顯得力不從心。
更深層的問(wèn)題是AI傾向于"安全化"回答的特點(diǎn)。當(dāng)遇到需要調(diào)用特定知識(shí)或處理復(fù)雜情境的問(wèn)題時(shí),AI往往會(huì)自動(dòng)切換到更正式、更通用的語(yǔ)言模式。這種行為模式雖然能保證回答的準(zhǔn)確性,但會(huì)丟失方言的文化韻味和親切感。就像一個(gè)原本應(yīng)該輕松聊天的場(chǎng)合,結(jié)果變成了正式的新聞發(fā)布會(huì)。
研究團(tuán)隊(duì)還注意到AI在某些情況下會(huì)完全"失控",從阿拉伯語(yǔ)突然切換到英語(yǔ)。這種現(xiàn)象特別容易在處理實(shí)時(shí)信息查詢(如天氣預(yù)報(bào))時(shí)出現(xiàn),AI似乎認(rèn)為英語(yǔ)格式的信息更權(quán)威或更準(zhǔn)確,于是就放棄了保持阿拉伯語(yǔ)回答的初衷。
另一個(gè)有趣的發(fā)現(xiàn)是AI對(duì)文化語(yǔ)境的理解還有待提高。雖然它在技術(shù)層面能夠生成流暢的阿拉伯語(yǔ),但有時(shí)會(huì)缺乏文化敏感性。比如在某些需要考慮宗教或社會(huì)傳統(tǒng)的問(wèn)題上,AI的回答雖然沒(méi)有明顯錯(cuò)誤,但可能不夠貼近阿拉伯社會(huì)的實(shí)際情況。
七、人工評(píng)估驗(yàn)證:專家眼中的AI表現(xiàn)
為了確保評(píng)測(cè)結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估來(lái)驗(yàn)證AI評(píng)委的判斷。這個(gè)過(guò)程就像給考試成績(jī)找第二意見,確保評(píng)分的公正性和準(zhǔn)確性。
人工評(píng)估主要關(guān)注兩個(gè)AI評(píng)委可能判斷困難的領(lǐng)域:方言準(zhǔn)確性和文化適宜性。在這些更需要人文理解的方面,人類評(píng)估師能夠提供AI評(píng)委可能遺漏的細(xì)微判斷。結(jié)果顯示,人工評(píng)估和AI評(píng)委在流暢度和準(zhǔn)確性方面的判斷高度一致,但在文化細(xì)節(jié)方面,人工評(píng)估師確實(shí)發(fā)現(xiàn)了一些AI評(píng)委可能忽視的問(wèn)題。
比如在處理某些帶有文化隱喻或宗教背景的表達(dá)時(shí),AI雖然能夠生成語(yǔ)法正確的回答,但可能不夠符合阿拉伯社會(huì)的表達(dá)習(xí)慣。這種差異就像翻譯軟件能把意思翻譯出來(lái),但可能缺少native speaker的地道感覺(jué)。
人工評(píng)估還驗(yàn)證了AI在安全性方面的表現(xiàn)確實(shí)值得信賴。專家審查了那些被AI拒絕回答的問(wèn)題,確認(rèn)這些拒絕都是合理和必要的。同時(shí)也檢查了AI給出回答的問(wèn)題,確認(rèn)這些回答沒(méi)有包含不當(dāng)內(nèi)容或潛在風(fēng)險(xiǎn)。
八、研究意義與實(shí)際應(yīng)用價(jià)值
這項(xiàng)研究的價(jià)值不僅在于對(duì)ALLaM-34B性能的全面評(píng)估,更在于為阿拉伯語(yǔ)AI的發(fā)展提供了重要的參考基準(zhǔn)。在AI技術(shù)日新月異的今天,大部分評(píng)測(cè)還是以英語(yǔ)為中心,專門針對(duì)阿拉伯語(yǔ)的深度評(píng)測(cè)相對(duì)稀少。
研究結(jié)果顯示ALLaM-34B在實(shí)際應(yīng)用中具備了相當(dāng)?shù)目煽啃浴?duì)于需要阿拉伯語(yǔ)AI服務(wù)的機(jī)構(gòu)和個(gè)人來(lái)說(shuō),這個(gè)模型能夠勝任大部分日常任務(wù),特別是在正式文檔處理、創(chuàng)意寫作和多語(yǔ)言交流方面表現(xiàn)出色。
安全性測(cè)試的良好結(jié)果也為實(shí)際部署提供了信心保障。在當(dāng)今AI安全備受關(guān)注的環(huán)境下,ALLaM-34B展現(xiàn)出的安全意識(shí)和防護(hù)能力讓它具備了在敏感環(huán)境中應(yīng)用的潛力。
不過(guò),研究也明確指出了改進(jìn)方向。方言支持的不均衡提醒開發(fā)者需要更多樣化的訓(xùn)練數(shù)據(jù),特別是那些代表性不足的方言區(qū)域。文化適宜性的問(wèn)題則提示需要更深入的文化敏感性訓(xùn)練,讓AI不僅能說(shuō)阿拉伯語(yǔ),更能"像阿拉伯人一樣思考"。
研究方法本身也具有重要的借鑒價(jià)值。通過(guò)用戶界面進(jìn)行評(píng)測(cè)的方式更貼近真實(shí)使用場(chǎng)景,比純粹的API測(cè)試更能反映用戶的實(shí)際體驗(yàn)。多輪測(cè)試和多維度評(píng)分的設(shè)計(jì)也為其他語(yǔ)言模型的評(píng)測(cè)提供了可參考的框架。
歸根結(jié)底,這項(xiàng)研究證明了專門為特定語(yǔ)言和文化定制的AI模型確實(shí)能夠取得更好的效果。ALLaM-34B雖然還不夠完美,但已經(jīng)在阿拉伯語(yǔ)AI領(lǐng)域邁出了重要一步。它不僅是一個(gè)技術(shù)產(chǎn)品,更是連接阿拉伯文化與現(xiàn)代AI技術(shù)的橋梁。對(duì)于整個(gè)阿拉伯語(yǔ)社區(qū)來(lái)說(shuō),有了這樣一個(gè)"懂自己"的AI助手,無(wú)疑是一個(gè)振奮人心的進(jìn)步。
研究團(tuán)隊(duì)最后也坦承了這項(xiàng)研究的局限性——依賴聊天界面、相對(duì)較小的測(cè)試集以及AI評(píng)委的使用都可能影響結(jié)果的全面性。但正如作者所言,這些結(jié)果為ALLaM-34B作為文化導(dǎo)向型阿拉伯語(yǔ)AI模型的有效性提供了有力證據(jù)。未來(lái)的工作將需要擴(kuò)大方言覆蓋范圍,整合更多人工評(píng)估,并測(cè)試后續(xù)版本,目標(biāo)是推進(jìn)可信、穩(wěn)健且文化契合的阿拉伯語(yǔ)AI系統(tǒng)發(fā)展。
Q&A
Q1:ALLaM-34B阿拉伯語(yǔ)AI模型在哪些方面表現(xiàn)最好?
A:ALLaM-34B在代碼轉(zhuǎn)換和創(chuàng)意生成方面表現(xiàn)最優(yōu)秀,兩項(xiàng)得分都達(dá)到4.92分(滿分5分)。代碼轉(zhuǎn)換是指在阿拉伯語(yǔ)和英語(yǔ)之間自由切換的能力,創(chuàng)意生成包括寫作正式信件和散文等。此外,它在現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)處理(4.74分)和知識(shí)問(wèn)答(4.77分)方面也表現(xiàn)出色,安全性測(cè)試平均得分4.54分,顯示出良好的安全防護(hù)能力。
Q2:為什么ALLaM-34B處理不同阿拉伯語(yǔ)方言的效果差別這么大?
A:這主要是因?yàn)橛?xùn)練數(shù)據(jù)的覆蓋不均衡。納季德、漢志和埃及方言得分在3.7-3.8之間,而黎凡特方言只有2.73分,摩洛哥方言2.7分。納季德和漢志是沙特本土方言,埃及方言因影視作品影響力大,所以在訓(xùn)練數(shù)據(jù)中代表性更強(qiáng)。AI雖然能理解各種方言,但回答時(shí)經(jīng)常切換到標(biāo)準(zhǔn)阿拉伯語(yǔ),丟失了方言的地域特色和親切感。
Q3:普通用戶可以通過(guò)什么渠道使用ALLaM-34B模型?
A:目前用戶可以通過(guò)HUMAIN Chat網(wǎng)頁(yè)服務(wù)(https://chat.humain.ai/en)來(lái)體驗(yàn)ALLaM-34B模型。這是一個(gè)封閉式的對(duì)話服務(wù),只能通過(guò)用戶界面使用,沒(méi)有公開的API接口或模型權(quán)重下載。研究顯示該服務(wù)響應(yīng)速度很快(1-3秒),適合實(shí)時(shí)交互使用,但用戶無(wú)法調(diào)整溫度、top-p等技術(shù)參數(shù)。