傳統(tǒng)材料研發(fā)往往需要數(shù)年甚至數(shù)十年的“試錯(cuò)”實(shí)驗(yàn),成本高昂且效率低下。如今,人工智能正在改變這一局面,它強(qiáng)大的計(jì)算和篩選能力,有望將研發(fā)周期從“年”縮短至“天”。然而,在實(shí)際應(yīng)用中,現(xiàn)有的 AI 模型卻普遍存在一個(gè)根本性缺陷——“近視”。
為了攻克這一難題,上海交通大學(xué)人工智能與微結(jié)構(gòu)實(shí)驗(yàn)室(AIMS-Lab)李金金教授團(tuán)隊(duì)開(kāi)發(fā)了一種名為 CGformer 的全新 AI 材料設(shè)計(jì)算法。該算法從根本上革新了 AI 模型處理晶體結(jié)構(gòu)信息的方式,顯著提升了新材料性能預(yù)測(cè)的精準(zhǔn)度。
日前,相關(guān)成果以《CGformer:基于全局注意力機(jī)制增強(qiáng)的晶體圖 Transformer 網(wǎng)絡(luò)用于材料性能預(yù)測(cè)》(CGformer: Transformer-enhanced crystal graph network with global attention for material property prediction)為題發(fā)表于Matter
“我們開(kāi)發(fā)這個(gè)新算法,是為了解決現(xiàn)有 AI 在設(shè)計(jì)新材料時(shí)的一個(gè)根本性缺陷——‘近視’問(wèn)題,”李金金向 DeepTech 解釋道。她將當(dāng)時(shí)主流的 AI 材料設(shè)計(jì)模型,如應(yīng)用廣泛的晶體圖神經(jīng)網(wǎng)絡(luò)(CGCNN, Crystal Graph Convolutional Neural Network),比作一個(gè)臉貼在巨畫(huà)上的人,“只能一小塊一小塊地看,無(wú)法退后一步看到整幅畫(huà)的全貌?!?/p>
(來(lái)源:上海交通大學(xué)人工智能與微結(jié)構(gòu)實(shí)驗(yàn)室)
具體來(lái)說(shuō),CGCNN 這類(lèi)模型的核心工作方式是讓每個(gè)原子與其緊鄰的幾個(gè)原子“對(duì)話(huà)”,信息只能在局部鄰居之間傳遞。然而,材料的許多關(guān)鍵宏觀(guān)性能,例如電池中離子的傳輸效率,恰恰是由原子之間長(zhǎng)距離、全局性的相互作用決定的。如果 AI 模型是個(gè)“近視眼”,它就無(wú)法捕捉這些決定性的全局信息,做出的性能預(yù)測(cè)精度自然會(huì)大打折扣,甚至可能導(dǎo)致研發(fā)方向的錯(cuò)誤。
CGformer 的誕生,源于一個(gè)明確的需求和一個(gè)前沿的工具。需求端是團(tuán)隊(duì)深刻認(rèn)識(shí)到晶體圖網(wǎng)絡(luò)的“近視”缺陷是制約其發(fā)展的核心瓶頸;而在工具端,他們看到了在自然語(yǔ)言處理等領(lǐng)域大放異彩的 Transformer 架構(gòu)。Transformer 的核心優(yōu)勢(shì)在于其“全局注意力”(Global Attention)機(jī)制,能夠高效處理長(zhǎng)程依賴(lài)關(guān)系,這與材料科學(xué)中需要解決的長(zhǎng)程原子相互作用問(wèn)題不謀而合。
圖丨工作流程圖(來(lái)源:Matter)
“我們將這種先進(jìn)的全局注意力范式,創(chuàng)造性地引入到晶體結(jié)構(gòu)預(yù)測(cè)中,與 CGCNN 所代表的晶體圖表征方法進(jìn)行深度融合,”李金金說(shuō)。CGformer 由此誕生,它在晶體結(jié)構(gòu)內(nèi)部建立了一個(gè)“全息通訊網(wǎng)絡(luò)”,允許圖中的每一個(gè)原子在一步之內(nèi),直接與所有其他任何一個(gè)原子進(jìn)行信息交互,無(wú)論它們之間相隔多遠(yuǎn)。這就好比把“鄰里間的竊竊私語(yǔ)”升級(jí)成了“覆蓋全場(chǎng)的同步廣播”。
不過(guò),將兩種看似不同領(lǐng)域的 AI 技術(shù)結(jié)合起來(lái)并不簡(jiǎn)單。最大的技術(shù)挑戰(zhàn)在于如何讓 Transformer 的注意力機(jī)制“理解”晶體結(jié)構(gòu)的物理信息。一個(gè)普通的圖結(jié)構(gòu)沒(méi)有三維空間和化學(xué)鍵這些物理概念。
為了解決這個(gè)挑戰(zhàn),團(tuán)隊(duì)獨(dú)創(chuàng)性地設(shè)計(jì)并集成了多種物理編碼,包括告訴模型原子間真實(shí)空間位置和距離關(guān)系的“空間編碼”,讓模型理解每個(gè)原子在整個(gè)晶體拓?fù)浣Y(jié)構(gòu)中重要性的“中心性編碼”,以及將化學(xué)鍵類(lèi)型、長(zhǎng)度等特征納入計(jì)算的“邊編碼”。通過(guò)這次深度改造和創(chuàng)新,CGformer 既保留了晶體圖在描述材料結(jié)構(gòu)上的物理直觀(guān)性,又通過(guò)全局注意力機(jī)制,具備了前所未有的全局信息處理能力。
圖丨 CGformer 架構(gòu)示意圖(來(lái)源:Matter)
為了驗(yàn)證新算法的實(shí)際性能,團(tuán)隊(duì)選擇了一個(gè)極具挑戰(zhàn)性的研究體系——高熵材料。所謂“高熵”材料,是在同一個(gè)晶體位置上同時(shí)引入多種(通常為四種或更多)不同元素,進(jìn)行“雞尾酒式”混合摻雜的材料設(shè)計(jì)策略。這種多元素混合極大地增加了材料內(nèi)部的“混亂度”(即構(gòu)型熵),但這種高度的無(wú)序狀態(tài),反而可能帶來(lái)更穩(wěn)定的結(jié)構(gòu)和更優(yōu)異的性能。
選擇高熵材料,李金金解釋說(shuō),這既是因?yàn)槠鋸?fù)雜的結(jié)構(gòu)和性能高度依賴(lài)全局作用,是檢驗(yàn) CGformer“全局視野”能力的終極考場(chǎng);也是因?yàn)檫@類(lèi)材料的有效數(shù)據(jù)極其稀缺,可以嚴(yán)苛地檢驗(yàn)算法在小樣本條件下的學(xué)習(xí)能力。更重要的是,高熵材料在固態(tài)電解質(zhì)等儲(chǔ)能領(lǐng)域展現(xiàn)出巨大應(yīng)用潛力,一旦突破將價(jià)值重大。
在高熵鈉離子固態(tài)電解質(zhì)(HE-NSEs, High-entropy Na-ion Solid-state Electrolytes)的研究中,CGformer 展現(xiàn)出了卓越的性能。與 CGCNN 相比,CGformer 在預(yù)測(cè)精度上實(shí)現(xiàn)了 25% 的平均絕對(duì)誤差(MAE, Mean Absolute Error)降低。更重要的是,研究團(tuán)隊(duì)利用 CGformer 從一個(gè)包含 148,995 個(gè)潛在候選材料的巨大化學(xué)空間中,成功篩選出 18 種最有應(yīng)用前景的材料。
圖丨 CGformer 與 CGCNN 效果對(duì)比圖(來(lái)源:Matter)
團(tuán)隊(duì)通過(guò)嚴(yán)格的篩選流程最終將化學(xué)空間縮小到近千個(gè)相對(duì)穩(wěn)定的結(jié)構(gòu)。之后,利用無(wú)監(jiān)督分層聚類(lèi)方法,這些結(jié)構(gòu)被分為 20 個(gè)小組,其中一組因包含最高比例的低離子遷移能壘結(jié)構(gòu)而被確定為重點(diǎn)研究對(duì)象。
實(shí)驗(yàn)結(jié)果證明了 CGformer 的出色能力。研究團(tuán)隊(duì)成功合成了 6 種由 CGformer 預(yù)測(cè)出的頂級(jí)候選材料,并通過(guò) X 射線(xiàn)衍射、掃描電鏡能譜分析和阻抗譜等技術(shù)手段進(jìn)行了全面表征。結(jié)果顯示,所有材料均形成了預(yù)期的單相 NASICON 結(jié)構(gòu),其室溫下的鈉離子電導(dǎo)率達(dá)到了 0.093 至 0.256mS/cm 的范圍,性能顯著優(yōu)于未經(jīng)過(guò)高熵設(shè)計(jì)的對(duì)照樣品。
圖丨所選 HE-NSEs 的實(shí)驗(yàn)驗(yàn)證(來(lái)源:Matter)
在看到這個(gè)結(jié)果時(shí),整個(gè)團(tuán)隊(duì)都相當(dāng)振奮,“當(dāng)計(jì)算模型告訴你這 6 種材料最好,而你最終在實(shí)驗(yàn)中證實(shí)了這一點(diǎn)時(shí),這種從數(shù)字世界到物理世界的完美閉環(huán),是對(duì)我們工作最大的肯定”,李金金表示。
而這項(xiàng)成果的意義不僅在于找到了幾種新材料,更重要的是,團(tuán)隊(duì)建立了一個(gè)可擴(kuò)展、可遷移的框架,讓材料發(fā)現(xiàn)的過(guò)程變得更快、更高效、更系統(tǒng)化。在產(chǎn)業(yè)應(yīng)用方面,這個(gè)平臺(tái)最直接的價(jià)值就是成為新一代材料研發(fā)的“加速器”,用于快速篩選下一代固態(tài)電解質(zhì)、高性能正負(fù)極材料,其可遷移性還意味著能夠應(yīng)用到熱電材料、光催化劑等其他先進(jìn)功能材料的探索。
放眼全球,“AI+材料”正成為驅(qū)動(dòng)下一代技術(shù)變革乃至產(chǎn)業(yè)革命的核心引擎之一,并已成為全球科技競(jìng)爭(zhēng)的前沿陣地。
而在這場(chǎng)競(jìng)爭(zhēng)中,中國(guó)正處在一個(gè)高速發(fā)展和奮起直追的階段。李金金以團(tuán)隊(duì)的工作為例,指出中國(guó)的研究力量正致力于從根源上進(jìn)行算法創(chuàng)新,去解決材料科學(xué)中的基礎(chǔ)性、瓶頸性問(wèn)題?!斑@代表了我們?cè)谶@一交叉領(lǐng)域,正從‘應(yīng)用’走向‘創(chuàng)造’,致力于掌握核心能力?!?/p>
當(dāng)然,她也坦言,在通用數(shù)據(jù)庫(kù)建設(shè)、軟件生態(tài)成熟度等方面仍面臨挑戰(zhàn),但這些差距正在快速縮小。更重要的是,像 CGformer 這樣的研究,正是中國(guó)為解決全球性共同挑戰(zhàn)所貢獻(xiàn)的“中國(guó)方案”。通過(guò)持續(xù)的源頭創(chuàng)新,中國(guó)有能力在這個(gè)決定未來(lái)的賽道上,扮演越來(lái)越重要的角色。
參考資料:
1.https://www.cell.com/matter/abstract/S2590-2385(25)00423-0
運(yùn)營(yíng)/排版:何晨龍