新方法使用低質量數(shù)據(jù)可以更好地預測材料性能
能源技術,醫(yī)療保健,半導體和食品生產(chǎn)方面的進步都有一個共同點:它們依靠開發(fā)具有特殊性質的新材料(原子的新組合)來執(zhí)行所需的功能。在不太遙遠的過去,知道材料具有什么特性的唯一方法是通過執(zhí)行實驗測量或使用非常昂貴的計算。
最近,科學家一直在使用機器學習算法來快速預測原子的某些排列所具有的特性。這種方法的挑戰(zhàn)在于,它需要大量高度準確的數(shù)據(jù)來訓練模型,而這種數(shù)據(jù)通常不存在。
通過將大量的低保真數(shù)據(jù)與少量的高保真數(shù)據(jù)相結合,圣地亞哥加州大學材料虛擬實驗室的納米工程師開發(fā)了一種新的機器學習方法,可以比現(xiàn)有模型更準確地預測材料的特性。至關重要的是,他們的方法也是第一個預測無序材料性質的方法,這些無序材料的原子位點可能被多個元素占據(jù)或處于空位狀態(tài)。他們在1月14日的《自然計算科學》中詳細介紹了其多保真度圖網(wǎng)絡方法。
加州大學圣地亞哥分校的納米工程教授Shyue Ping Ong說:“在設計新材料時,您想知道的關鍵一件事是該材料是否可能穩(wěn)定,以及它具有什么樣的性能。” Diego Jacobs工程學院和該論文的通訊作者。“根本的問題是,即使我們擁有計算性能較差的大型數(shù)據(jù)庫,也很難獲得有價值的準確數(shù)據(jù)(例如實驗測量值)。在這里,我們試圖同時兼顧兩者之間的優(yōu)勢-保真度數(shù)據(jù)和較小的高保真度數(shù)據(jù),以提高模型在高價值預測中的準確性。”
盡管存在其他多保真度方法,但是這些方法無法很好地擴展或僅限于兩個數(shù)據(jù)保真度。它們不像這種新的多保真度圖形網(wǎng)絡方法那樣準確或動態(tài),該方法可以使用無限數(shù)量的數(shù)據(jù)保真度,并且可以非常迅速地擴展。
在本文中,納米工程師特別關注了材料的帶隙(一種用于確定電導率,材料的顏色,太陽能電池效率等的特性)作為概念驗證。與傳統(tǒng)的單保真度方法相比,他們的多保真度圖網(wǎng)絡導致實驗帶隙預測的平均絕對誤差降低了22-45%。研究人員還表明,他們的方法還可以準確預測高保真分子能量。
Ong表示:“對于可以應用的屬性沒有基本限制。” “問題在于我們擁有哪種類型的數(shù)據(jù)。”
Ong的團隊計劃在短期內(nèi)使用這種新方法來開發(fā)用于儲能,光伏電池和半導體器件的更好材料。
在預測有序材料的屬性時,該團隊做出了另一個意外發(fā)現(xiàn)-在他們使用的圖形深度學習模型中,原子屬性表示為學習的長度為16的嵌入向量。通過對這些學習的嵌入向量進行插值,研究人員發(fā)現(xiàn)它們還能夠為無序材料創(chuàng)建預測模型,這些材料的原子位點可能被一個以上的元素占據(jù)或有時會空著,這使得使用傳統(tǒng)方法難以研究它們。方法。
“雖然大部分計算和機器學習工作都集中在有序材料上,但無序化合物實際上構成了大多數(shù)已知材料,” Ong實驗室的助理項目科學家,論文的第一作者Chi Chen說。“使用這種方法,多保真度圖形網(wǎng)絡模型可以以良好的精度重現(xiàn)無序材料的帶隙趨勢。”
這為更快,更準確地設計新材料以滿足關鍵的社會需求打開了大門。
“我們在這項工作中展示的是,您實際上可以采用一種機器學習算法來預測無序材料的特性。換句話說,現(xiàn)在我們能夠在有序和無序材料的整個空間中進行材料發(fā)現(xiàn)和預測。只是訂購了材料,”王說。“據(jù)我們所知,這是第一個。”
標簽: 預測材料性能