智慧加速科學計算,探索原理和資料驅動的新科學正規化 | CNCC專家談

在即將於今年12月8-10日全線上舉辦的CNCC2022期間,118個涵蓋計算+行業、人工智慧、雲計算、教育、安全等30個熱門專業領域的技術論壇上,700餘位專家將著力探討計算技術與未來宏觀發展趨勢,並由各領域深具影響力的重磅學者專家擔綱論壇主席。

本專題力邀CNCC2022技術論壇主席親自撰稿,深度圍繞論壇話題分享獨家觀點,帶你提前走進CNCC,領略其特殊專業魅力!

智慧加速科學計算,探索原理和資料驅動的新科學正規化 | CNCC專家談

本期特別嘉賓:

劉鑫 國家平行計算機工程技術研究中心 研究員

智慧加速科學計算,探索原理和資料驅動的新科學正規化

作者:劉鑫

科學正規化最早由美國科學哲學家庫恩提出,哲學角度是形而上思辨,社會學角度是科學習慣和社會傳統,科研角度是科研方法之方法論,是人工或構造的正規化。

傳統科學正規化

人類最早的科學研究,主要以記錄和描述自然現象為特徵,稱為“科學實驗”(第一正規化),以實驗為主,從原始的鑽木取火,發展到後來以伽利略為代表的文藝復興時期的科學發展初級階段,開啟了現代科學之門,主要用於描述自然現象。之後,科學家們透過演算進行歸納總結,這就是“理論研究”(第二正規化),牛頓三大定律成功解釋了經典力學,麥克斯韋理論成功解釋了電磁學,但隨著驗證理論的難度和經濟投入越來越高,理論研究開始顯得力不從心。20世紀中葉,馮·諾依曼提出了現代電子計算機架構,利用電子計算機對科學實驗進行模擬模擬的模式得到迅速普及,對複雜問題透過模擬模擬推演出越來越複雜的現象,比如核試驗模擬和天氣預報等。隨著計算機模擬越來越多地取代實驗,科學計算逐漸成為科研的常規方法,即第三正規化。隨著大資料和人工智慧的出現,引發了基於資料驅動的第四正規化,適用於基本原理不完備、缺少原始先驗知識,但真實資料可大量獲得的問題,如深度學習模型從資料中尋找特徵和規律、解決現實問題,該類正規化的瓶頸在於難以處理資訊不完備問題,缺少完整的、可解釋的泛化模型。

智慧加速科學計算,探索原理和資料驅動的新科學正規化 | CNCC專家談

科學發現新的正規化

——基於原理驅動的正規化

隨著問題規模的擴大和使用者需求的拓展,很多傳統科學計算類應用面臨“維度災難”問題,需要引入新的科學方法。這些科學計算應用的基本原理完備,但計算模型公式的內在變數過多,維數增加後計算量呈指數增長,現有高效能計算機依靠傳統科學計算方法算不起。因此,很多學者開展新的基於原理驅動的智慧方法加速科學計算研究,主要從已知的基本原理中獲得先驗知識,產生精準資料訓練,使用人工智慧加速計算和科學發現;或者透過強化學習自動搜尋最優演算法。如2020年“戈登·貝爾獎”獲獎應用DeePMD[1],使用深度神經網路訓練從原子座標到原子勢能的函式模型,基於頂點超算整機完成1。27億銅原子計算,規模提升100倍、計算速度提高1000倍;2021年世界超算大會應用TensorKMC[2],將原子系統結構資訊轉換為卷積神經網路輸入,基於新一代神威超算系統實現了54萬億原子的動力學模擬,計算規模進一步提升;2022年世界超算大會應用PEPS++[3],將量子多體問題的系統結構資訊轉換為卷積神經網路輸入,透過遷移學習針對自旋系統從6x6網格遷移至36x36網格尺度,實現了自旋系統達2^1296的量子多多體模擬,同時針對費米子系統也實現了3^144的量子多體模擬。

智慧加速科學計算,探索原理和資料驅動的新科學正規化 | CNCC專家談

科學發現新的正規化

——部分原理驅動+部分資料驅動的正規化

我們也看到,對於某些基本原理不完備、不清楚的應用,基於原理驅動的科學正規化很難奏效。比如傳統計算方法精度差、有侷限性,需要引入假設、簡化模型的應用,湍流(經典力學難題)、密度泛函(量子力學難題)、蛋白質結構預測(生物計算難題)等,存在經驗引數獲取難、簡化模型難以完全描述等問題,可能需要引入“部分原理驅動+部分資料驅動”的新正規化。該類正規化使用智慧方法構建模型、學習實驗資料間的隱含變數,修正傳統模型的誤差和問題,逐漸逼近真實機理。如DeepMind公司的蛋白質結構預測AlphaFold2[4]和電子結構預測應用DM21[5],其中AlphaFold2引入注意力機制,從大量計算資料和實驗資料中學習預測蛋白質旋轉和三維座標,同時基於蛋白質結構的物理和生物學原理進行修正,蛋白質結構數量拓展到2億個,時間開銷降至分鐘級;DM21基於2335個化學反應示例資料進行學習,同時使用電子結構計算的基本原理和數學模型修正,解決了傳統密度泛函理論無法表示分數電荷和分數自旋的問題,首次揭示了電子密度與相互作用能量之間對映的確切本質。

智慧加速科學計算,探索原理和資料驅動的新科學正規化 | CNCC專家談

電子結構預測- DM21

參考文獻

[1]Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning。 SC 2020

[2]TensorKMC: kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer,SC 2021

[3]2^1296 Exponentially Complex Quantum Many-Body Simulation via Scalable Deep Learning Method。 arxiv:2204。07816 2022

[4]Highly accurate protein structure prediction with AlphaFold。 Nature 2021

[5] Pushing the frontiers of density functionals by solving the fractional electron problem。 Science 2021

本年度CNCC大會擬組織第二屆“人工智慧在大規模科學計算領域的應用探索”技術論壇,從事大規模科學計算和智慧計算研究的一線科學家們將齊聚一堂,這裡面既有基於原理驅動的智慧加速計算研究,也有部分原理驅動+部分資料驅動的智慧加速計算研究,給大家帶來領域交叉的深度研討,敬請關注。

論壇名稱:第二屆“人工智慧在大規模科學計算領域的應用探索”

主席:劉鑫 國家平行計算機工程技術研究中心 研究員

會議日程:

順序

主題

主講嘉賓

單位

1

密碼演算法分析與設計的智慧化

王美琴

山東大學

2

深度學習在地球系統科學中的應用與挑戰

黃小猛

清華大學

3

機器學習給原子尺度模擬帶來的機遇和挑戰

陳默涵

北京大學

4

面向空天動力的超聲速湍流燃燒智慧模擬

安健

清華大學

5

基於機器學習與數值模式融合的海洋與氣候預測預報探索研究

宋振亞

自然資源部第一海洋研究所

CCF推薦

【精品文章】

李文新:遊戲濃縮世界,AI預見未來 | CNCC專家談

鍛造虛假識別的照妖鏡——我們需要怎樣的認知法力?| CNCC專家談

技術如何開啟傳統公益模式邊界 | CNCC專家談

揭秘經濟均衡的黑盒——當計算智慧成為無形的手 | CNCC專家談

多模態與認知相遇,探索更像孩子一樣的學習方式 | CNCC專家談

CNCC是級別高、規模大的高階學術會議,探討計算及資訊科學技術領域最新進展和宏觀發展趨勢,展示計算領域學術界、企業界最重要的學術、技術成果,搭建交流平臺,促進科技成果轉換,是學術界、產業界、教育界的年度盛會。今年邀請嘉賓包括ACM圖靈獎獲得者、田納西大學教授

Jack Dongarra,

以及

高文、管曉宏、江小涓、錢德沛、徐宗本、張平

等多位院士,還有七百餘位國內外名校學者、名企領軍人物、各領域極具影響力的業內專家,CNCC在計算領域的水準及影響力逐年遞增。

本屆CNCC的主題是:算力、資料、生態。

CNCC2022將匯聚國內外頂級專業力量、專家資源,為逾萬名參會者呈上一場精彩宏大的專業盛宴。大會期間還將舉辦“會員之夜”大型主題狂歡活動,讓參會者暢快交流,燃爆全場。如此盛會,豈能缺席!

等你來,馬上行動,歡迎參會報名!