智慧加速科學計算，探索原理和資料驅動的新科學正規化

在即將於今年12月8-10日全線上舉辦的CNCC2022期間，118個涵蓋計算+行業、人工智慧、雲計算、教育、安全等30個熱門專業領域的技術論壇上，700餘位專家將著力探討計算技術與未來宏觀發展趨勢，並由各領域深具影響力的重磅學者專家擔綱論壇主席。

本專題力邀CNCC2022技術論壇主席親自撰稿，深度圍繞論壇話題分享獨家觀點，帶你提前走進CNCC，領略其特殊專業魅力！

本期特別嘉賓：

劉鑫國家平行計算機工程技術研究中心研究員

智慧加速科學計算，探索原理和資料驅動的新科學正規化

作者：劉鑫

科學正規化最早由美國科學哲學家庫恩提出，哲學角度是形而上思辨，社會學角度是科學習慣和社會傳統，科研角度是科研方法之方法論，是人工或構造的正規化。

傳統科學正規化

人類最早的科學研究，主要以記錄和描述自然現象為特徵，稱為“科學實驗”（第一正規化），以實驗為主，從原始的鑽木取火，發展到後來以伽利略為代表的文藝復興時期的科學發展初級階段，開啟了現代科學之門，主要用於描述自然現象。之後，科學家們透過演算進行歸納總結，這就是“理論研究”（第二正規化），牛頓三大定律成功解釋了經典力學，麥克斯韋理論成功解釋了電磁學，但隨著驗證理論的難度和經濟投入越來越高，理論研究開始顯得力不從心。20世紀中葉，馮·諾依曼提出了現代電子計算機架構，利用電子計算機對科學實驗進行模擬模擬的模式得到迅速普及，對複雜問題透過模擬模擬推演出越來越複雜的現象，比如核試驗模擬和天氣預報等。隨著計算機模擬越來越多地取代實驗，科學計算逐漸成為科研的常規方法，即第三正規化。隨著大資料和人工智慧的出現，引發了基於資料驅動的第四正規化，適用於基本原理不完備、缺少原始先驗知識，但真實資料可大量獲得的問題，如深度學習模型從資料中尋找特徵和規律、解決現實問題，該類正規化的瓶頸在於難以處理資訊不完備問題，缺少完整的、可解釋的泛化模型。

科學發現新的正規化

——基於原理驅動的正規化

隨著問題規模的擴大和使用者需求的拓展，很多傳統科學計算類應用面臨“維度災難”問題，需要引入新的科學方法。這些科學計算應用的基本原理完備，但計算模型公式的內在變數過多，維數增加後計算量呈指數增長，現有高效能計算機依靠傳統科學計算方法算不起。因此，很多學者開展新的基於原理驅動的智慧方法加速科學計算研究，主要從已知的基本原理中獲得先驗知識，產生精準資料訓練，使用人工智慧加速計算和科學發現；或者透過強化學習自動搜尋最優演算法。如2020年“戈登·貝爾獎”獲獎應用DeePMD［1］，使用深度神經網路訓練從原子座標到原子勢能的函式模型，基於頂點超算整機完成1。27億銅原子計算，規模提升100倍、計算速度提高1000倍；2021年世界超算大會應用TensorKMC［2］，將原子系統結構資訊轉換為卷積神經網路輸入，基於新一代神威超算系統實現了54萬億原子的動力學模擬，計算規模進一步提升；2022年世界超算大會應用PEPS++［3］，將量子多體問題的系統結構資訊轉換為卷積神經網路輸入，透過遷移學習針對自旋系統從6x6網格遷移至36x36網格尺度，實現了自旋系統達2^1296的量子多多體模擬，同時針對費米子系統也實現了3^144的量子多體模擬。

科學發現新的正規化

——部分原理驅動+部分資料驅動的正規化

我們也看到，對於某些基本原理不完備、不清楚的應用，基於原理驅動的科學正規化很難奏效。比如傳統計算方法精度差、有侷限性，需要引入假設、簡化模型的應用，湍流（經典力學難題）、密度泛函（量子力學難題）、蛋白質結構預測（生物計算難題）等，存在經驗引數獲取難、簡化模型難以完全描述等問題，可能需要引入“部分原理驅動+部分資料驅動”的新正規化。該類正規化使用智慧方法構建模型、學習實驗資料間的隱含變數，修正傳統模型的誤差和問題，逐漸逼近真實機理。如DeepMind公司的蛋白質結構預測AlphaFold2［4］和電子結構預測應用DM21［5］，其中AlphaFold2引入注意力機制，從大量計算資料和實驗資料中學習預測蛋白質旋轉和三維座標，同時基於蛋白質結構的物理和生物學原理進行修正，蛋白質結構數量拓展到2億個，時間開銷降至分鐘級；DM21基於2335個化學反應示例資料進行學習，同時使用電子結構計算的基本原理和數學模型修正，解決了傳統密度泛函理論無法表示分數電荷和分數自旋的問題，首次揭示了電子密度與相互作用能量之間對映的確切本質。

電子結構預測- DM21

參考文獻

［1］Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning。 SC 2020

［2］TensorKMC： kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer，SC 2021

［3］2^1296 Exponentially Complex Quantum Many-Body Simulation via Scalable Deep Learning Method。 arxiv：2204。07816 2022

［4］Highly accurate protein structure prediction with AlphaFold。 Nature 2021

［5］ Pushing the frontiers of density functionals by solving the fractional electron problem。 Science 2021

本年度CNCC大會擬組織第二屆“人工智慧在大規模科學計算領域的應用探索”技術論壇，從事大規模科學計算和智慧計算研究的一線科學家們將齊聚一堂，這裡面既有基於原理驅動的智慧加速計算研究，也有部分原理驅動+部分資料驅動的智慧加速計算研究，給大家帶來領域交叉的深度研討，敬請關注。

論壇名稱：第二屆“人工智慧在大規模科學計算領域的應用探索”

主席：劉鑫國家平行計算機工程技術研究中心研究員

會議日程：

順序

主題

主講嘉賓

單位

密碼演算法分析與設計的智慧化

王美琴

山東大學

深度學習在地球系統科學中的應用與挑戰

黃小猛

清華大學

機器學習給原子尺度模擬帶來的機遇和挑戰

陳默涵

北京大學

面向空天動力的超聲速湍流燃燒智慧模擬

安健

清華大學

基於機器學習與數值模式融合的海洋與氣候預測預報探索研究

宋振亞

自然資源部第一海洋研究所

CCF推薦

【精品文章】

李文新：遊戲濃縮世界，AI預見未來 | CNCC專家談

鍛造虛假識別的照妖鏡——我們需要怎樣的認知法力？| CNCC專家談

技術如何開啟傳統公益模式邊界 | CNCC專家談

揭秘經濟均衡的黑盒——當計算智慧成為無形的手 | CNCC專家談

多模態與認知相遇，探索更像孩子一樣的學習方式 | CNCC專家談

CNCC是級別高、規模大的高階學術會議，探討計算及資訊科學技術領域最新進展和宏觀發展趨勢，展示計算領域學術界、企業界最重要的學術、技術成果，搭建交流平臺，促進科技成果轉換，是學術界、產業界、教育界的年度盛會。今年邀請嘉賓包括ACM圖靈獎獲得者、田納西大學教授

Jack Dongarra，

以及

高文、管曉宏、江小涓、錢德沛、徐宗本、張平

等多位院士，還有七百餘位國內外名校學者、名企領軍人物、各領域極具影響力的業內專家，CNCC在計算領域的水準及影響力逐年遞增。

本屆CNCC的主題是：算力、資料、生態。

CNCC2022將匯聚國內外頂級專業力量、專家資源，為逾萬名參會者呈上一場精彩宏大的專業盛宴。大會期間還將舉辦“會員之夜”大型主題狂歡活動，讓參會者暢快交流，燃爆全場。如此盛會，豈能缺席！

等你來，馬上行動，歡迎參會報名！

別眨眼網

智慧加速科學計算，探索原理和資料驅動的新科學正規化 | CNCC專家談

相關推薦