解決大型AI模型的能源問題

目前,人工智慧中突破性的深度學習模型,規模之大“令人側目”。這個夏天最流行的自然語言處理模型GPT-3是一個很好的例子,為了達到像人一樣的準確性和速度,該模型需要1,750億個引數,350GB的記憶體和1200萬美元的訓練費用(將訓練視為“學習”階段)。但是,像這樣的大型AI模型,每一次的訓練成本就存在著無法忽視的能源問題。

UMass Amherst的研究人員發現,訓練大型AI模型所需的計算能力可以產生超過600,000磅的二氧化碳排放量,這是其使用壽命內普通汽車數量的五倍!這些模型在實際生產環境中(通常稱為推理階段)通常要花費更多的精力進行處理。

解決大型AI模型的能源問題

為了在AI領域取得更大的進步,必須在環境方面做出巨大的權衡。但是事實並非如此。大型模型可以縮小到可以在日常工作站或伺服器上執行的大小,而不必犧牲準確性和速度。

但是首先,讓我們看一下為什麼機器學習模型如此之大。

來自OpenAI的研究證明,在2012年至2018年之間,深度學習模型的計算能力每3、4個月翻一番。

十多年前,斯坦福大學的研究人員發現,用於為影片遊戲中的複雜圖形提供動力的處理器(稱為GPU)可用於深度學習模型。這一發現導致了為深度學習應用程式建立越來越強大的專用硬體的競賽。反過來,資料科學家建立的模型也變得越來越大。邏輯是

更大的模型將導致更準確的結果

。硬體越強大,這些模型的執行速度就越快。

但是現在我們無法承受繼續使用更大,更耗電的模型帶來的環境後果。

解決大型AI模型的能源問題

幸運的是,研究人員發現了許多新方法,可以透過更智慧的演算法來縮小深度學習模型並重新調整訓練資料集的用途。這樣,大型模型可以在功率較小的生產環境中執行,並且仍然可以根據用例獲得所需的結果。

研究人員透過刪除神經網路中一些不需要的連線(修剪),或透過減少一些數學運算的處理(量化)來縮小模型。

這些較小,較快的模型可以在任何地方以與較大的同類產品相似的精度和效能執行。這意味著我們將不再需要爭奪最高的計算能力,而對環境造成更大的破壞。使大型模型更小,更高效是深度學習的未來。

另一個主要問題是針對不同用例在新資料集上反覆訓練大型模型。稱為遷移學習的技術可以幫助防止此問題。

遷移學習使用預先訓練的模型作為起點,可以使用有限的資料集將模型的知識“轉移”到新任務,而無需從頭開始重新訓練原始模型。這是減少培訓新模型所需的計算能力,能源和金錢的關鍵一步。

解決大型AI模型的能源問題

底線?只要有可能,模型可以(並且應該)縮小以使用更少的計算能力。而且,知識可以被回收和再利用,而不是從頭開始深度學習訓練過程。這樣,任何人都可以以較低的成本在生產中執行這些應用程式,而

無需進行大量的環境折衷