詳細理解Linux虛擬記憶體

前幾天另一位同事來問另一個虛擬記憶體相關的問題,我才發現對於虛擬記憶體,我的理解還不夠深刻,一些概念還有些矛盾。於是翻一下資料重新整理一下這些知識,希望下次在用到它們時能更順暢。

詳細理解Linux虛擬記憶體

前不久組內又有一次我比較期待的分享:”Linux 的虛擬記憶體”。是某天晚上加班時,我們討論虛擬記憶體的概念時,leader 發現幾位同事對虛擬記憶體認識不清後,特意給這位同學挑選的主題(笑)。

之前瞭解一些作業系統的概念,主要是畢業後對自己大學四年的荒廢比較懊惱,覺得自己有些對不起計算機專業出身,於是在工作之餘抽出時間看了哈工大在網易雲課堂的作業系統公開課,自己也讀了一本講作業系統比較淺的書 《Linux核心設計與實現》,而且去年自己用 C 寫簡單的伺服器時,也追根究底瞭解了更多的系統底層知識。多虧了這些知識,讓我對應用層的知識更有掌控感,也在上次排查問題時助了我一臂之力。

前幾天另一位同事來問另一個虛擬記憶體相關的問題,我才發現對於虛擬記憶體,我的理解還不夠深刻,一些概念還有些矛盾。於是翻一下資料重新整理一下這些知識,希望下次在用到它們時能更順暢。

虛擬記憶體由來

毋庸置疑,虛擬記憶體絕對是作業系統中最重要的概念之一。我想主要是由於記憶體的重要”戰略地位”。CPU太快,但容量小且功能單一,其他 I/O 硬體支援各種花式功能,可是相對於 CPU,它們又太慢。於是它們之間就需要一種潤滑劑來作為緩衝,這就是記憶體大顯身手的地方。

而在現代作業系統中,多工已是標配。多工並行,大大提升了 CPU 利用率,但卻引出了多個程序對記憶體操作的衝突問題,虛擬記憶體概念的提出就是為了解決這個問題。

詳細理解Linux虛擬記憶體

上圖是虛擬記憶體最簡單也是最直觀的解釋。

作業系統有一塊物理記憶體(中間的部分),有兩個程序(實際會更多)P1 和 P2,作業系統偷偷地分別告訴 P1 和 P2,我的整個記憶體都是你的,隨便用,管夠。可事實上呢,作業系統只是給它們畫了個大餅,這些記憶體說是都給了 P1 和 P2,實際上只給了它們一個序號而已。只有當 P1 和 P2 真正開始使用這些記憶體時,系統才開始使用輾轉挪移,拼湊出各個塊給程序用,P2 以為自己在用 A 記憶體,實際上已經被系統悄悄重定向到真正的 B 去了,甚至,當 P1 和 P2 共用了 C 記憶體,他們也不知道。

作業系統的這種欺騙程序的手段,就是虛擬記憶體。對 P1 和 P2 等程序來說,它們都以為自己佔用了整個記憶體,而自己使用的物理記憶體的哪段地址,它們並不知道也無需關心。

分頁和頁表

虛擬記憶體是作業系統裡的概念,對作業系統來說,虛擬記憶體就是一張張的對照表,P1 獲取 A 記憶體裡的資料時應該去物理記憶體的 A 地址找,而找 B 記憶體裡的資料應該去物理記憶體的 C 地址。

我們知道系統裡的基本單位都是 Byte 位元組,如果將每一個虛擬記憶體的 Byte 都對應到物理記憶體的地址,每個條目最少需要 8位元組(32位虛擬地址->32位物理地址),在 4G 記憶體的情況下,就需要 32GB 的空間來存放對照表,那麼這張表就大得真正的物理地址也放不下了,於是作業系統引入了 頁(Page)的概念。

在系統啟動時,作業系統將整個物理記憶體以 4K 為單位,劃分為各個頁。之後進行記憶體分配時,都以頁為單位,那麼虛擬記憶體頁對應物理記憶體頁的對映表就大大減小了,4G 記憶體,只需要 8M 的對映表即可,一些程序沒有使用到的虛擬記憶體,也並不需要儲存對映關係,而且Linux 還為大記憶體設計了多級頁表,可以進一頁減少了記憶體消耗。作業系統虛擬記憶體到物理記憶體的對映表,就被稱為頁表。

記憶體定址和分配

我們知道透過虛擬記憶體機制,每個程序都以為自己佔用了全部記憶體,程序訪問記憶體時,作業系統都會把程序提供的虛擬記憶體地址轉換為物理地址,再去對應的物理地址上獲取資料。CPU 中有一種硬體,記憶體管理單元 MMU(Memory Management Unit)專門用來將翻譯虛擬記憶體地址。CPU 還為頁表定址設定了快取策略,由於程式的區域性性,其快取命中率能達到 98%。

以上情況是頁表記憶體在虛擬地址到物理地址的對映,而如果程序訪問的物理地址還沒有被分配,系統則會產生一個缺頁中斷,在中斷處理時,系統切到核心態為程序虛擬地址分配物理地址。

功能

虛擬記憶體不僅透過記憶體地址轉換解決了多個程序訪問記憶體衝突的問題,還帶來更多的益處。

程序記憶體管理

它有助於程序進行記憶體管理,主要體現在:

記憶體完整性:由於虛擬記憶體對程序的”欺騙”,每個程序都認為自己獲取的記憶體是一塊連續的地址。我們在編寫應用程式時,就不用考慮大塊地址的分配,總是認為系統有足夠的大塊記憶體即可。

安全:由於程序訪問記憶體時,都要透過頁表來定址,作業系統在頁表的各個專案上新增各種訪問許可權標識位,就可以實現記憶體的許可權控制。

資料共享

透過虛擬記憶體更容易實現記憶體和資料的共享。

在程序載入系統庫時,總是先分配一塊記憶體,將磁碟中的庫檔案載入到這塊記憶體中,在直接使用物理記憶體時,由於物理記憶體地址唯一,即使系統發現同一個庫在系統內載入了兩次,但每個程序指定的載入記憶體不一樣,系統也無能為力。

而在使用虛擬記憶體時,系統只需要將程序的虛擬記憶體地址指向庫檔案所在的物理記憶體地址即可。如上文圖中所示,程序 P1 和 P2 的 B 地址都指向了物理地址 C。

而透過使用虛擬記憶體使用共享記憶體也很簡單,系統只需要將各個程序的虛擬記憶體地址指向系統分配的共享記憶體地址即可。

SWAP

虛擬記憶體可以讓幫程序”擴充”記憶體。

我們前文提到了虛擬記憶體透過缺頁中斷為程序分配物理記憶體,記憶體總是有限的,如果所有的物理記憶體都被佔用了怎麼辦呢?

Linux 提出 SWAP 的概念,Linux 中可以使用 SWAP 分割槽,在分配物理記憶體,但可用記憶體不足時,將暫時不用的記憶體資料先放到磁碟上,讓有需要的程序先使用,等程序再需要使用這些資料時,再將這些資料載入到記憶體中,透過這種”交換”技術,Linux 可以讓程序使用更多的記憶體。

常見問題

在瞭解虛擬記憶體時,我也有過很多的問題。

32位和64位

最常見的就是 32位和64位的問題了。

CPU 透過物理匯流排訪問記憶體,那麼訪問地址的範圍就受限於機器匯流排的數量,在32位機器上,有32條匯流排,每條匯流排有高低兩種電位分別代表 bit 的 1 和 0,那麼可訪問的最大地址就是 2^32bit = 4GB,所以說 32 位機器上插入大於 4G 的記憶體是無效的,CPU 訪問不到多於 4G 的記憶體。

但 64位機器並沒有 64位匯流排,而且其最大記憶體還要受限於作業系統,Linux 目前支援最大 256G 記憶體。

根據虛擬記憶體的概念,在 32 位系統上執行 64 位軟體也並無不可,但由於系統對虛擬記憶體地址的結構設計,64位的虛擬地址在32位系統內並不能使用。

直接操作物理記憶體

作業系統使用了虛擬記憶體,我們想要直接操作記憶體該怎麼辦呢?

Linux 會將各個裝置都對映到 /dev/ 目錄下的檔案,我們可以透過這些裝置檔案直接操作硬體,記憶體也不例外。在 Linux 中,記憶體設定被對映為 /dev/mem,root 使用者透過對這個檔案讀寫,可以直接操作記憶體。

JVM 程序佔用虛擬記憶體過多

使用 TOP 檢視系統性能時,我們會發現在 VIRT 這一列,Java 程序會佔用大量的虛擬記憶體。

詳細理解Linux虛擬記憶體

導致這種問題的原因是 Java 使用 Glibc 的 Arena 記憶體池分配了大量的虛擬記憶體並沒有使用。此外,Java 讀取的檔案也會被對映為虛擬記憶體,在虛擬機器預設配置下 Java 每個執行緒棧會佔用 1M 的虛擬記憶體。具體可以檢視 為什麼linux下多執行緒程式如此消耗虛擬記憶體。

而真實佔用的物理記憶體要看 RES (resident) 列,這一列的值才是真正被對映到物理記憶體的大小。

常用管理命令

我們也可以自己來管理 Linux 的虛擬記憶體。

檢視系統記憶體狀態

檢視系統記憶體情況的方式有很多,free、 vmstat等命令都可輸出當前系統的記憶體狀態,需要注意的是可用記憶體並不只是 free 這一列,由於作業系統的 lazy 特性,大量的 buffer/cache 在程序不再使用後,不會被立即清理,如果之前使用它們的程序再次執行還可以繼續使用,它們在必要時也是可以被利用的。

此外,透過 cat /proc/meminfo 可以檢視系統記憶體被使用的詳細情況,包括髒頁狀態等。詳情可參見:/PROC/MEMINFO之謎。

pmap

如果想單獨檢視某一程序的虛擬記憶體分佈情況,可以使用 pmap pid 命令,它會把虛擬記憶體各段的佔用情況從低地址到高地址都列出來。

可以新增 -XX 引數來輸出更詳細的資訊。

修改記憶體配置

我們也可以修改 Linux 的系統配置,使用 sysctl vm [-options] CONFIG 或 直接讀寫 /proc/sys/vm/ 目錄下的檔案來檢視和修改配置。

SWAP 操作

虛擬記憶體的 SWAP 特性並不總是有益,放任程序不停地將資料在記憶體與磁碟之間大量交換會極大地佔用 CPU,降低系統執行效率,所以有時候我們並不希望使用 swap。

我們可以修改 vm。swappiness=0 來設定記憶體儘量少使用 swap,或者乾脆使用 swapoff 命令禁用掉 SWAP。

小結

虛擬記憶體的概念非常容易理解,但是它會衍生出來的一系列非常複雜的知識。本文只講了些基本原理,略過了很多細節,比如虛擬記憶體定址中段暫存器的使用,作業系統使用虛擬記憶體增強快取、緩衝區的應用等,有機會單獨拿出來說。

詳細理解Linux虛擬記憶體 | 《Linux就該這麼學》 (linuxprobe。com)