Linux內(nèi)核地址空間劃分
通常32位Linux內(nèi)核虛擬地址空間劃分0~3G為用戶空間,3~4G為內(nèi)核空間(注意,內(nèi)核可以使用的線性地址只有1G)。注意這里是32位內(nèi)核地址空間劃分,64位內(nèi)核地址空間劃分是不同的。
通常32位Linux內(nèi)核虛擬地址空間劃分0~3G為用戶空間,3~4G為內(nèi)核空間(注意,內(nèi)核可以使用的線性地址只有1G)。注意這里是32位內(nèi)核地址空間劃分,64位內(nèi)核地址空間劃分是不同的。
Linux內(nèi)核高端內(nèi)存的由來
當(dāng)內(nèi)核模塊代碼或線程訪問內(nèi)存時,代碼中的內(nèi)存地址都為邏輯地址,而對應(yīng)到真正的物理內(nèi)存地址,需要地址一對一的映射,如邏輯地址0xc0000003對應(yīng)的物理地址為0×3,0xc0000004對應(yīng)的物理地址為0×4,… …,邏輯地址與物理地址對應(yīng)的關(guān)系為
物理地址 = 邏輯地址 – 0xC0000000:這是內(nèi)核地址空間的地址轉(zhuǎn)換關(guān)系,注意內(nèi)核的虛擬地址在“高端”,但是ta映射的物理內(nèi)存地址在低端。
實(shí)際上,“內(nèi)核直接映射空間”也達(dá)不到 1G, 還得留點(diǎn)線性空間給“內(nèi)核動態(tài)映射空間” 呢。
因此,Linux 規(guī)定“內(nèi)核直接映射空間” 最多映射 896M 物理內(nèi)存。
對于高端內(nèi)存,可以通過 alloc_page() 或者其它函數(shù)獲得對應(yīng)的 page,但是要想訪問實(shí)際物理內(nèi)存,還得把 page 轉(zhuǎn)為線性地址才行(為什么?想想 MMU 是如何訪問物理內(nèi)存的),也就是說,我們需要為高端內(nèi)存對應(yīng)的 page 找一個線性空間,這個過程稱為高端內(nèi)存映射。
假 設(shè)按照上述簡單的地址映射關(guān)系,那么內(nèi)核邏輯地址空間訪問為0xc0000000 ~ 0xffffffff,那么對應(yīng)的物理內(nèi)存范圍就為0×0 ~ 0×40000000,即只能訪問1G物理內(nèi)存。若機(jī)器中安裝8G物理內(nèi)存,那么內(nèi)核就只能訪問前1G物理內(nèi)存,后面7G物理內(nèi)存將會無法訪問,因?yàn)閮?nèi)核 的地址空間已經(jīng)全部映射到物理內(nèi)存地址范圍0×0 ~ 0×40000000。即使安裝了8G物理內(nèi)存,那么物理地址為0×40000001的內(nèi)存,內(nèi)核該怎么去訪問呢?代碼中必須要有內(nèi)存邏輯地址 的,0xc0000000 ~ 0xffffffff的地址空間已經(jīng)被用完了,所以無法訪問物理地址0×40000000以后的內(nèi)存。
顯 然不能將內(nèi)核地址空間0xc0000000 ~ 0xfffffff全部用來簡單的地址映射。因此x86架構(gòu)中將內(nèi)核地址空間劃分三部分:ZONE_DMA、ZONE_NORMAL和 ZONE_HIGHMEM。ZONE_HIGHMEM即為高端內(nèi)存,這就是內(nèi)存高端內(nèi)存概念的由來。
在x86結(jié)構(gòu)中,三種類型的區(qū)域(從3G開始計(jì)算)如下:
ZONE_DMA 內(nèi)存開始的16MB
ZONE_NORMAL 16MB~896MB
ZONE_HIGHMEM 896MB ~ 結(jié)束(1G)
高端內(nèi)存是指物理地址大于 896M 的內(nèi)存。對于這樣的內(nèi)存,無法在“內(nèi)核直接映射空間”進(jìn)行映射。
為什么?
因?yàn)?ldquo;內(nèi)核直接映射空間”最多只能從 3G 到 4G,只能直接映射 1G 物理內(nèi)存,對于大于 1G 的物理內(nèi)存,無能為力。
高端內(nèi)存映射有三種方式:
1、映射到“內(nèi)核動態(tài)映射空間”
這種方式很簡單,因?yàn)橥ㄟ^ vmalloc() ,在“內(nèi)核動態(tài)映射空間”申請內(nèi)存的時候,就可能從高端內(nèi)存獲得頁面(參看 vmalloc 的實(shí)現(xiàn)),因此說高端內(nèi)存有可能映射到“內(nèi)核動態(tài)映射空間” 中。
2、永久內(nèi)核映射
如果是通過 alloc_page() 獲得了高端內(nèi)存對應(yīng)的 page,如何給它找個線性空間?
內(nèi)核專門為此留出一塊線性空間,從 PKMAP_BASE 到 FIXADDR_START ,用于映射高端內(nèi)存。在 2.4 內(nèi)核上,這個地址范圍是 4G-8M 到 4G-4M 之間。這個空間起叫“內(nèi)核永久映射空間”或者“永久內(nèi)核映射空間”
這個空間和其它空間使用同樣的頁目錄表,對于內(nèi)核來說,就是 swapper_pg_dir,對普通進(jìn)程來說,通過 CR3 寄存器指向。
通常情況下,這個空間是 4M 大小,因此僅僅需要一個頁表即可,內(nèi)核通過來 pkmap_page_table 尋找這個頁表。
通過 kmap(), 可以把一個 page 映射到這個空間來
由于這個空間是 4M 大小,最多能同時映射 1024 個 page。因此,對于不使用的的 page,應(yīng)該及時從這個空間釋放掉(也除映射關(guān)就是解系),通過 kunmap() ,可以把一個 page 對應(yīng)的線性地址從這個空間釋放出來。
3、臨時映射
內(nèi)核在 FIXADDR_START 到 FIXADDR_TOP 之間保留了一些線性空間用于特殊需求。這個空間稱為“固定映射空間”
在這個空間中,有一部分用于高端內(nèi)存的臨時映射。
這塊空間具有如下特點(diǎn):
1、 每個 CPU 占用一塊空間