技術實踐丨PostgreSQL開啓Huge Page場景分析

PostgreSQL用戶經常發現,服務端在連接數較大的情況下,會出現系統內存消耗過多的情況,嚴重者可能會造成OOM。但是服務端配置的共享內存(shared_buffers,wal_buffers等)是一定的,爲什麼內存會持續增加呢?這就與PostgreSQL的多進程架構有關了,下面我們來分析下。

1. 大規格PG實例內存使用率較高分析

爲了保證物理內存能得到充分的利用,避免內存空間浪費,Linux把進程當前使用的內存部分加載到物理內存裏,而不使用的部分則暫不加載。PostMaster進程註冊共享內存時,系統只是分配一個虛擬的地址空間,並不直接分配物理內存。當有實際的內存訪問時,CPU纔會將虛擬地址映射到物理內存的一個地址上。維護這個映射關係的就是PageTable,它負責將虛擬內存地址轉換成物理內存地址。

Linux的內存管理採取的是分頁存取機制:把較大的物理內存分爲了一個個固定大小(4kB)的內存頁進行管理。每塊內存頁通過PageTable中的一個元組來維護虛擬/物理內存之間的映射。CPU爲了提高虛擬/物理內存之間的轉換效率,也會在TLB中緩存一定量的Page Table元組。

對於PostgreSQL這種多進程架構程序來說,當服務端使用的共享內存較大,且併發連接數較多時,由於操作系統對於每個進程都要維護單獨的內存映射,PageTable中的元組數目將會變得非常多,所佔用的內存大小也會特別大。

2. Huge Page改善措施

Linux爲了應對這種場景,降低多進程下PageTable的內存消耗。自從2.6及以上內核版本提供了內存頁大小爲2MB的管理方式,稱爲Huge Page。如果使用Huge Page的話,相同物理內存使用量的情況下內存頁的數目變少,減少了PageTable元組的條目個數,從而降低了系統的內存佔用。

作爲世界上最先進的開源數據庫,PostgreSQL也適配了Linux的Huge Page特性,服務端在註冊共享內存時,會通過配置參數huge_pages來決定是否申請大頁內存。

postgresql.conf:

    huge_pages = on            -- 註冊共享內存時必須使用大頁

    huge_pages = try            -- 註冊共享內存時首先考慮大頁,若系統提供的大頁內存不足時,則全部使用普通頁

    huge_pages = off            -- 註冊共享內存時不使用大頁

真實應用場景:某PG用戶將實例(shared_buffers = 64GB)部署在一臺內存爲256GB的ECS上,業務繁忙時ECS內存使用率爲85%,PageTable佔用內存120GB。而開啓Huge Page後相同業務場景的內存使用率降低到50%以下,PageTable大小僅300M!

3. PG實例開啓Huge Page操作步驟

(1)查看操作系統的Huge Page大小grep Hugepage /proc/meminfo

(2)估算PostgreSQL實例需要的Huge Page使用量:128GB/2MB * 1.2 = 78643

(3)/etc/sysctl.conf中添加:vm.nr_hugepages = 78643

(4)重新加載系統配置參數:sysctl –p

(5)確認是否配置成功。可以看到Huge Page總數爲78643

(6)確認PG配置文件打開huge_pages

(7)啓動PostgreSQL服務端,可以看到系統中的空閒Huge Page已經減少,部分大頁已經被共享內存使用。

4. Huge Page使用建議

雖然Huge Page在一定場景下可以改善服務端內存使用過高的情況,但不是鼓勵所有的PG實例都使用大頁,盲目的開啓Huge Page可能引起服務端的性能下降。下面我們根據Huge Page的優缺點來分析下使用場景。

Huge Page優勢:

(1)CPU的TLB可以緩存的物理地址空間更大,從而提升TLB的命中率,降低CPU負載;

(2)Huge Page使用的內存是不可交換(swap)的,沒有內存空間換入/換出的開銷;

(3)極大的減少了系統維護PageTable的內存開銷。

Huge Page劣勢:

(1)Huge Page使用的內存需要預先分配;

(2)Huge Page使用固定大小的內存區域,不會被釋放;

(3)對於寫密集型的場景,Huge Page會加大Cache寫衝突的發生概率。

所以強烈推薦PG實例開啓Huge Page的場景:共享內存使用較大(>=8GB)且連接數較多(>= 500),並且熱點數據分散。不推薦PG實例開啓Huge Page的場景:寫業務密集,熱點數據集中且內存使用較小。

5.PG開啓Huge Page時的注意事項

(1)當配置參數huge_pages設置爲on時,若PG啓動時需要註冊的共享內存大於操作系統提供的Huge Page大小時,數據庫將無法啓動。推薦將huge_pages參數設置爲try,在此種場景下,PostMaster將會改爲申請普通內存。

(2)修改shared_buffers/wal_buffers等共享內存相關的GUC參數時,需要重新計算操作系統所需的Huge Page數,以防服務端無法啓動或者部分大頁內存沒有被使用且無法釋放而造成浪費。

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章