Docker 運行時資源限制(轉)

原文鏈接:https://blog.csdn.net/candcplusplus/article/details/53728507

參考博客:https://blog.csdn.net/candcplusplus/article/details/53728507

默認情況下容器可以使用的主機 CPU 資源是不受限制的。和內存資源的使用一樣,如果不對容器可以使用的 CPU 資源進行限制,一旦發生容器內程序異常使用 CPU 的情況,很可能把整個主機的 CPU 資源耗盡,從而導致更大的災難。

Docker 基於 Linux 內核提供的 cgroups 功能,可以限制容器在運行時使用到的資源,比如內存、CPU、塊 I/O、網絡等。

內存限制

概述

Docker 提供的內存限制功能有以下幾點:

  • 容器能使用的內存和交換分區大小。
  • 容器的核心內存大小。
  • 容器虛擬內存的交換行爲。
  • 容器內存的軟性限制。
  • 是否殺死佔用過多內存的容器。
  • 容器被殺死的優先級

一般情況下,達到內存限制的容器過段時間後就會被系統殺死。

內存限制相關的參數

執行docker run命令時能使用的和內存限制相關的所有選項如下。

  • -m,--memory:內存限制,格式是數字加單位,單位可以爲 b,k,m,g。最小爲 4M
  • --memory-swap:內存+交換分區大小總限制。格式同上。必須比-m設置的大
  • --memory-reservation:內存的軟性限制。格式同上
  • --oom-kill-disable:是否阻止 OOM killer 殺死容器,默認沒設置
  • --oom-score-adj:容器被 OOM killer 殺死的優先級,範圍是[-1000, 1000],默認爲 0
  • --memory-swappiness:用於設置容器的虛擬內存控制行爲。值爲 0~100 之間的整數
  • --kernel-memory:核心內存限制。格式同上,最小爲 4M

用戶內存限制

用戶內存限制就是對容器能使用的內存和交換分區的大小作出限制。使用時要遵循兩條直觀的規則:-m,--memory選項的參數最小爲 4 M。--memory-swap不是交換分區,而是內存加交換分區的總大小,所以--memory-swap必須比-m,--memory大。在這兩條規則下,一般有四種設置方式。

你可能在進行內存限制的實驗時發現docker run命令報錯:WARNING: Your kernel does not support swap limit capabilities, memory limited without swap.
這是因爲宿主機內核的相關功能沒有打開。按照下面的設置就行。
step 1:編輯/etc/default/grub文件,將GRUB_CMDLINE_LINUX一行改爲GRUB_CMDLINE_LINUX="cgroup_enable=memory swapaccount=1"
step 2:更新 GRUB,即執行$ sudo update-grub
step 3: 重啓系統。

1. 不設置

如果不設置-m,--memory--memory-swap,容器默認可以用完宿舍機的所有內存和 swap 分區。不過注意,如果容器佔用宿主機的所有內存和 swap 分區超過一段時間後,會被宿主機系統殺死(如果沒有設置--00m-kill-disable=true的話)。

2. 設置-m,--memory,不設置--memory-swap

-m--memory設置一個不小於 4M 的值,假設爲 a,不設置--memory-swap,或將--memory-swap設置爲 0。這種情況下,容器能使用的內存大小爲 a,能使用的交換分區大小也爲 a。因爲 Docker 默認容器交換分區的大小和內存相同。

如果在容器中運行一個一直不停申請內存的程序,你會觀察到該程序最終能佔用的內存大小爲 2a。

比如$ docker run -m 1G ubuntu:16.04,該容器能使用的內存大小爲 1G,能使用的 swap 分區大小也爲 1G。容器內的進程能申請到的總內存大小爲 2G。

3. 設置-m,--memory=a--memory-swap=b,且b > a

-m設置一個參數 a,給--memory-swap設置一個參數 b。a 時容器能使用的內存大小,b是容器能使用的 內存大小 + swap 分區大小。所以 b 必須大於 a。b -a 即爲容器能使用的 swap 分區大小。

比如$ docker run -m 1G --memory-swap 3G ubuntu:16.04,該容器能使用的內存大小爲 1G,能使用的 swap 分區大小爲 2G。容器內的進程能申請到的總內存大小爲 3G。

4. 設置-m,–memory=a,–memory-swap=-1

-m參數設置一個正常值,而給--memory-swap設置成 -1。這種情況表示限制容器能使用的內存大小爲 a,而不限制容器能使用的 swap 分區大小。

這時候,容器內進程能申請到的內存大小爲 a + 宿主機的 swap 大小。

Memory reservation

這種 memory reservation 機制不知道怎麼翻譯比較形象。Memory reservation 是一種軟性限制,用於節制容器內存使用。給--memory-reservation設置一個比-m小的值後,雖然容器最多可以使用-m使用的內存大小,但在宿主機內存資源緊張時,在系統的下次內存回收時,系統會回收容器的部分內存頁,強迫容器的內存佔用回到--memory-reservation設置的值大小。

沒有設置時(默認情況下)--memory-reservation的值和-m的限定的值相同。將它設置爲 0 會設置的比-m的參數大 等同於沒有設置。

Memory reservation 是一種軟性機制,它不保證任何時刻容器使用的內存不會超過--memory-reservation限定的值,它只是確保容器不會長時間佔用超過--memory-reservation限制的內存大小。

例如:

$ docker run -it -m 500M --memory-reservation 200M ubuntu:16.04 /bin/bash

如果容器使用了大於 200M 但小於 500M 內存時,下次系統的內存回收會嘗試將容器的內存鎖緊到 200M 以下。

例如:

$ docker run -it --memory-reservation 1G ubuntu:16.04 /bin/bash

容器可以使用儘可能多的內存。--memory-reservation確保容器不會長時間佔用太多內存。

OOM killer

默認情況下,在出現 out-of-memory(OOM) 錯誤時,系統會殺死容器內的進程來獲取更多空閒內存。這個殺死進程來節省內存的進程,我們姑且叫它 OOM killer。我們可以通過設置--oom-kill-disable選項來禁止 OOM killer 殺死容器內進程。但請確保只有在使用了-m/--memory選項時才使用--oom-kill-disable禁用 OOM killer。如果沒有設置-m選項,卻禁用了 OOM-killer,可能會造成出現 out-of-memory 錯誤時,系統通過殺死宿主機進程或獲取更改內存。

下面的例子限制了容器的內存爲 100M 並禁止了 OOM killer:

$ docker run -it -m 100M --oom-kill-disable ubuntu:16.04 /bin/bash

是正確的使用方法。

而下面這個容器沒設置內存限制,卻禁用了 OOM killer 是非常危險的:

$ docker run -it --oom-kill-disable ubuntu:16.04 /bin/bash

容器沒用內存限制,可能或導致系統無內存可用,並嘗試時殺死系統進程來獲取更多可用內存。

一般一個容器只有一個進程,這個唯一進程被殺死,容器也就被殺死了。我們可以通過--oom-score-adj選項來設置在系統內存不夠時,容器被殺死的優先級。負值更教不可能被殺死,而正值更有可能被殺死。

核心內存

核心內存和用戶內存不同的地方在於核心內存不能被交換出。不能交換出去的特性使得容器可以通過消耗太多內存來堵塞一些系統服務。核心內存包括:

  • stack pages(棧頁面)
  • slab pages
  • socket memory pressure
  • tcp memory pressure

可以通過設置核心內存限制來約束這些內存。例如,每個進程都要消耗一些棧頁面,通過限制核心內存,可以在覈心內存使用過多時阻止新進程被創建。

核心內存和用戶內存並不是獨立的,必須在用戶內存限制的上下文中限制核心內存。

假設用戶內存的限制值爲 U,核心內存的限制值爲 K。有三種可能地限制核心內存的方式:

  1. U != 0,不限制核心內存。這是默認的標準設置方式
  2. K < U,核心內存時用戶內存的子集。這種設置在部署時,每個 cgroup 的內存總量被過度使用。過度使用核心內存限制是絕不推薦的,因爲系統還是會用完不能回收的內存。在這種情況下,你可以設置 K,這樣 groups 的總數就不會超過總內存了。然後,根據系統服務的質量自有地設置 U。
  3. K > U,因爲核心內存的變化也會導致用戶計數器的變化,容器核心內存和用戶內存都會觸發回收行爲。這種配置可以讓管理員以一種統一的視圖看待內存。對想跟蹤核心內存使用情況的用戶也是有用的。

例如:

$ docker run -it -m 500M --kernel-memory 50M ubuntu:16.04 /bin/bash

容器中的進程最多能使用 500M 內存,在這 500M 中,最多隻有 50M 核心內存。

$ docker run -it --kernel-memory 50M ubuntu:16.04 /bin/bash

沒用設置用戶內存限制,所以容器中的進程可以使用儘可能多的內存,但是最多能使用 50M 核心內存。

Swappiness

默認情況下,容器的內核可以交換出一定比例的匿名頁。--memory-swappiness就是用來設置這個比例的。--memory-swappiness可以設置爲從 0 到 100。0 表示關閉匿名頁面交換。100 表示所有的匿名頁都可以交換。默認情況下,如果不適用--memory-swappiness,則該值從父進程繼承而來。

例如:

$ docker run -it --memory-swappiness=0 ubuntu:16.04 /bin/bash

-memory-swappiness設置爲 0 可以保持容器的工作集,避免交換代理的性能損失。

CPU 限制

概述

Docker 的資源限制和隔離完全基於 Linux cgroups。對 CPU 資源的限制方式也和 cgroups 相同。Docker 提供的 CPU 資源限制選項可以在多核系統上限制容器能利用哪些 vCPU。而對容器最多能使用的 CPU 時間有兩種限制方式:一是有多個 CPU 密集型的容器競爭 CPU 時,設置各個容器能使用的 CPU 時間相對比例。二是以絕對的方式設置容器在每個調度週期內最多能使用的 CPU 時間。

CPU 限制相關參數

docker run命令和 CPU 限制相關的所有選項如下:

  • --cpuset-cpus="":允許使用的 CPU 集,值可以爲 0-3,0,1
  • -c,--cpu-shares=0 CPU:共享權值(相對權重)
  • cpu-period=0:限制 CPU CFS 的週期,範圍從 100ms~1s,即[1000, 1000000]
  • --cpu-quota=0:限制 CPU CFS 配額,必須不小於1ms,即 >= 1000
  • --cpuset-mems="":允許在上執行的內存節點(MEMs),只對 NUMA 系統有效

其中--cpuset-cpus用於設置容器可以使用的 vCPU 核。-c,--cpu-shares用於設置多個容器競爭 CPU 時,各個容器相對能分配到的 CPU 時間比例。--cpu-period--cpu-quata用於絕對設置容器能使用 CPU 時間。

--cpuset-mems暫用不上,這裏不談。

CPU 集

我們可以設置容器可以在哪些 CPU 核上運行。

例如:

$ docker run -it --cpuset-cpus="1,3" ubuntu:14.04 /bin/bash

表示容器中的進程可以在 cpu 1 和 cpu 3 上執行。

$ docker run -it --cpuset-cpus="0-2" ubuntu:14.04 /bin/bash

表示容器中的進程可以在 cpu 0、cpu 1 及 cpu 3 上執行。

在 NUMA 系統上,我們可以設置容器可以使用的內存節點。

例如:

$ docker run -it --cpuset-mems="1,3" ubuntu:14.04 /bin/bash

表示容器中的進程只能使用內存節點 1 和 3 上的內存。

$ docker run -it --cpuset-mems="0-2" ubuntu:14.04 /bin/bash

表示容器中的進程只能使用內存節點 0、1、2 上的內存。

CPU 資源的相對限制

默認情況下,所有的容器得到同等比例的 CPU 週期。在有多個容器競爭 CPU 時我們可以設置每個容器能使用的 CPU 時間比例。這個比例叫作共享權值,通過-c--cpu-shares設置。Docker 默認每個容器的權值爲 1024。不設置或將其設置爲 0,都將使用這個默認值。系統會根據每個容器的共享權值和所有容器共享權值和比例來給容器分配 CPU 時間。

假設有三個正在運行的容器,這三個容器中的任務都是 CPU 密集型的。第一個容器的 cpu 共享權值是 1024,其它兩個容器的 cpu 共享權值是 512。第一個容器將得到 50% 的 CPU 時間,而其它兩個容器就只能各得到 25% 的 CPU 時間了。如果再添加第四個 cpu 共享值爲 1024 的容器,每個容器得到的 CPU 時間將重新計算。第一個容器的CPU 時間變爲 33%,其它容器分得的 CPU 時間分別爲 16.5%、16.5%、33%。

必須注意的是,這個比例只有在 CPU 密集型的任務執行時纔有用。在四核的系統上,假設有四個單進程的容器,它們都能各自使用一個核的 100% CPU 時間,不管它們的 cpu 共享權值是多少。

在多核系統上,CPU 時間權值是在所有 CPU 核上計算的。即使某個容器的 CPU 時間限制少於 100%,它也能使用各個 CPU 核的 100% 時間。

例如,假設有一個不止三核的系統。用-c=512的選項啓動容器{C0},並且該容器只有一個進程,用-c=1024的啓動選項爲啓動容器C2,並且該容器有兩個進程。CPU 權值的分佈可能是這樣的:

PID    container    CPU CPU share
100    {C0}     0   100% of CPU0
101    {C1}     1   100% of CPU1
102    {C1}     2   100% of CPU2

CPU 資源的絕對限制

Linux 通過 CFS(Completely Fair Scheduler,完全公平調度器)來調度各個進程對 CPU 的使用。CFS 默認的調度週期是 100ms。

我們可以設置每個容器進程的調度週期,以及在這個週期內各個容器最多能使用多少 CPU 時間。使用--cpu-period即可設置調度週期,使用--cpu-quota即可設置在每個週期內容器能使用的 CPU 時間。兩者一般配合使用。

例如:

$ docker run -it --cpu-period=50000 --cpu-quota=25000 ubuntu:16.04 /bin/bash

將 CFS 調度的週期設爲 50000,將容器在每個週期內的 CPU 配額設置爲 25000,表示該容器每 50ms 可以得到 50% 的 CPU 運行時間。

$ docker run -it --cpu-period=10000 --cpu-quota=20000 ubuntu:16.04 /bin/bash

將容器的 CPU 配額設置爲 CFS 週期的兩倍,CPU 使用時間怎麼會比周期大呢?其實很好解釋,給容器分配兩個 vCPU 就可以了。該配置表示容器可以在每個週期內使用兩個 vCPU 的 100% 時間。

CFS 週期的有效範圍是 1ms~1s,對應的--cpu-period的數值範圍是 1000~1000000。而容器的 CPU 配額必須不小於 1ms,即--cpu-quota的值必須 >= 1000。可以看出這兩個選項的單位都是 us。

正確的理解“絕對”

注意前面我們用–cpu-quota設置容器在一個調度週期內能使用的 CPU 時間時實際上設置的是一個上限。並不是說容器一定會使用這麼長的 CPU 時間。比如,我們先啓動一個容器,將其綁定到 cpu 1 上執行。給其--cpu-quota--cpu-period都設置爲 50000。

$ docker run --rm --name test01 --cpu-cpus 1 --cpu-quota=50000 --cpu-period=50000 deadloop:busybox-1.25.1-glibc

調度週期爲 50000,容器在每個週期內最多能使用 50000 cpu 時間。

再用docker stats test01可以觀察到該容器對 CPU 的使用率在100%左右。然後,我們再以同樣的參數啓動另一個容器。

$ docker run --rm --name test02 --cpu-cpus 1 --cpu-quota=50000 --cpu-period=50000 deadloop:busybox-1.25.1-glibc

再用docker stats test01 test02可以觀察到這兩個容器,每個容器對 cpu 的使用率在 50% 左右。說明容器並沒有在每個週期內使用 50000 的 cpu 時間。

使用docker stop test02命令結束第二個容器,再加一個參數-c 2048啓動它:

$ docker run --rm --name test02 --cpu-cpus 1 --cpu-quota=50000 --cpu-period=50000 -c 2048 deadloop:busybox-1.25.1-glibc

再用docker stats test01命令可以觀察到第一個容器的 CPU 使用率在 33% 左右,第二個容器的 CPU 使用率在 66% 左右。因爲第二個容器的共享值是 2048,第一個容器的默認共享值是 1024,所以第二個容器在每個週期內能使用的 CPU 時間是第一個容器的兩倍。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章