Docker限制容器可用內存

默認情況下容器使用的資源是不受限制的。也就是可以使用主機內核調度器所允許的最大資源。但是在容器的使用過程中,經常需要對容器可以使用的主機資源進行限制,本文介紹如何限制容器可以使用的主機內存。

爲什麼要限制容器對內存的使用?

限制容器不能過多的使用主機的內存是非常重要的。對於 linux 主機來說,一旦內核檢測到沒有足夠的內存可以分配,就會扔出 OOME(Out Of Memmory Exception),並開始殺死一些進程用於釋放內存空間。糟糕的是任何進程都可能成爲內核獵殺的對象,包括 docker daemon 和其它一些重要的程序。更危險的是如果某個支持系統運行的重要進程被幹掉了,整個系統也就宕掉了!這裏我們考慮一個比較常見的場景,大量的容器把主機的內存消耗殆盡,OOME 被觸發後系統內核立即開始殺進程釋放內存。如果內核殺死的第一個進程就是 docker daemon 會怎麼樣?結果是所有的容器都不工作了,這是不能接受的!
針對這個問題,docker 嘗試通過調整 docker daemon 的 OOM 優先級來進行緩解。內核在選擇要殺死的進程時會對所有的進程打分,直接殺死得分最高的進程,接着是下一個。當 docker daemon 的 OOM 優先級被降低後(注意容器進程的 OOM 優先級並沒有被調整),docker daemon 進程的得分不僅會低於容器進程的得分,還會低於其它一些進程的得分。這樣 docker daemon 進程就安全多了。
我們可以通過下面的腳本直觀的看一下當前系統中所有進程的得分情況:

#!/bin/bash
for proc in $(find /proc -maxdepth 1 -regex '/proc/[0-9]+'); do
    printf "%2d %5d %s\n" \
        "$(cat $proc/oom_score)" \
        "$(basename $proc)" \
        "$(cat $proc/cmdline | tr '\0' ' ' | head -c 50)"
done 2>/dev/null | sort -nr | head -n 40

 

此腳本輸出得分最高的 40 個進程,並進行了排序:

第一列顯示進程的得分,mysqld 排到的第一名。顯示爲 node server.js 的都是容器進程,排名普遍比較靠前。紅框中的是 docker daemon 進程,非常的靠後,都排到了 sshd 的後面。

有了上面的機制後是否就可以高枕無憂了呢!不是的,docker 的官方文檔中一直強調這只是一種緩解的方案,並且爲我們提供了一些降低風險的建議:

  • 通過測試掌握應用對內存的需求
  • 保證運行容器的主機有充足的內存
  • 限制容器可以使用的內存
  • 爲主機配置 swap

好了,囉嗦了這麼多,其實就是說:通過限制容器使用的內存上限,可以降低主機內存耗盡時帶來的各種風險。

壓力測試工具 stress

爲了測試容器的內存使用情況,筆者在 ubuntu 的鏡像中安裝了壓力測試工作 stress,並新創建了鏡像 u-stress。本文演示用的所有容器都會通過 u-stress 鏡像創建(本文運行容器的宿主機爲 CentOS7)。下面是創建 u-stress 鏡像的 Dockerfile:

FROM ubuntu:latest

RUN apt-get update && \
        apt-get install stress

創建鏡像的命令爲:

$ docker build -t u-stress:latest .

限制內存使用上限

在進入繁瑣的設置細節之前我們先完成一個簡單的用例:限制容器可以使用的最大內存爲 300M。
-m(--memory=) 選項可以完成這樣的配置:

$ docker run -it -m 300M --memory-swap -1 --name con1 u-stress /bin/bash

下面的 stress 命令會創建一個進程並通過 malloc 函數分配內存:

# stress --vm 1 --vm-bytes 500M

通過 docker stats 命令查看實際情況:

上面的 docker run 命令中通過 -m 選項限制容器使用的內存上限爲 300M。同時設置 memory-swap 值爲 -1,它表示容器程序使用內存的受限,而可以使用的 swap 空間使用不受限制(宿主機有多少 swap 容器就可以使用多少)。
下面我們通過 top 命令來查看 stress 進程內存的實際情況:

上面的截圖中先通過 pgrep 命令查詢 stress 命令相關的進程,進程號比較大的那個是用來消耗內存的進程,我們就查看它的內存信息。VIRT 是進程虛擬內存的大小,所以它應該是 500M。RES 爲實際分配的物理內存數量,我們看到這個值就在 300M 上下浮動。看樣子我們已經成功的限制了容器能夠使用的物理內存數量。

限制可用的 swap 大小

強調一下 --memory-swap 是必須要與 --memory 一起使用的。

正常情況下, --memory-swap 的值包含容器可用內存和可用 swap。所以 --memory="300m" --memory-swap="1g" 的含義爲:
容器可以使用 300M 的物理內存,並且可以使用 700M(1G -300M) 的 swap。--memory-swap 居然是容器可以使用的物理內存和可以使用的 swap 之和!

把 --memory-swap 設置爲 0 和不設置是一樣的,此時如果設置了 --memory,容器可以使用的 swap 大小爲 --memory 值的兩倍。

如果 --memory-swap 的值和 --memory 相同,則容器不能使用 swap。下面的 demo 演示了在沒有 swap 可用的情況下向系統申請大量內存的場景:

$ docker run -it --rm -m 300M --memory-swap=300M u-stress /bin/bash
# stress --vm 1 --vm-bytes 500M

demo 中容器的物理內存被限制在 300M,但是進程卻希望申請到 500M 的物理內存。在沒有 swap 可用的情況下,進程直接被 OOM kill 了。如果有足夠的 swap,程序至少還可以正常的運行。

我們可以通過 --oom-kill-disable 選項強行阻止 OOM kill 的發生,但是筆者認爲 OOM kill 是一種健康的行爲,爲什麼要阻止它呢?

除了限制可用 swap 的大小,還可以設置容器使用 swap 的緊迫程度,這一點和主機的 swappiness 是一樣的。容器默認會繼承主機的 swappiness,如果要顯式的爲容器設置 swappiness 值,可以使用 --memory-swappiness 選項。

總結

通過限制容器可用的物理內存,可以避免容器內服務異常導致大量消耗主機內存的情況(此時讓容器重啓是較好的策略),因此可以降低主機內存被耗盡帶來的風險。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章