如何編寫最佳的Dockerfile

譯者按: Dockerfile 的語法非常簡單,然而如何加快鏡像構建速度,如何減少 Docker 鏡像的大小卻不是那麼直觀,需要積累實踐經驗。這篇博客可以幫助你快速掌握編寫 Dockerfile 的技巧。

我已經使用 Docker 有一段時間了,其中編寫 Dockerfile 是非常重要的一部分工作。在這篇博客中,我打算分享一些建議,幫助大家編寫更好的 Dockerfile。

目標:

  • 更快的構建速度
  • 更小的 Docker 鏡像大小
  • 更少的 Docker 鏡像層
  • 充分利用鏡像緩存
  • 增加 Dockerfile 可讀性
  • 讓 Docker 容器使用起來更簡單

總結

  • 編寫.dockerignore 文件
  • 容器只運行單個應用
  • 將多個 RUN 指令合併爲一個
  • 基礎鏡像的標籤不要用 latest
  • 每個 RUN 指令後刪除多餘文件
  • 選擇合適的基礎鏡像(alpine 版本最好)
  • 設置 WORKDIR 和 CMD
  • 使用 ENTRYPOINT (可選)
  • 在 entrypoint 腳本中使用 exec
  • COPY 與 ADD 優先使用前者
  • 合理調整 COPY 與 RUN 的順序
  • 設置默認的環境變量,映射端口和數據卷
  • 使用 LABEL 設置鏡像元數據
  • 添加 HEALTHCHECK

示例

示例 Dockerfile 犯了幾乎所有的錯(當然我是故意的)。接下來,我會一步步優化它。假設我們需要使用 Docker 運行一個 Node.js 應用,下面就是它的 Dockerfile(CMD 指令太複雜了,所以我簡化了,它是錯誤的,僅供參考)。

FROM ubuntu

ADD . /app

RUN apt-get update
RUN apt-get upgrade -y
RUN apt-get install -y nodejs ssh mysql
RUN cd /app && npm install

# this should start three processes, mysql and ssh
# in the background and node app in foreground
# isn't it beautifully terrible? <3
CMD mysql & sshd & npm start

構建鏡像:

docker build -t wtf .

1. 編寫.dockerignore 文件

構建鏡像時,Docker 需要先準備context ,將所有需要的文件收集到進程中。默認的context包含 Dockerfile 目錄中的所有文件,但是實際上,我們並不需要.git 目錄,node_modules 目錄等內容.dockerignore 的作用和語法類似於 .gitignore,可以忽略一些不需要的文件,這樣可以有效加快鏡像構建時間,同時減少 Docker 鏡像的大小。示例如下:

.git/
node_modules/

2. 容器只運行單個應用

從技術角度講,你可以在 Docker 容器中運行多個進程。你可以將數據庫,前端,後端,ssh,supervisor 都運行在同一個 Docker 容器中。但是,這會讓你非常痛苦:

  • 非常長的構建時間(修改前端之後,整個後端也需要重新構建)
  • 非常大的鏡像大小
  • 多個應用的日誌難以處理(不能直接使用 stdout,否則多個應用的日誌會混合到一起)
  • 橫向擴展時非常浪費資源(不同的應用需要運行的容器數並不相同)
  • 殭屍進程問題 - 你需要選擇合適的 init 進程

因此,我建議大家爲每個應用構建單獨的 Docker 鏡像,然後使用 Docker Compose 運行多個 Docker 容器。

現在,我從 Dockerfile 中刪除一些不需要的安裝包,另外,SSH 可以用docker exec替代。示例如下:

FROM ubuntu

ADD . /app

RUN apt-get update
RUN apt-get upgrade -y

# we should remove ssh and mysql, and use
# separate container for database
RUN apt-get install -y nodejs  # ssh mysql
RUN cd /app && npm install

CMD npm start

3. 將多個 RUN 指令合併爲一個

Docker 鏡像是分層的,下面這些知識點非常重要:

  • Dockerfile 中的每個指令都會創建一個新的鏡像層。
  • 鏡像層將被緩存和複用
  • 當 Dockerfile 的指令修改了,複製的文件變化了,或者構建鏡像時指定的變量不同了,對應的鏡像層緩存就會失效
  • 某一層的鏡像緩存失效之後,它之後的鏡像層緩存都會失效
  • 鏡像層是不可變的,如果我們再某一層中添加一個文件,然後在下一層中刪除它,則鏡像中依然會包含該文件(只是這個文件在 Docker 容器中不可見了)。

Docker 鏡像類似於洋蔥。它們都有很多層。爲了修改內層,則需要將外面的層都刪掉。記住這一點的話,其他內容就很好理解了。

現在,我們將所有的RUN指令合併爲一個。同時把apt-get upgrade刪除,因爲它會使得鏡像構建非常不確定(我們只需要依賴基礎鏡像的更新就好了)

FROM ubuntu

ADD . /app

RUN apt-get update \
    && apt-get install -y nodejs \
    && cd /app \
    && npm install

CMD npm start

記住一點,我們只能將變化頻率一樣的指令合併在一起。將 node.js 安裝與 npm 模塊安裝放在一起的話,則每次修改源代碼,都需要重新安裝 node.js,這顯然不合適。因此,正確的寫法是這樣的:

FROM ubuntu

RUN apt-get update && apt-get install -y nodejs
ADD . /app
RUN cd /app && npm install

CMD npm start

4. 基礎鏡像的標籤不要用 latest

當鏡像沒有指定標籤時,將默認使用latest 標籤。因此, FROM ubuntu 指令等同於FROM ubuntu:latest。當時,當鏡像更新時,latest 標籤會指向不同的鏡像,這時構建鏡像有可能失敗。如果你的確需要使用最新版的基礎鏡像,可以使用 latest 標籤,否則的話,最好指定確定的鏡像標籤。

示例 Dockerfile 應該使用16.04作爲標籤。

FROM ubuntu:16.04  # it's that easy!

RUN apt-get update && apt-get install -y nodejs
ADD . /app
RUN cd /app && npm install

CMD npm start

5. 每個 RUN 指令後刪除多餘文件

假設我們更新了 apt-get 源,下載,解壓並安裝了一些軟件包,它們都保存在/var/lib/apt/lists/目錄中。但是,運行應用時 Docker 鏡像中並不需要這些文件。我們最好將它們刪除,因爲它會使 Docker 鏡像變大。

示例 Dockerfile 中,我們可以刪除/var/lib/apt/lists/目錄中的文件(它們是由 apt-get update 生成的)。

FROM ubuntu:16.04

RUN apt-get update \
    && apt-get install -y nodejs \
    # added lines
    && rm -rf /var/lib/apt/lists/*

ADD . /app
RUN cd /app && npm install

CMD npm start

6. 選擇合適的基礎鏡像(alpine 版本最好)

在示例中,我們選擇了ubuntu作爲基礎鏡像。但是我們只需要運行 node 程序,有必要使用一個通用的基礎鏡像嗎?node鏡像應該是更好的選擇。

FROM node

ADD . /app
# we don't need to install node
# anymore and use apt-get
RUN cd /app && npm install

CMD npm start

更好的選擇是 alpine 版本的node鏡像。alpine 是一個極小化的 Linux 發行版,只有 4MB,這讓它非常適合作爲基礎鏡像。

FROM node:7-alpine

ADD . /app
RUN cd /app && npm install

CMD npm start

apk是 Alpine 的包管理工具。它與apt-get有些不同,但是非常容易上手。另外,它還有一些非常有用的特性,比如no-cache--virtual選項,它們都可以幫助我們減少鏡像的大小。

7. 設置 WORKDIR 和 CMD

WORKDIR指令可以設置默認目錄,也就是運行RUN / CMD / ENTRYPOINT指令的地方。

CMD指令可以設置容器創建是執行的默認命令。另外,你應該講命令寫在一個數組中,數組中每個元素爲命令的每個單詞(參考官方文檔)。

FROM node:7-alpine

WORKDIR /app
ADD . /app
RUN npm install

CMD ["npm", "start"]

8. 使用 ENTRYPOINT (可選)

ENTRYPOINT指令並不是必須的,因爲它會增加複雜度。ENTRYPOINT是一個腳本,它會默認執行,並且將指定的命令錯誤其參數。它通常用於構建可執行的 Docker 鏡像。entrypoint.sh 如下:

#!/usr/bin/env sh
# $0 is a script name,
# $1, $2, $3 etc are passed arguments
# $1 is our command
CMD=$1

case "$CMD" in
  "dev" )
    npm install
    export NODE_ENV=development
    exec npm run dev
    ;;

  "start" )
    # we can modify files here, using ENV variables passed in
    # "docker create" command. It can't be done during build process.
    echo "db: $DATABASE_ADDRESS" >> /app/config.yml
    export NODE_ENV=production
    exec npm start
    ;;

   * )
    # Run custom command. Thanks to this line we can still use
    # "docker run our_image /bin/bash" and it will work
    exec $CMD ${@:2}
    ;;
esac

示例 Dockerfile:

FROM node:7-alpine

WORKDIR /app
ADD . /app
RUN npm install

ENTRYPOINT ["./entrypoint.sh"]
CMD ["start"]

可以使用如下命令運行該鏡像:

# 運行開發版本
docker run our-app dev

# 運行生產版本
docker run our-app start

# 運行bash
docker run -it our-app /bin/bash

9. 在 entrypoint 腳本中使用 exec

在前文的 entrypoint 腳本中,我使用了exec命令運行 node 應用。不使用exec的話,我們則不能順利地關閉容器,因爲 SIGTERM 信號會被 bash 腳本進程吞沒。exec命令啓動的進程可以取代腳本進程,因此所有的信號都會正常工作。

10. COPY 與 ADD 優先使用前者

COPY指令非常簡單,僅用於將文件拷貝到鏡像中。ADD相對來講複雜一些,可以用於下載遠程文件以及解壓壓縮包(參考官方文檔)。

FROM node:7-alpine

WORKDIR /app

COPY . /app
RUN npm install

ENTRYPOINT ["./entrypoint.sh"]
CMD ["start"]

11. 合理調整 COPY 與 RUN 的順序

我們應該把變化最少的部分放在 Dockerfile 的前面,這樣可以充分利用鏡像緩存。

示例中,源代碼會經常變化,則每次構建鏡像時都需要重新安裝 NPM 模塊,這顯然不是我們希望看到的。因此我們可以先拷貝package.json,然後安裝 NPM 模塊,最後才拷貝其餘的源代碼。這樣的話,即使源代碼變化,也不需要重新安裝 NPM 模塊。

FROM node:7-alpine

WORKDIR /app

COPY package.json /app
RUN npm install
COPY . /app

ENTRYPOINT ["./entrypoint.sh"]
CMD ["start"]

12. 設置默認的環境變量,映射端口和數據卷

運行 Docker 容器時很可能需要一些環境變量。在 Dockerfile 設置默認的環境變量是一種很好的方式。另外,我們應該在 Dockerfile 中設置映射端口和數據卷。示例如下:

FROM node:7-alpine

ENV PROJECT_DIR=/app

WORKDIR $PROJECT_DIR

COPY package.json $PROJECT_DIR
RUN npm install
COPY . $PROJECT_DIR

ENV MEDIA_DIR=/media \
    NODE_ENV=production \
    APP_PORT=3000

VOLUME $MEDIA_DIR
EXPOSE $APP_PORT

ENTRYPOINT ["./entrypoint.sh"]
CMD ["start"]

ENV指令指定的環境變量在容器中可以使用。如果你只是需要指定構建鏡像時的變量,你可以使用ARG指令。

13. 使用 LABEL 設置鏡像元數據

使用LABEL指令,可以爲鏡像設置元數據,例如鏡像創建者或者鏡像說明。舊版的 Dockerfile 語法使用MAINTAINER指令指定鏡像創建者,但是它已經被棄用了。有時,一些外部程序需要用到鏡像的元數據,例如nvidia-docker需要用到com.nvidia.volumes.needed。示例如下:

FROM node:7-alpine
LABEL maintainer "[email protected]"
...

14. 添加 HEALTHCHECK

運行容器時,可以指定--restart always選項。這樣的話,容器崩潰時,Docker 守護進程(docker daemon)會重啓容器。對於需要長時間運行的容器,這個選項非常有用。但是,如果容器的確在運行,但是不可(陷入死循環,配置錯誤)用怎麼辦?使用HEALTHCHECK指令可以讓 Docker 週期性的檢查容器的健康狀況。我們只需要指定一個命令,如果一切正常的話返回 0,否則返回 1。對 HEALTHCHECK 感興趣的話,可以參考這篇博客。示例如下:

FROM node:7-alpine
LABEL maintainer "[email protected]"

ENV PROJECT_DIR=/app
WORKDIR $PROJECT_DIR

COPY package.json $PROJECT_DIR
RUN npm install
COPY . $PROJECT_DIR

ENV MEDIA_DIR=/media \
    NODE_ENV=production \
    APP_PORT=3000

VOLUME $MEDIA_DIR
EXPOSE $APP_PORT
HEALTHCHECK CMD curl --fail http://localhost:$APP_PORT || exit 1

ENTRYPOINT ["./entrypoint.sh"]
CMD ["start"]

當請求失敗時,curl --fail 命令返回非 0 狀態。

本文采用意譯,版權歸原作者所有

轉載時請註明作者Fundebug以及本文地址:
https://blog.fundebug.com/2017/05/15/write-excellent-dockerfile/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章