開發函數計算的正確姿勢——使用 brotli 壓縮大文件

大文件問題

函數計算對上傳的 zip 代碼包尺寸限制爲 50M。某些場景中代碼包中會超過這一限制,比如未經裁剪的 serverless-chrome ,類似的還有 libreoffice ,此外常見的還有機器學習訓練的模型文件。
目前解決大文件問題有三種方法

  1. 採用更高壓縮比的算法,比如本文介紹的 brotli 算法
  2. 採用 OSS 運行時下載
  3. 採用 NAS 文件共享

簡單的比較一下這三種方法的優劣

方法 優點 缺點
高密度壓縮 發佈簡單,啓動最快 上傳代碼包較慢;要寫解壓代碼;大小受限制不超過 50 M
OSS 下載解壓後文件不超過 512 M 需要預先上傳至 OSS;要寫下載和解壓代碼,大概 50M/s 的下載速度
NAS 文件大小沒有限制,無需壓縮 需要預先上傳至 NAS;VPC 環境有冷啓動時延(~5s)

正常情況下如果代碼包能控制在 50M 以下啓動較快。而且工程上也比較簡單,數據和代碼放在一起,不需要額外的寫腳本去同步更新 OSS 或者 NAS。

壓縮算法

Brotli 是 Google 工程師開發的開源壓縮算法,目前已經被新版的主流瀏覽器支持,作爲 HTTP 傳輸的壓縮算法。下面是在網上找到的關於 Brotli 和其他常見壓縮算法對比基準測試。

開發函數計算的正確姿勢——使用 brotli 壓縮大文件
開發函數計算的正確姿勢——使用 brotli 壓縮大文件
開發函數計算的正確姿勢——使用 brotli 壓縮大文件
開發函數計算的正確姿勢——使用 brotli 壓縮大文件

從上面三幅圖我們可以看出:相比於 gzip、xz 和 bz2,brotli 有最高的壓縮比,接近於 gzip 的解壓速度,以及最慢的壓縮速度。

然而在我們的場景對於壓縮慢這一缺點不敏感,壓縮任務只要在開發準備物料的階段執行一次就好了。

製作壓縮文件

下面我先介紹一下如何製作壓縮文件。下面的代碼和用例都來自於項目 packed-selenium-java-example

安裝 brotli 命令

Mac 用戶

brew install brotli

Windows 用戶可以去這個界面下載,https://github.com/google/brotli/releases

打包並壓縮

打包前兩個文件大小分別爲 7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21]
╰─  ll
total 213840
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

使用 GZip 打包並壓縮,大小爲 44 M。

╭─ ~/D/test1[◷ 18:15:33]
╰─  tar -czvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:16:41]
╰─  ll
total 306216
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    44M  3  6 18:16 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

tar 去掉 z 選項再打包一遍,大小爲 104M

╭─ ~/D/test1[◷ 18:16:42]
╰─  tar -cvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:17:06]
╰─  ll
total 443232
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff   104M  3  6 18:17 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

壓縮後的大小爲 33M,相比 Gzip 的 44M 小了不少。耗時也非常的感人 6 分 18 秒,Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08]
╰─  time brotli -q 11 -j -f chromedriver.tar
brotli -q 11 -j -f chromedriver.tar  375.39s user 1.66s system 99% cpu 6:18.21 total
╭─ ~/D/test1[◷ 18:24:23]
╰─  ll
total 281552
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    33M  3  6 18:17 chromedriver.tar.br
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

運行時解壓縮

下面以 java maven 項目爲例

添加解壓依賴包

<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.18</version>
</dependency>

<dependency>
    <groupId>org.brotli</groupId>
    <artifactId>dec</artifactId>
    <version>0.1.2</version>
</dependency>

commons-compress 是 apache 提供的解壓縮工具包,對於各種壓縮算法提供一致的抽象接口,其中對於 brotli 算法只支持解壓,這裏足夠了。org.brotli:dec 包是 Google 提供的 brotli 解壓算法的底層實現。

實現 initialize 方法

public class ChromeDemo implements  FunctionInitializer {

    public void initialize(Context context) throws IOException {

        Instant start = Instant.now();

        try (TarArchiveInputStream in =
                     new TarArchiveInputStream(
                             new BrotliCompressorInputStream(
                                     new BufferedInputStream(
                                             new FileInputStream("chromedriver.tar.br"))))) {

            TarArchiveEntry entry;
            while ((entry = in.getNextTarEntry()) != null) {
                if (entry.isDirectory()) {
                    continue;
                }
                File file = new File("/tmp/bin", entry.getName());
                File parent = file.getParentFile();
                if (!parent.exists()) {
                    parent.mkdirs();
                }

                System.out.println("extract file to " + file.getAbsolutePath());

                try (FileOutputStream out = new FileOutputStream(file)) {
                    IOUtils.copy(in, out);
                }

                Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),
                        getPosixFilePermission(entry.getMode()));
            }
        }

        Instant finish = Instant.now();
        long timeElapsed = Duration.between(start, finish).toMillis();

        System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

    }
}

實現 FunctionInitializer 接口的 initialize 方法。解壓過程剛開始是四層嵌套流,作用分別如下:

  1. FileInputStream 讀取文件
  2. BufferedInputStream 提供緩存,介紹系統調用帶來的上下文切換,提示讀取的速度
  3. BrotliCompressorInputStream 對字節流進行解碼
  4. TarArchiveInputStream 把 tar 包裏的文件逐個解出來

然後 Files.setPosixFilePermissions 的作用是還原 tar 包中文件的權限。代碼太長此處略去,參閱 packed-selenium-java-example

Instant start = Instant.now();
...

Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();

System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代碼段會打印出解壓的耗時,真實執行大概在 3.7 s 左右。

最後不要忘記在 template.yml 裏配置上 InitializerInitializationTimeout

參考閱讀

  1. https://www.opencpu.org/posts/brotli-benchmarks/
  2. https://github.com/vangie/packed-selenium-java-example

加入我們

團隊介紹

阿里雲函數服務是一個全新的,支持事件驅動編程模式的計算服務。 他幫助用戶聚焦自身業務邏輯,以 Serverless的方式構建應用,快速的實現低成本,可擴展,高可用的系統,而無需考慮服務器等底層基礎設施的管理。 用戶能夠快速的創建原型,同樣的架構能隨業務規模平滑伸縮。讓計算變得更高效,更經濟,更彈性,更可靠。無論小型創業公司,還是大型企業,都受益其中。我們的團隊正在迅速擴張,求賢若渴。我們想尋找這樣的隊友:
基本功紮實。既能閱讀論文追蹤業界趨勢,又能快速編碼解決實際問題。
嚴謹的,系統化的思維能力。既能整體考慮業務機會,系統架構,運維成本等諸多因素,又能掌控設計/開發/測試/發佈的完整流程,預判並控制風險。
好奇心和使命感驅動。樂於探索未知領域,不僅是夢想家,也是踐行者。
堅韌、樂觀、自信。能在壓力和困難中看到機會,讓工作充滿樂趣!
如果您對雲計算充滿熱情,想要構建一個有影響力計算平臺和生態體系,請加入我們,和我們一起實現夢想!

職位描述

構建新一代 Serverless 計算平臺,包括:

  1. 設計和實現完整可擴展的前端系統,包括身份驗證/權限管理,元數據管理,流量控制,計量計費,日誌監控等等
  2. 設計和實現彈性可靠的後端系統,包括資源調度,負載均衡,容錯處理等等
  3. 豐富易用的 SDK/Tools/CLI/控制檯
  4. 用戶需求驅動,追蹤業界趨勢,利用技術推動業務的成長

職位要求

  1. 算法/數據結構/操作系統等基礎知識紮實,優秀的邏輯思維能力。
  2. 至少掌握一門編程語言。例如 Java/Go/C/C#/C++。
  3. 有大規模、高可用分佈式系統開發經驗者優先。
  4. 有 Web/Mobile Backends/Microservice 開發經驗者優先。
  5. 良好的溝通能力和團隊合作精神,有一定的組織協調能力。
  6. 本科及以上學歷
  7. 3 年以上工作經驗,通過“阿里巴巴編碼規範” 認證的同學優先錄取,認證地址:https://edu.aliyun.com/certification/cldt02

簡歷提交

yixian.dw AT alibaba-inc.com

阿里巴巴雲原生技術圈關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的技術圈。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章