靜態資源版本更新與緩存

前百度工程師,曾負責百度 前端集成解決方案 的核心設計與開發工作。我現在稱這個領域爲【前端工程】。沒錯,這是我最愛嘮叨的問題域。

這是一個非常有趣的 非主流前端領域,這個領域要探索的是如何用工程手段解決前端開發和部署優化的綜合問題,入行到現在一直在學習和實踐中。

在我的印象中,facebook是這個領域的鼻祖,有興趣、有梯子的同學可以去看看facebook的頁面源代碼,體會一下什麼叫工程化。

接下來,我想從原理展開講述,多圖,較長,希望能有耐心看完。


---------------------------- 我是一條分割線 ----------------------------



讓我們返璞歸真,從原始的前端開發講起。上圖是一個“可愛”的index.html頁面和它的樣式文件a.css,用文本編輯器寫代碼,無需編譯,本地預覽,確認OK,丟到服務器,等待用戶訪問。前端就是這麼簡單,好好玩啊,門檻好低啊,分分鐘學會有木有!



然後我們訪問頁面,看到效果,再查看一下網絡請求,200!不錯,太™完美了!那麼,研發完成。。。。了麼?

等等,這還沒完呢!對於大公司來說,那些變態的訪問量和性能指標,將會讓前端一點也不“好玩”。

看看那個a.css的請求吧,如果每次用戶訪問頁面都要加載,是不是很影響性能,很浪費帶寬啊,我們希望最好這樣:


利用304,讓瀏覽器使用本地緩存。但,這樣也就夠了嗎?不成!304叫協商緩存,這玩意還是要和服務器通信一次,我們的優化級別是變態級,所以必須徹底滅掉這個請求,變成這樣:


強制瀏覽器使用本地緩存(cache-control/expires),不要和服務器通信。好了,請求方面的優化已經達到變態級別,那問題來了:你都不讓瀏覽器發資源請求了,這緩存咋更新?

很好,相信有人想到了辦法:通過更新頁面中引用的資源路徑,讓瀏覽器主動放棄緩存,加載新資源。好像這樣:


下次上線,把鏈接地址改成新的版本,就更新資源了不是。OK,問題解決了麼?!當然沒有!大公司的變態又來了,思考這種情況:


頁面引用了3個css,而某次上線只改了其中的a.css,如果所有鏈接都更新版本,就會導致b.css,c.css的緩存也失效,那豈不是又有浪費了?!

重新開啓變態模式,我們不難發現,要解決這種問題,必須讓url的修改與文件內容關聯,也就是說,只有文件內容變化,纔會導致相應url的變更,從而實現文件級別的精確緩存控制。

什麼東西與文件內容相關呢?我們會很自然的聯想到利用 數據摘要要算法 對文件求摘要信息,摘要信息與文件內容一一對應,就有了一種可以精確到單個文件粒度的緩存控制依據了。好了,我們把url改成帶摘要信息的:


這回再有文件修改,就只更新那個文件對應的url了,想到這裏貌似很完美了。你覺得這就夠了麼?大公司告訴你:圖樣圖森破!

唉~~~~,讓我喘口氣

現代互聯網企業,爲了進一步提升網站性能,會把靜態資源和動態網頁分集羣部署,靜態資源會被部署到CDN節點上,網頁中引用的資源也會變成對應的部署路徑:


好了,當我要更新靜態資源的時候,同時也會更新html中的引用吧,就好像這樣:


這次發佈,同時改了頁面結構和樣式,也更新了靜態資源對應的url地址,現在要發佈代碼上線,親愛的前端研發同學,你來告訴我,咱們是先上線頁面,還是先上線靜態資源?
  1. 先部署頁面,再部署資源:在二者部署的時間間隔內,如果有用戶訪問頁面,就會在新的頁面結構中加載舊的資源,並且把這個舊版本的資源當做新版本緩存起來,其結果就是:用戶訪問到了一個樣式錯亂的頁面,除非手動刷新,否則在資源緩存過期之前,頁面會一直執行錯誤。
  2. 先部署資源,再部署頁面:在部署時間間隔之內,有舊版本資源本地緩存的用戶訪問網站,由於請求的頁面是舊版本的,資源引用沒有改變,瀏覽器將直接使用本地緩存,這種情況下頁面展現正常;但沒有本地緩存或者緩存過期的用戶訪問網站,就會出現舊版本頁面加載新版本資源的情況,導致頁面執行錯誤,但當頁面完成部署,這部分用戶再次訪問頁面又會恢復正常了。
好的,上面一坨分析想說的就是:先部署誰都不成!都會導致部署過程中發生頁面錯亂的問題。所以,訪問量不大的項目,可以讓研發同學苦逼一把,等到半夜偷偷上線,先上靜態資源,再部署頁面,看起來問題少一些。

但是,大公司超變態,沒有這樣的“絕對低峯期”,只有“相對低峯期”。So,爲了穩定的服務,還得繼續追求極致啊!

這個奇葩問題,起源於資源的 覆蓋式發佈,用 待發布資源 覆蓋 已發佈資源,就有這種問題。解決它也好辦,就是實現 非覆蓋式發佈


看上圖,用文件的摘要信息來對資源文件進行重命名,把摘要信息放到資源文件發佈路徑中,這樣,內容有修改的資源就變成了一個新的文件發佈到線上,不會覆蓋已有的資源文件。上線過程中,先全量部署靜態資源,再灰度部署頁面,整個問題就比較完美的解決了。

所以,大公司的靜態資源優化方案,基本上要實現這麼幾個東西:

  1. 配置超長時間的本地緩存 —— 節省帶寬,提高性能
  2. 採用內容摘要作爲緩存更新依據 —— 精確的緩存控制
  3. 靜態資源CDN部署 —— 優化網絡請求
  4. 更資源發佈路徑實現非覆蓋式發佈 —— 平滑升級

全套做下來,就是相對比較完整的靜態資源緩存控制方案了,而且,還要注意的是,靜態資源的緩存控制要求在前端所有靜態資源加載的位置都要做這樣的處理。是的,所有!什麼js、css自不必說,還要包括js、css文件中引用的資源路徑,由於涉及到摘要信息,引用資源的摘要信息也會引起引用文件本身的內容改變,從而形成級聯的摘要變化,大概示意圖就是:


好了,目前我們快速的學習了一下前端工程中關於靜態資源緩存要面臨的優化和部署問題,新的問題又來了:這™讓工程師怎麼寫碼啊!!!

要解釋優化與工程的結合處理思路,又會扯出一堆有關模塊化開發、資源加載、請求合併、前端框架等等的工程問題,以上只是開了個頭,解決方案纔是精髓,但要說的太多太多,有空再慢慢展開吧。或者大家可以去我的blog看其中的一些拆解:fouber/blog · GitHub

總之,前端性能優化絕逼是一個工程問題!

以上不是我YY的,可以觀察 百度 或者 facebook 的頁面以及靜態資源源代碼,查看它們的資源引用路徑處理,以及網絡請中靜態資源的緩存控制部分。再次讚歎facebook的前端工程建設水平,跪舔了。

建議前端工程師多多關注前端工程領域,也許有人會覺得自己的產品很小,不用這麼變態,但很有可能說不定某天你就需要做出這樣的改變了。而且,如果我們能把事情做得更極致,爲什麼不去做呢?

另外,也不要覺得這些是運維或者後端工程師要解決的問題。如果由其他角色來解決,大家總是把自己不關心的問題丟給別人,那麼前端工程師的開發過程將受到極大的限制,這種情況甚至在某些大公司都不少見!

媽媽,我再也不玩前端了。。。。5555



========================[ 10.29更新 ]========================
這裏更新一下:

在評論中, @陳鋼@fleuria @林翔 提到了rails,剛剛去看了一下,確實是完成了以上所說的優化細節,對整個靜態資源的管理上的思考於本答案描述的一致。很遺憾我直到今天(2014-10-29)才瞭解到rails中的assets pipeline。這裏向以上3位同學道歉,原諒我的無知。

不過整篇回答沒有講解到具體的解決方案實現思路,只是介紹了前端在工程化方向的思考,答案本身是可用的,瞭解rails的人也可以把此答案當做是對rails中assets pipeline設計原理的分析。

rails通過把靜態資源變成erb模板文件,然後加入<%= asset_path 'image.png' %>,上線前預編譯完成處理,不得不承認,fis的實現思路跟這個幾乎完全一樣,但我們當初確實不知道有rails的這套方案存在。

相關資料:英文版:The Asset Pipeline,中文版:Asset Pipeline
========================[ 10.31更新 ]========================
用 F.I.S 包裝了一個小工具,完整實現整個回答所說的最佳部署方案,並提供了源碼對照,可以感受一下項目源碼和部署代碼的對照。
源碼項目:fouber/static-resource-digest-project · GitHub
部署項目:fouber/static-resource-digest-project-release · GitHub
部署項目可以理解爲線上發佈後的結果,可以在部署項目裏查看所有資源引用的md5化處理。

這個示例也可以用於和assets pipeline做比較。fis沒有assets的目錄規範約束,而且可以以獨立工具的方式組合各種前端開發語言(coffee、less、sass/scss、stylus、markdown、jade、ejs、handlebars等等你能想到的),並與其他後端開發語言結合。

assets pipeline的設計思想值得獨立成工具用於前端工程,fis就當做這樣的一個選擇吧。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章