CDN原理 運維部落

CDN是什麼?   轉載:運維部落

8年前,還沒有火車票代售點一說,12306.cn更是無從說起。那時候火車票還只能在火車站的售票大廳購買,而我所住的小縣城並不通火車,火車票都要去市裏的火車站購買,而從縣城到市裏,來回就是4個小時車程,簡直就是浪費生命。後來就好了,小縣城裏出現了火車票代售點,可以直接在代售點購買火車,方便了不少,全市人民再也不用在一個點苦逼的排隊買票了。

CDN就可以理解爲分佈在每個縣城的火車票代售點,用戶在瀏覽網站的時候,CDN會選擇一個離用戶最近的CDN邊緣節點來響應用戶的請求,這樣海南移動用戶的請求就不會千里迢迢跑到北京電信機房的服務器(假設源站部署在北京電信機房)上了。

CDN的優勢

  • (1)CDN節點解決了跨運營商和跨地域訪問的問題,訪問延時大大降低;

  • (2)大部分請求在CDN邊緣節點完成,CDN起到了分流作用,減輕了源站的負載。

二、緩存是什麼?

這裏不深究CDN背後高大上的架構,也不討論CDN如何做到全局流量調度策略,本文着重討論在有了CDN後,數據是如何被緩存的。緩存是一個到處都存在的用空間換時間的例子。通過使用多餘的空間,我們能夠獲取更快的速度。

首先,看看沒有網站沒有接入CDN時,用戶瀏覽器與服務器是如何交互的:

12.png

用戶在瀏覽網站的時候,瀏覽器能夠在本地保存網站中的圖片或者其他文件的副本,這樣用戶再次訪問該網站的時候,瀏覽器就不用再下載全部的文件,減少了下載量意味着提高了頁面加載的速度。

如果中間加上一層CDN,那麼用戶瀏覽器與服務器的交互如下:

4.jpeg

客戶端瀏覽器先檢查是否有本地緩存是否過期,如果過期,則向CDN邊緣節點發起請求,CDN邊緣節點會檢測用戶請求數據的緩存是否過期,如果沒有過期,則直接響應用戶請求,此時一個完成http請求結束;如果數據已經過期,那麼CDN還需要向源站發出回源請求(back to the source request),來拉取最新的數據。CDN的典型拓撲圖如下:

5.jpeg


可以看到,在存在CDN的場景下,數據經歷了客戶端(瀏覽器)緩存和CDN邊緣節點緩存兩個階段,下面分別對這兩個階段的緩存進行詳細的剖析

三、瀏覽器緩存(客戶端)

1、客戶端緩存的缺點

客戶端緩存減少了的服務器請求,避免了文件重複加載,顯著地提升了用戶地方。但是當網站發生了更新的時候(如替換了css、js以及圖片文件),瀏覽器本地仍保存着舊版本的文件,從而導致無法預料後果。

曾幾何時,一個頁面加載出來,頁面各元素位置亂飄,按鈕點擊失效,前端GG都會習慣性地問一句:“緩存清了沒?”,然後Ctrl+F5       ,Everything is OK。但有些時候,如果我們是簡單地在瀏覽器地址欄中敲一個回車,或者是僅僅按F5刷新,問題依然沒有解決,你可知道這三種不同的操作方式,決定瀏覽器不同的刷新緩存策略?

2、緩存策略

Expires

Expires:Sat, 24 Jan 2015 20:30:54 GMT

6.jpeg

如果http響應報文中設置了Expires,在Expires過期之前,我們就避免了和服務器之間的連接。此時,瀏覽器無需想瀏覽器發出請求,只需要自己判斷手中的材料是否過期就可以了,完全不需要增加服務器的負擔。

Cache-control: max-age

7.jpeg

xpires的方法很好,但是我們每次都得算一個精確的時間。max-age 標籤可以讓我們更加容易的處理過期時間。我們只需要說,這份資料你只能用一個星期就可以了。

Max-age 使用秒來計量,如:

Cache-Control:max-age=645672

指定頁面645672秒(7.47天)後過期。

Last-Modified

服務器爲了通知瀏覽器當前文件的版本,會發送一個上次修改時間的標籤,例如:

Last-Modified:Tue, 06 Jan 2015 08:26:32 GMT

8.jpeg

這樣瀏覽器就知道他收到的這個文件創建時間,在後續的請求中,瀏覽器會按照下面的規則進行驗證:

  • 瀏覽器:Hey,我需要jquery.min.js這個文件,如果是在 Tue, 06 Jan 2015 08:26:32 GMT 之後修改過的,請發給我。

  • 服務器:(檢查文件的修改時間)

  • 服務器:Hey,這個文件在那個時間之後沒有被修改過,你已經有最新的版本了。

  • 瀏覽器:太好了,那我就顯示給用戶了。

在這種情況下,服務器僅僅返回了一個304的響應頭,減少了響應的數據量,提高了響應的速度。關於304響應,請參考:http://www.cnblogs.com/ziyunfei/archive/2012/11/17/2772729.html,下圖是按F5刷新頁面後,頁面返回304響應頭。

9.jpeg

ETag

通常情況下,通過修改時間來比較文件是可行的。但是在一些特殊情況,例如服務器的時鐘發生了錯誤,服務器時鐘進行修改,夏時制DST到來後服務器時間沒有及時更新,這些都會引起通過修改時間比較文件版本的問題。

ETag可以用來解決這種問題。ETag是一個文件的唯一標誌符。就像一個哈希或者指紋,每個文件都有一個單獨的標誌,只要這個文件發生了改變,這個標誌就會發生變化。

服務器返回ETag標籤:

ETag:”39001d-1762a-50bf790757e00”

10.jpeg

接下來的訪問順序如下所示:

  1. 瀏覽器:Hey,我需要jquery.min.js這個文件,有沒有不匹配”39001d-1762a-50bf790757e00”這個串的

  2. 服務器:(檢查ETag…)

  3. 服務器:Hey,我這裏的版本也是”39001d-1762a-50bf790757e00”,你已經是最新的版本了

  4. 瀏覽器:好,那就可以使用本地緩存了

如同 Last-modified 一樣,ETag 解決了文件版本比較的問題。只不過 ETag 的級別比 Last-Modified 高一些。

額外的標籤

緩存標籤永遠不會停止工作,但是有時候我們需要對已經緩存的內容進行一些控制。

  • Cache-control: public 表示緩存的版本可以被代理服務器或者其他中間服務器識別。

  • Cache-control: private 意味着這個文件對不同的用戶是不同的。只有用戶自己的瀏覽器能夠進行緩存,公共的代理服務器不允許緩存。

  • Cache-control: no-cache 意味着文件的內容不應當被緩存。這在搜索或者翻頁結果中非常有用,因爲同樣的URL,對應的內容會發生變化。

11.jpeg

3、瀏覽器緩存刷新

在地址欄中輸入網址後按回車或點擊轉到按鈕

瀏覽器以最少的請求來獲取網頁的數據,瀏覽器會對所有沒有過期的內容直接使用本地緩存,從而減少了對瀏覽器的請求。所以,Expires,max-age標記只對這種方式有效。

按F5或瀏覽器刷新按鈕

瀏覽器會在請求中附加必要的緩存協商,但不允許瀏覽器直接使用本地緩存,它能夠讓 Last-Modified、ETag發揮效果,但是對Expires無效。

按Ctrl+F5或按Ctrl並點擊刷新按鈕

這種方式就是強制刷新,總會發起一個全新的請求,不使用任何緩存。

四、CDN緩存

瀏覽器本地緩存失效後,瀏覽器會向CDN邊緣節點發起請求。類似瀏覽器緩存,CDN邊緣節點也存在着一套緩存機制。

1、CDN緩存原理描述

  1. 用戶輸入URL,瀏覽器將解析過後的域名發給DNS服務器

  2. CDN返回該域名對應的CNAME,此時瀏覽器需要再次對獲得的CNAME進行解析,才能得到CDN緩存服務器的IP地址。在此過程中全局負載均衡DNS解析服務器會將用戶的訪問請求定位到離用戶最近、負載最輕的CDN緩存服務器上。這種技術也被稱爲“DNS重定向”,DNS服務器不是爲每個請求返回相同的IP地址,比如在悉尼的一個客戶請求解析www.cdn.com,DNS服務器根據地理位置,計算出距離這個用戶最近的CDN服務器,於是返回一個悉尼CDN節點的IP地址。這種方法也不一定是最優的,因爲地理位置上最近的兩個點,延遲可能反而很高。還有一種方法是通過估計節點間的樣本延遲,具體原理我也不瞭解。

  3. 再次解析後,瀏覽器得到CDN緩存服務器的實際IP地址,向緩存服務器發起請求。

  4. 緩存服務器根據瀏覽器提供的域名,通過內部DNS解析得到此域名源服務器的真實IP地址,再由緩存服務器向該服務器發起訪問請求。

  5. 緩存服務器拿到數據後,一方面將數據發回瀏覽器,另一方面進行本地保存,以備後用。之後再次訪問,數據將從CDN緩存服務器中被返回。CDN不會永久保存數據,可以設置CDN的刷新頻率,來達到數據的更新。

  6. 瀏覽器得到由緩存服務器發回的數據,並將其顯示出來。至此,完成整個域名訪問的過程。

2、CDN緩存的缺點

CDN的分流作用不僅減少了用戶的訪問延時,也減少的源站的負載。但其缺點也很明顯:當網站更新時,如果CDN節點上數據沒有及時更新,即便用戶再瀏覽器使用Ctrl +F5的方式使瀏覽器端的緩存失效,也會因爲CDN邊緣節點沒有同步最新數據而導致用戶訪問異常。

3、CDN緩存策略

CDN邊緣節點緩存策略因服務商不同而不同,但一般都會遵循http標準協議,通過http響應頭中的Cache-control: max-age的字段來設置CDN邊緣節點數據緩存時間。

當客戶端向CDN節點請求數據時,CDN節點會判斷緩存數據是否過期,若緩存數據並沒有過期,則直接將緩存數據返回給客戶端;否則,CDN節點就會向源站發出回源請求,從源站拉取最新數據,更新本地緩存,並將最新數據返回給客戶端。

CDN服務商一般會提供基於文件後綴、目錄多個維度來指定CDN緩存時間,爲用戶提供更精細化的緩存管理。

CDN緩存時間會對“回源率”產生直接的影響。若CDN緩存時間較短,CDN邊緣節點上的數據會經常失效,導致頻繁回源,增加了源站的負載,同時也增大的訪問延時;若CDN緩存時間太長,會帶來數據更新時間慢的問題。開發者需要增對特定的業務,來做特定的數據緩存時間管理。

4、CDN緩存刷新

CDN邊緣節點對開發者是透明的,相比於瀏覽器Ctrl+F5的強制刷新來使瀏覽器本地緩存失效,開發者可以通過CDN服務商提供的“刷新緩存”接口來達到清理CDN邊緣節點緩存的目的。這樣開發者在更新數據後,可以使用“刷新緩存”功能來強制CDN節點上的數據緩存過期,保證客戶端在訪問時,拉取到最新的數據。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章