《CDN 之我見》原理篇——CDN的由來與調度 頂 轉

 

CDN是將源站內容分發至全國所有的節點,從而縮短用戶查看對象的延遲,提高用戶訪問網站的響應速度與網站的可用性的技術。它能夠有效解決網絡帶寬小、用戶訪問量大、網點分佈不均等問題。

爲了讓大家更全面的瞭解CDN的原理、調度、緩存和安全等關鍵技術點,阿里雲高級技術專家白金將自己從事 CDN 相關領域工作 8 年來的一些經驗、收穫和個人認知撰寫成《CDN之我見》系列文章,分享給大家。

《CDN 之我見》共分成多個部分,分爲原理篇、詳解篇和隕坑篇,因爲篇幅問題這裏先講第一部分。本篇章適合那些從未接觸過、或僅瞭解一些 CDN 專業術語,想深入瞭解和感受 CDN 究竟是什麼的同學。下面我們進入分享正文:

這個篇章,主要分成 4 個小部分來和大家做一下簡單的介紹和分享。

CDN的起源

CDN 誕生於二十多年前,隨着骨幹網壓力的逐漸增大,以及長傳需求的逐漸增多,使得骨幹網的壓力越來越大,長傳效果越來越差。於是在 1995 年,MIT 的應用數學教授 Tom Leighton 帶領着研究生 Danny Lewin 和其他幾位頂級研究人員一起嘗試用數學問題解決網絡擁堵問題。

他們使用數學算法,處理內容的動態路由安排,並最終解決了困擾 Internet 使用者的難題。後來,史隆管理學院的 MBA 學生 Jonathan Seelig 加入了 Leighton 的隊伍中,從那以後他們開始實施自己的商業計劃,最終於 1998 年 8 月 20 日正式成立公司,命名爲 Akamai。

同年 1998 年,中國第一家 CDN 公司 ChinaCache 成立。

在接下來的20年中,CDN行業歷經變革和持續發展,行業也涌現出很多雲CDN廠商。阿里雲CDN是2008年從淘寶CDN起家,在2014年正式發展成爲阿里雲CDN的,它不僅爲阿里巴巴集團所有子公司提供服務,同時也將自身的資源、技術以雲計算的方式輸出。

那什麼是 CDN 呢?

CDN 其實是 Content Delivery Network 的縮寫,即“內容分發網絡”。

上圖是一個做過 CDN 之後的拓撲圖,裏面有幾個概念需要明確一下:

  • Origin Server:源站,也就是做 CDN 之前的客戶真正的服務器。
  • User:訪問者,也就是問網站的網民。
  • Edge Server:CDN 的服務器,不單指“邊緣服務器”,這個之後細說。

在 CDN 中,還有 3 個”一英里“的概念,即 First Mile、Middle Mile 和 Last Mile。

  • First Mile:和 CDN 客戶的服務器越近越好的 CDN 設備,即第一英里。
  • Last Mile:訪問者(網民)到離他最近的 CDN 服務器,即最後一英里。
  • Middle Mile:數據從進入 CDN 網絡,到出 CDN 網絡之前的所有環節,即中間一英里。

爲什麼要用 CDN 呢?

從上圖可以看到,左圖是未做 CDN 之前跨洋跨國的長傳業務,用戶從西班牙訪問到美國紐約要經過北大西洋,直線距離6,000km 左右,按照光速300,000km/s 的傳輸速度,一束光從西班牙到紐約也至少需要 20ms 時間,一個往返就需要 40ms。如果是光纖傳輸數據,加上傳輸損耗、傳輸設備延時引入等,可能上百毫秒就出去了,即使用瀏覽器訪問一個再小不過的圖片,也會等個上百毫秒,積少成多,訪問一個美國購物網站會讓用戶無法接受。

右側這張圖是做過 CDN 之後的示意圖。從圖上可以看出,網民實際訪問到的服務器不是位於美國的真實服務器,而是位於英國的 CDN 服務器。而 CDN 本身有緩存功能,把那些網頁裏一成不變的內容,例如圖片、音樂、視頻等,都分發並緩存到了各個 CDN 服務節點上,這樣網民就不必從西班牙訪問到紐約,而是訪問距離自己較近的英國節點即可,從而節省了 80% 以上的時間。

當然,這是一個西班牙訪問英國 CDN 節點的例子,如果 CDN 節點也位於西班牙本地,則效果會更加明顯,具體細節後續會有更詳細的說明。

接下來說一下調度。調度是 CDN 中的重中之重,流量接入、流量牽引、選擇合適的 CDN 節點服務器等工作,都是在調度環節完成的。

要理解調度策略和原理,必須先了解 DNS 協議及其工作原理。

我們平時所工作的電腦裏,都會配置(人爲或自動)一個 DNS 服務器地址,我們稱之爲”本地 DNS“,也叫 Local DNS,簡稱 LDNS。在解析一個域名的時候,實際訪問的不是”域名“而是 IP 地址,則 LDNS 服務器的用途就是負責將域名翻譯成 Internet 可以識別的 IP 地址。

在請求某個域名時,LDNS 一般有兩個情況:一種是域名在 LDNS 上有記錄,另一種情況是沒有記錄,兩種情況的處理流程不一樣。

  • 假設當訪問 163 這個域名時,如果 LDNS 上有緩存記錄,那它會直接將 IP 地址吐出來。
  • 如果沒有緩存記錄,它將會一步步向後面的服務器做請求,然後將所有數據進行彙總後交給最終的客戶,這個環節術語叫”遞歸“。

在完全不命中情況,LDNS 首先會向全球13個根域服務器發起請求,詢問 .com 域名在哪裏,然後根域服務器作出回答,然後去向 .com 的服務器詢問 .163.com 在哪裏,一步步往下,最後拿到 www.163.com 這個域名所對應的 IP 地址。這個過程較複雜,如果大家感興趣可去查相關資料,在這就不一一贅述。

肯定很多人好奇是如何進行調度和進行定位的?其實也是通過 LDNS 的具體地址來進行的,如上圖所示。

假設網民是一個北京客戶,那他所使用的 DNS 服務器去做遞歸的時會訪問到CDN廠商的 GLB(Global Load Balance),它可以看到所訪問的域名請求是來自於哪個 LDNS,根據一般人的使用習慣,網民所在位置和 LDNS 所在位置是一樣的,因此 GLB 可以間接知道網民來自什麼位置。

以上圖爲例,假如網民是一個北京聯通的用戶,它使用的 LDNS 地址也是北京聯通的,而 LDNS 訪問 GLB 也是北京聯通的,則 GLB 則認爲網民的位置在北京聯通,那麼會分配一個北京聯通的 CDN 服務器地址給 LDNS,LDNS 將http:www.a.com解析出的 IP 地址返回給最終網民,那麼在以後網民瀏覽器發起請求的時候,都會直接與北京聯通的 CDN 節點進行流量通信,從而達到了加速的目的。

從這個調度理論上看,我們可以不難發現一個問題,就是重點標註出的“根據一般人的使用習慣”。假設網民所使用的 LDNS 地址和他自己在同一個區域,調度纔有可能是準確的(後續篇章會重點描述爲什麼是“有可能”)。

但是舉個例子來說,如果網民是北京聯通的用戶,但他卻偏要使用深圳電信的 LDNS,LDNS 出口也同樣是深圳電信的 IP 地址,那麼 GLB 會誤判網民位於深圳電信,分配給網民的 CDN 服務器也都是深圳電信的,後續網民會從北京聯通訪問到深圳電信,不但沒加速,可能反而降速了。

如前文所述,由於用戶使用習慣或一些其他原因,通過 LDNS 調度有可能是不準確的,因此又出現了另一種調度方式,HTTP 302 調度。

原理很簡單,無論網民最初拿到的 IP 地址是否是正確的,但最終都是要和這個 IP 地址的 CDN 服務器通信的,因此 CDN 服務器可以在這時知道網民的真實地址(DNS 調度時只能間接知道網民地址,雖然 EDNS-Client-Subnet 技術可以解決問題,但尚未大規模使用)。

HTTP 協議中有一個特殊的返回狀態:302。在 HTTP 服務器返回 302 狀態碼時,可以攜帶一個新的 URL(使用的是正確 IP),瀏覽器在拿到 302 返回狀態碼時,會提取其中新的 URL 地址發起請求,這樣就可以做到重新調度了。

除了 DNS 調度、HTTP 302 調度,還有一種使用 HTTP 進行的 DNS 調度策略。

隨着網絡日新月異的發展和演進,也逐漸出現了很多鮮爲人知的技術和設備,例如劫持(具體在後面的篇章裏會單獨闡述)。劫持後,網民所訪問的目標有可能不再是真實服務器,即使是真實服務器,內容也有可能是虛假的、被替換過的,這對業務安全來說是十分危險的,這種劫持現象多出現在移動互聯網(手機上網)。

爲了規避這種問題,出現了一種 HTTP DNS 的調度方式,原理是通過 HTTP 報文傳輸 DNS 請求和應答信息。但這種方式沒有任何 RFC 的支持,所以沒有任何現成的操作系統直接支持,必須有自己的 HTTP DNS 客戶端,來與 HTTP DNS 服務端進行通信,需要雙端支持。這種做法在 APP 中使用較多。

那 CDN 是如何將用戶的流量引入到 CDN 網絡中的呢?

在未做 CDN 時,我們訪問某個域名,直接拿到的是一個真實的服務器 IP 地址,這個顯示 IP 地址的 DNS 記錄信息叫 A 記錄,一般是下圖這個樣子。

當業務需要接入到 CDN 時,用戶只需調整自己的 DNS 配置信息,將 A 記錄改爲 CNAME 記錄,將內容改爲 CDN 廠商所提供的接入域名即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章