騰訊基礎設施 20 年演進之路

整理 | 唐小引
封圖 | 付費下載自視覺中國
出品 | CSDN(ID:CSDNnews)

騰訊 20 年,業務發展幾經變革。今天,在騰訊 Techo 開發者大會上,騰訊雲副總裁、雲架構平臺部總經理謝明博士與我們分享了騰訊過往二十年在基礎設施上的總體演進與創新,這是騰訊首次全面披露騰訊 20 年來在基礎設施方面的技術積累。

在 Techo 大會上,謝明博士分享騰訊 20 年基礎設施演進

譬如:

  • 在服務器方面,騰訊爲了應對業務進一步的極速爆發,研發了一套大規模上架管理系統,進而到今天,發佈了針對雲端場景做深度優化的自研服務器「星星海」;

  • 在數據中心方面,按照「高速化、規模化、集約化、智能化」來不斷演進;

  • 網絡層面,正在基於自研設備和 SDN 來構建第四代網絡架構;

  • 存儲方面,騰訊雲對象存儲引擎 YottaStore 能夠做到真正的按需擴容;

  • 數據庫方面,面對數據庫性能、成本、擴展性等挑戰,騰訊走上了自研數據庫的道路,並在今天正式開源了分佈式數據庫 TBase;

  • ……

從 2006 年加入騰訊以來,謝明博士主力負責海量數據存儲及接入業務相關技術的研發,在數據存儲、架構方面擁有着非常豐富的經驗。在大會現場,謝明博士向 CSDN(ID:CSDNnews)回顧了自己在騰訊 13 年的生涯及對於基礎設施建設的思考。

騰訊雲副總裁、雲架構平臺部總經理謝明博士(作者攝於 Techo 現場)

從社交網絡 Qzone 興起做分佈式存儲,定製了國內第一款多盤存儲服務器,到 QQ 農場帶來高併發的寫入,幫助早期滴滴構建基礎建設,再到今天服務涵蓋大中小型,謝明博士總結了騰訊在基礎設施演進過程中的關鍵詞 —— 「爲雲而生」。

謝博士這樣說道:「以往我們做的很多的技術都是爲了海量數據,面向大客戶、大業務,動輒上千萬、幾千億次的訪問,而今天到了雲時代,是普惠的,包含中小企業」。並且,「今天所面臨的挑戰和過去不一樣,過去是針對某一個問題單點突破,解決主要矛盾,今天各種問題錯綜複雜,難度要大很多」。

在這過程中,騰訊從一開始基於開源,到逐漸發現開源軟件難以滿足業務發展而進行自研,騰訊基礎建設能力逐漸形成,當前,騰訊不僅正在探索 AI、5G、IoT 的融合演進,同時至關重要的是,將逐漸將自己的基礎能力開放出來,讓更多的開發者及企業受益。

以下爲謝明博士在 Techo 大會的演講精粹整理:

我想從技術、架構等維度,和大傢俱體分享一下,過去 20 年,騰訊在基礎設施領域的演進和創新之路。

作爲全球最大的互聯網公司之一,我們的 QQ 活躍用戶達到 8 億,微信超過 11 億,同時還有多款億級 App。這些海量業務的背後,離不開強大的基礎設施來支撐。

一、服務器

今年 5 月,騰訊全網服務器總量超過了 100 萬臺,成爲中國首家服務器超過百萬臺的互聯網公司。

現在回過頭來看,其實,最早的時候,騰訊跟很多創業公司一樣,用的是通用服務器。

但是,作爲 ARPU 值比較低的互聯網服務,需要對服務器成本進行嚴格控制,因此,我們早在 2007 年就定製了第一款 Twins 服務器。

之後,爲應對業務進一步的極速爆發,我們開發了一套大規模上架管理系統,這套系統有效支持一天內交付 1000 臺以上設備的能力,幫助我們度過了業務洪峯。

但是,到了雲時代,客戶對服務器的性能、成本、安全性等有了更高的要求。爲應對這樣的變化,我們剛剛在成都發布了一款真正爲雲而生的自研服務器「星星海」,這款服務器最大的特點是針對雲端場景做深度優化,實現行業最優單核性能和最優單核 TCO,包括雲服務實例綜合性能提升 35%以上,最大負載能效提高 50%。

二、數據中心

海量的服務器離不開大規模的數據中心,一個夠用、好用的數據中心,已經絕不是「在一個房間放幾臺服務器,拉上電線網線,旁邊放兩臺空調」這麼簡單了。

騰訊數據中心整體上是按照「高速化、規模化、集約化、智能化」來不斷演進。

在最新的第四代數據中心 T-Block 建設中,我們通過將 IT、電力、空調的產品化,結合騰訊數據中心最佳模型及建設方法論,按照搭積木的方式,實現全數據中心的模塊化配置及快速建設。

相比於傳統大規模數據中心,現場施工週期減少 80%以上。同時,由於率先在行業內採用更高效率的製冷和供配電架構,系統能源使用效率得到有效提升。PUE 降低至 1.1,以一個擁有 30 萬臺服務器的園區爲例,一年可節省 2.5 億度電。

三、網絡

網絡方面,今天我們已經與超過 100 家運營商建立了網絡互連,出口帶寬也超過了 100Tb。

實際上,騰訊前兩代網絡架構,基本上都是依賴商用路由器,通過人工或者工具的方法來運營和變更。但這種方式很難滿足互聯網業務快速發展及永不斷線的要求。

於是在第三代網絡架構中,我們在商用路由器之外,實現了獨立的集中式路由控制器來統一管理,進行全局流量調度。比如,7 月份某運營商核心設備故障 3 個小時,騰訊網絡 3 分鐘切換出口恢復,類似的調度 19 年累計完成 549 次。

到了雲時代,尤其是 5G 的商用,網絡也遇到了新挑戰,比如管理複雜,10 萬級別商業網絡設備,上百種型號,每種型號設備管理接口不一致。其次是彈性能力,商業路由器無法滿足 IPV6 億級別路由表項需求。第三是網絡質量,用戶需要更精細的租戶粒度調度能力。

在這個背景下,騰訊基於自研設備和 SDN 來構建第四代網絡架構。

比如,在自研設備上,騰訊自研交換機 TCS83 支持單芯片 100G 端口,自研光網絡設備 OPC-4,單通道轉發能力達到業界頂級 600G 水平。通過自研,網絡設備 TCO 下降 20%+。

四、計算

虛擬化技術的成熟,使得在超大規模數據中心和高速互聯網絡的基礎上提供雲服務成爲了可能,騰訊雲主機管控平臺 Vstation 做到了每分鐘交付千臺虛擬機的能力,使得一箇中等規模公司的計算需求可以快速得到滿足。

隨着雲計算的進一步發展,用戶對彈性能力要求越來越高,除了 CPU 和內存以外,將存儲和網絡也從計算實例解耦出來成了必然選擇。現在,騰訊已經通過虛擬網絡 VPC 和軟件定義存儲 SDS 做到了內外網 IP 隨意漂移和雲盤的靈活掛載,再結合虛擬機的熱遷移技術,做到虛擬機在物理母機間的無感遷移,有效滿足物理資源升級容錯的需求。

五、存儲

存儲方面,一個標誌性事件是,2006 年的時候,騰訊兩款國民級應用 QQ 空間(Qzone)及相冊業務的突然爆發,讓當時的運營商的機位和帶寬全線告急,業務在高峯期必須採取限流措施。

爲應對每天海量的圖片上傳需求,我們根據當時最前沿的分佈式存儲理念,迅速開發出騰訊分佈式存儲 TFS,有效支持了 Qzone 相冊每天億級別的圖片上傳。

今天,機械硬盤容量從 10 年前的 500G 增長到了 16TB,但每 GB 存儲的 IOPS 能力卻下降到了原來的 3%。這時候需要一個全新的雲時代分佈式存儲,來充分利用超大規模數據中心中的計算和存儲能力。

騰訊雲對象存儲引擎 YottaStore 應運而生,並做到了真正的按需擴容,磁盤利用率達到 90% 以上,單集羣理論上可以管理百萬級節點,同時大幅降低了運維的人工投入。

六、數據庫

數據庫的發展也經過了幾個階段,在敏捷開發的 Web 時代,LAMP 技術架構非常流行,以 MySQL 爲代表的開源數據庫成爲首選。

隨着社交業務的迅猛發展,QQ/Qzone 活躍賬戶過億,Qzone 訪問峯值達到百萬/秒,對數據庫的性能、成本和擴展性挑戰非常大,騰訊開始走上自研數據庫的道路。

首先,在架構上,採用了基於 Share-Nothing 的分佈式計算存儲分離架構,讓計算、存儲的無限擴展成爲可能。其次,性能上,在單機上也嘗試軟硬結合優化,並通過採用多級存儲介質,達到最佳的性價比。

到了雲時代,技術棧的需要更加立體。我們通過開源託管、商業合作、自研三線齊發,提供超過 20 種數據庫產品,以及數據備份、SQL 審計、數據管理、數據遷移等服務等生態工具,讓用戶獲取最佳的上雲體驗。

七、彈性

通過分析以上我所講的六大基礎技術演進,我們不難發現,雲計算的發展正在發生巨大的變革,僅僅能夠提供常規的雲服務已經遠遠不夠。我認爲雲已經步入到一個極致彈性時代。那麼,極致彈性時代有哪些特徵呢,我認爲主要有三大層面:

  • 首先就是性能和容量能「上天下海」,做到實例規格的足夠大、足夠小,既能幫助大客戶扛住業務洪峯,又能讓小客戶不浪費一分錢;

  • 其次,計費模式上需要 “pay as you go”,真正按照使用量來計費;

  • 最後是快速的交付能力,秒升秒降,快上快下。

總體來看,極致彈性背後對資源管理粒度、資源調度能力、資源隔離能力以及計算/存儲解耦的架構都有強依賴。

八、雲基礎產品正在朝着極致彈性努力

事實上,騰訊雲在基礎設施之上,雲的基礎產品也在朝極致的彈性方向努力。

在計算方面,作爲虛擬機、容器後的第三代通用計算平臺,無服務函數計算平臺能夠提供更好的彈性能力,真正意義上做到資源使用率 100%,相應成本要下降 50% 以上。

目前,騰訊無服務函數計算平臺使用自研的輕量級虛擬化技術,可以將啓動時間縮短至 90 毫秒,並且使函數冷啓動率降低到萬分之一以內。

存儲產品,我們基於對象存儲通過底層的 YottaStore 存儲引擎,對於多數據中心容災的業務場景,推出了可用性和可靠性更高的多 AZ 存儲。讓數據根據用戶實際需求,靈活選擇,從而達到成本收益最大化。

數據庫方面,我們的 CynosDB 基於計算存儲解耦架構,通過存儲池化、日誌即數據庫、可計算存儲等技術,單實例可以達到百 TB 級別,資源利用率可到 100%。在降低成本的同時,也提供了秒級別擴展計算能力。

九、未來趨勢

雲計算基礎設置的進化之路還在進行,雲除了能夠具備提供強大、高效、靈活的產品能力之外,我們認爲未來雲計算會結合更多的智能來提供更好的服務。

比如,在智能運營方面,數據中心可以通過智能視頻和智能機器人來實現智能化管理。

智能服務方面,我們最近研發了一種基於深度強化學習的雲數據庫自動性能優化系統 CDBTune,性能調優結果首次全面超越數據庫專家。

此外還有數據的智能分層、計算的智能擴縮等,相信結合智能化的基礎設施一定大有可爲,這方面可以做的工作還非常多。

總結起來,用雲、上雲已經成爲大勢所趨,更有越來越多的產品直接誕生於雲中。雲計算基礎架構,在一切背後,更在一切之前,我們期待跟所有云用戶一起成長,共創未來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章