阿里雲智能總裁行癲全面解讀雙 11 核心系統 100% 上雲是如何實現的

阿里雲智能的「四位一體」。
​​

許多人都知道阿里雲是在一片對雲計算的質疑聲中發展起來的,而其所經歷過的同樣的還有「阿里會將全部業務都放到阿里雲公共雲上嗎?」的懷疑。

前不久,行癲曾與我們分享過 —— 「我們做了一個非常大的決定,那就是阿里經濟體中所有的 IT 設施,所有的數據中臺全部遷移到阿里雲上。」

我們在雙 11 得到了最直觀的印證。

在平穩度過 2019 天貓雙 11 流量峯值後,阿里巴巴正式宣佈,其核心繫統已 100% 跑在阿里雲公共雲上。國內唯一自研的飛天雲操作系統,成功扛住全球最大規模的流量洪峯,由此,阿里巴巴成爲全球首個將核心交易系統 100% 運行在公共雲上的大型互聯網公司。

在雙十一現場,阿里巴巴集團 CTO 兼阿里雲智能總裁行癲全方位總結並分享了當雙十一已經走過 11 年,是如何在用戶及商家完全無感知的情況下,將數以十萬計的物理服務器從線下數據中心遷移到了雲上。

以下爲行癲演講整理:

我們剛剛過了 2500 億交易額,過去的一天,20 個小時是阿里技術上最經受考驗的一次。

從去年開始,我們決定把整個阿里巴巴經濟體核心系統全部上雲,其實上雲還要加一個定語,是上“阿里雲”,並不是上任何一朵雲都能撐得住這個流量。在中國,我們經常說中國有兩朵雲,一朵叫做“阿里雲”,還有一朵叫做“其它雲”。

爲什麼講阿里雲跟其它雲不一樣,因爲在中國只有阿里雲是完全從頭研發的一朵雲,從頭是從每一行代碼,從十年前開始寫,今年是阿里雲的第 10 年,所以我們這個雲有一個特別的名字,叫做“飛天操作系統”,當初王堅博士創辦阿里雲的時候,對我們這個雲下面的調度系統,整個雲的基礎平臺,取名叫做“飛天操作系統”。

我們的雲完全是中國自研的一朵雲,其它很多雲從開源軟件改造過來的,這是非常大的不一樣。

其次,今年雙 11,阿里仍然是一家在高速飛行中的飛機,我們成功地在這個過程中換上了全新的引擎。以前大家把非核心負載放在雲上,現在阿里巴巴最核心的系統放在了雲上。我們的雲把原來專用的技術變成公共雲,大家都可以來享受普惠服務。我們有最好的系統,你們也可以在上面跟我們一樣使用。

阿里雲承載阿里巴巴自己 100% 的核心繫統,這個是我們全球第一個做到的。很多雲廠商自己也有業務系統,但是自己的系統不在自己的雲上。我們以後所有阿里系統全部都在阿里雲的飛天操作系統上面。

大家一定會想,這是一個簡單的替換還是技術上非常大的一個進步、非常大的挑戰?我簡單說一下,我們有幾個方面做得非常好,它不是簡單的替換,上雲之後性能有了一個非常大的提高。

今天大家可能有感覺,我們前十分鐘,基本上消費者沒有感受到任何抖動,大家購物非常順暢。

第一,我們在覈心虛擬機系統上,自己研發了神龍架構,我們用自研的服務器來做虛擬化,一般的服務器隨着壓力增長,最終負載能力會慢慢下降,它不是線性的。我們神龍服務器壓力越大,輸出也是非常線性的,這是非常難做到的。

第二我們自研了雲原生的數據庫,今年有兩個數據庫,一個是自研的 OceanBase,大家知道我們在 TPC-C 測試裏面拿下了全球第一。第二是 PolarDB,也廣泛用在這次雙 11 上,沒有任何問題,我們每秒峯值也是遠遠超越於原來 Oracle 這樣傳統的數據庫。

第三,我們的計算與存儲做了分離,現在阿里巴巴存儲是有一個地方專門存數據的,數據都是從遠端存取的,所以存儲可以很方便的擴容,因爲它有一個專門的池。原來做不到。因爲原來遠端存儲,訪問網絡速度就跟不上。

第四個核心技術,之所以現在能夠做到在遠端存儲,能夠比本地讀寫磁盤更快,是因爲我們做了 RDMA 網絡,這是全球第一個大規模做 RDMA 網絡的公司。

我們這四個方面都做了核心突破。

飛天操作系統,今天能夠在 10 萬臺級別以上的服務器裏面做調度,今天雙 11 有非常多的應用,但是它並不是說每一個時間點,所有應用負載都是一樣的。我們在零點把大部分計算機資源分配給交易等應用,過了一點之後,我們把數據分配給數據處理系統。數據處理今年創了一個新高,2017 年當天處理了 300PB 的數據,2018 年處理了 600PB 的數據,今年要處理 970P 左右的數據。

大家可能沒有概念,一個 P 到底有多少數據,我上次跟央視的人交流,央視拍了這麼多年電視新聞節目,幾十年下來他了大概 80P 的數據。雙 11 一天,我們要處理 970P 的數據,非常大的量,沒有一個先進的系統是撐不住的。

第二個是非常實時,大家看到了,今天在秒殺,在會場全部都是個性化,千人千面的,這裏的數據不僅是大,而且是要做到非常實時,到目前爲止,我們菜鳥物流系統已經產生了超過 10 億筆的物流單,這個數據還在很快的上漲,這些都需要依靠阿里雲背後大量的計算能力。

我們今年的數據,除了批處理之外,還有流處理,就是實時處理所有數據,就像你們看到的交易數據,每分鐘、每秒鐘都在變,它並不是從數據庫裏面統計出來的,它是每生成一筆訂單,系統自動一層層把數據彙集上來。我們這個系統每秒能處理 25 億筆記錄,這是流式的系統。

我們這麼多服務器,要把它全部管理起來,除了飛天系統之外,還要管理所有的消息流轉,所以我們自己開發了一個叫做 MQ 的消息系統,這也是全球目前最大的一個消息系統。

今天,從飛天系統、大數據處理平臺到智能化應用,這些技術疊加起來打造了一個新的分佈式的基於雲的平臺,才使得阿里整個經濟體所有核心應用都能夠跑在上面。

最後,我們今年除了數據庫突破之外,也發佈了自研的芯片,含光 800 芯片。明年雙 11,阿里大量人工智能應用都會跑在自研芯片上面。

今天從飛天雲操作系統到神龍服務器、數據庫、交換機、交換機操作系統、RDMA 網絡,全部是阿里自研的。

我們今天已經積累了非常豐富、非常強的能力,從硬件、數據庫、雲計算操作系統,到上面的核心應用平臺,四位一體,這是這次雙 11 跟往年最大不一樣的地方。​​​​

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章