深度好文推薦閱讀——阿里雲的這羣瘋子

阿里雲的這羣瘋子

鏈接: 阿里雲的這羣瘋子

這是一篇值得人深思的文章,也是博主最想推薦大家閱讀的文章!
功成名就的背後,無不是努力奮鬥,艱苦鑽研的結果!!!

世事安穩,歲月靜好。

電影裏纔有瘋子。麥克墨菲在瘋人院裏帶領一羣精神病人揭竿而起,懟天懟地;餓了三天的黑皮爲了搶一口麪包被店主追上高架橋,末路狂奔;傑克和泰勒在午夜的搏擊俱樂部裏揮拳相向,鮮血淋漓。屏幕對面,我們把爆米花塞進嘴裏,哭成狗或者笑成狗。電影散場,各自回家。

真正的瘋子,從來不看電影。

他們把別人的目光變成聚光燈,把自己的生活變成真人秀,手提鋼刀用肉身串演一個濃重的角色。他們的人生結局無外乎兩種:黃袍加身,或者玉石俱焚。

阿里雲這羣瘋子,就用56度的荷爾蒙,在橫跨十年的悠長畫布上塗抹了這樣一個故事。

在這裏插入圖片描述

(1)一個大問題

2008年9月,王堅加入阿里巴巴。

馬雲把他從微軟亞洲研究院常務副院長的位置挖來,是因爲阿里巴巴面臨一個重大的危機——公司的 “腦力” 快不夠用了。

阿里巴巴的“腦力”,其實就是“計算力”。

幾億用戶無論是在淘寶剁手,還是支付寶上轉賬,這一切都要靠巨大的計算力來思考、記憶。

恰恰和人一樣:

如果這個“大腦”記憶被填滿,就沒辦法儲存新的商品和交易記錄。

如果這個“大腦”思維速度跟不上,就沒有辦法讓用戶及時下單、付款。

2008年,中國雖然已經加入 WTO,還把國際友人請來熱熱鬧鬧地開了一次奧運會,但在科技領域仍然是個標準的“三無”國家:沒有自己的操作系統,沒有自己的芯片,同樣沒有自己的計算力系統。所以,購買國外成熟的設備和系統,幾乎是 BAT 和所有大國企的唯一選擇。

國外的東西,無外乎“IOE”這三樣標配:

I(IBM,服務器提供商,他們提供的服務器俗稱“小型機”)

O(Oracle,數據庫提供商,他們的軟件是著名的“甲骨文商業數據庫”)

E(EMC,存儲設備提供商,他們提供的是“集中式存儲”)。

鮮有人知,那時的阿里像依賴氧氣一樣依賴 IOE。

一個支付寶的同事給了我翻出了當年的數據:2008年,在阿里的IT架構中,淘寶和支付寶使用的絕大部分都是 IBM 小型機、Oracle 商業數據庫以及 EMC 集中式存儲。

當年用戶激增,數據越來越多,每天早上八點到九點半之間,服務器的處理器使用率都會飆升到 98%。離爆棚就差兩個百分點。

阿里巴巴就像賽道上的跑車:速度飛快,但引擎已經發紅,再踩幾腳油估計就要冒煙,後果不堪設想。

可能連馬雲自己都沒有想到,阻礙阿里巴巴增長最迫切的阻力不是商場上的博弈、不是政策的變化,而居然是 IT 基礎設施的瓶頸。

怎麼辦?花錢繼續買服務器和軟件啊!

這話聽上去沒錯。但是有兩個小問題:

一個問題是太貴。

那時候小型機價格大概是從幾十萬到百萬人民幣;商業數據庫軟件費用差不多幾千萬,外加一大筆維護費。王堅 08 年剛來阿里時就給馬雲算了算,按照這樣的速度“剁手”,光是買機器和軟件就足夠讓阿里破產。阿里得找到一種成本更低的技術架構。

另一個問題是不好用。

阿里在08-09年的時候,業務增長速度實在太快。每年都是十幾二十倍,IOE 雖然都是美國公司,但事實證明美國的月亮也不會更圓。它們的系統並沒有經受過服務幾億人這麼大規模的考驗,此時已經變得非常難用了。

2008 年中旬,馬雲召開了內部會議。事情已經刻不容緩,要研發一套新的技術架構來換掉阿里巴巴的舊引擎。

這個新的計算架構應該是什麼樣呢?

首先,它要便宜。

就像一日和三餐一樣,無論去哪家餐廳,都不如自己做飯更實惠。長遠來看,自己開發一套計算架構顯然是最經濟的。

其次,它要好用。

爲了滿足阿里巴巴龐大的計算任務,這套系統至少要比 IOE 表現更好,能同時調度數千臺計算機,組成一個巨大無比的“大腦”。

於是,“阿里雲”這個詞,第一次出現在公司高層的話語裏。而王堅,加盟阿里巴巴之後的職務恰恰是“首席架構師”,他的使命就是從零開始建立這個雲計算系統。

在這裏插入圖片描述

王堅

王堅是個理想主義者。

在他豐滿的理想中,這個新架構的每一行代碼都要自己來寫。但現實骨感:環顧四周,他身邊除了幾位從微軟帶來的舊部,幾乎一無所有。

2008年10月,這個想象中屬於中國的雲計算系統被團隊定名爲“飛天”,源自中國神話中的形象。

後來人們說,阿里雲是技術驅動型的企業。不過在我看來,最初阿里雲應該是起名驅動型的企業。名字倒是起得不錯,但作爲“三無”國家,底層科技起步較晚的中國在對美國的複雜計算機系統的戰爭中,幾十年都未嘗勝績。

中國人研究的雲計算,會“飛天”還是“墜毀”,旁人心裏多多少少是有判斷的,只是不便明說。

說回這個瘋狂的計劃。

飛天相當於一個發動機的,而時間緊迫,阿里巴巴準備同時做兩件事:一邊製造發動機,一邊爲自己的主力業務淘寶網順便造一個整車出來。

當時,淘寶網在計算力方面的主要需求就是“大規模數據計算”。所以,用飛天爲淘寶造“大規模數據計算”製造整車的計劃就被定名爲“雲梯計劃”。

實際上,“雲梯計劃”關乎阿里的生死,不是兒戲。思來想去,公司內部還是做了兩手準備:

1)用一些已有的開源軟件爲基礎,研發一個數據計算系統,這是“雲梯1”計劃。

2)而以“飛天”爲基礎,純自研一套數據計算系統,被定爲“雲梯2”計劃。

彼時絕沒人想到,五年後的那個下午,這兩座通向頂峯的雲梯會用怎樣的姿態佔據畫面的中心。千軍萬馬雄列兩旁,目睹榮耀的火焰和退潮的海水。

歷史就這樣以洶湧的姿態,向那些準備好的和沒準備好的人敞開。

在這裏插入圖片描述

(2)招兵買馬

2009年

阿里雲成立

滿弓是阿里雲的第六位工程師。

招他進來的,是王堅在微軟的舊部,阿里雲的第一技術負責人林晨曦。面試結束時,林晨曦歪嘴一笑,提醒滿弓:“你加入阿里雲之後,要做好隨時出差的準備。”

果然,滿弓簽完入職合同當天下午,就被“附贈”了一張火車票。他要去天津幫助招聘。

滿弓這樣回憶十年前的那個下午:

“阿里研發院” 2008年10月才成立,已經錯過了招聘季的黃金時期。但是我們又確實太需要人才了,於是刻不容緩,要再掃蕩一下那些大學,把“漏網之魚”打撈回來。

2009年阿里雲的招聘海報

跟着阿里雲的招聘隊伍,滿弓跑遍了全國主要的幾大城市十幾個學校。每到一個學校,只呆三天。

第一天做宣講,然後馬上筆試;第二天統一面試;第三天發 Offer。

彼時的阿里巴巴已經很有名氣了。很多錯過招聘季的同學喜出望外,一時間各大學校風起雲湧奔走相告齊來應聘,雖然從招聘者到應聘者,都沒見過雲計算長什麼樣子。

由於招聘人手實在太少,面對堆積如山的筆試試卷,滿弓他們根本判不過來。焦頭爛額的滿弓擦汗時一回頭,看到了同行的 HR 小姐姐。滿弓兩眼放光,二話不說把她們揪過來,一晚上就教會了她們如何判卷。

在這裏插入圖片描述

當時判卷的場景

經過這樣“連滾帶爬”的招聘,到了2008年年底,阿里雲湊夠了了三十位工程師。

話分兩頭。

下有林晨曦招兵買馬,上有王堅每天“畫餅”。

馬雲深受王堅鼓舞。雖然不懂技術,但是他逐漸發現,雲計算這件事情的價值比一開始想象中的要大得多。

這是因爲雲計算系統會製造出一種具有極強彈性的計算力。這樣的計算力一方面可以爲阿里巴巴添置家當,另一方面還可以“批發零售”給無數中小企業,爲未來世界建設了一整套“基礎設施”。

這樣來看,就把“獨善其身的工具”變成了“兼濟天下的生意”,這不正是馬雲創建阿里巴巴的基本信念嗎?

從這一刻開始,馬雲就對阿里雲寄予重望。只要有空,就到阿里雲的團隊裏和林晨曦、滿弓這些工程師們一起聊天討論。

馬雲、王堅和工程師們的合影
馬雲、王堅和工程師們的合影

然而,事情發展到這裏,就開始有些錯位了。

阿里的很多的業務部門希望的是穩定地在現有系統上加以改進,最好別冒太大風險;

但飛天團隊卻黃巾高擎赤膊上陣左右開弓,想依靠一己之力,開發出一套改寫世界歷史,可以讓中國人揚眉吐氣的完美雲計算系統。

剛纔我說阿里雲是“起名驅動型的公司”,你看看這幫瘋子給飛天內部模塊的命名,就知道他們心裏在想什麼了:

分佈式存儲的系統,就像大地一樣承載萬物,那就叫“盤古”。

調度系統,需要“能掐會算”,就用懂得陰陽八卦的“伏羲”命名。

結構化存儲系統,就用會蓋房子的“有巢”。

網絡通信,就用追日的“夸父”。

等等。

飛天團隊一片鬥志昂揚。

其他部門的很多領導層,用半信半疑外加慈愛的眼光看着他們。

c3dfb2607cb277fc29b831d5c432ff38e8539ad4

(3)淘寶的一場戰爭

時間不等人,轉眼到了2009年。

在隔壁淘寶網的普通員工中,有人在“隔江猶唱後庭花”,有人卻已經感到“山雨欲來風滿樓”。

2009年,小邪剛剛加入阿里一年,在淘寶網參與系統研發。當時他和同事都感覺到,淘寶網面臨的矛盾非常明顯:

業務並不賺錢,09年只有一個季度勉強盈利。而賺來的這點錢,眼看都要填進去購買服務器和軟件產品,入不敷出。

小邪記得很清楚,他昨天剛聽說隔壁阿里雲準備搞雲計算,今天就迎來了一個“特殊的客人”。

林晨曦走到淘寶網技術團隊面前,搬個板凳兀自坐下:“你們淘寶的大數據系統用我們的阿里雲架構吧。”

“代碼已經寫了多少?”小邪問。

“幾行吧。”林晨曦說。

事情就這樣定下來了。

雲梯1、雲梯2,兩套系統一邊搭建,一邊在淘寶內部實驗,一邊承擔部分計算任務以緩解現有系統不足的壓力。

當時淘寶技術保障數據庫管理員的負責人是后羿。他幾次欲言又止,還是硬着頭皮在內部會議上宣佈了這個消息:淘寶要放棄 Oracle,轉投自研的數據庫架構了。

結果,八十多個 Oracle 工程師把他堵在會議室裏。“你再說一句試試?”

他們的憤怒完全合情合理。“如果上邊鐵了心要幹,兄弟們的前途在哪裏?”

最終,一場惡鬥轉化成了幾十個工程師坐在會議室促膝談心。技術人是講理的:淘寶已經這麼大了,如果現在不刮骨療毒,自己砸自己的飯碗,將來整個淘寶都會命懸一線,到時候大家還不是淪落天涯。想通了這些,工程師們也冷靜多了。

這八十多個工程師裏,包括後來的阿里技術保障部負責人振飛。振飛站出來說:“好,讓我們學新技術可以,但是咱們拿事實說話。你后羿敢不敢跟我打個賭?以三年爲限,用新技術的淘寶核心交易系統必須達到零故障!”

后羿咬咬牙,敢!

但后羿一個人的分量還遠遠不夠重。畢竟淘寶上有這麼多業務,這麼多買家,這麼多賣家,萬一數據遷移失敗,誰來負責?時任淘寶技術總架構師行癲(現任阿里巴巴 CTO)見狀,把心一橫,宣佈自己和部門也願意站出來,共同承擔技術風險:“幹好了我們大家榮譽等身,幹壞了要殺要剮我來扛!”

看到行癲都賭上了自己的身家性命,也就沒人再說什麼了。

2009年秋天,轟轟烈烈的 IT 架構升級項目在淘寶網正式啓動。一羣 Oracle 工程師,就這樣含着淚,一點一點親手拆毀自己安身立命的系統。

8effb48c4ec0a976c68009527a93c1ce06381cc0

(4)荒野求生

林晨曦用來“忽悠”淘寶網的“幾行代碼”,是在北京寫出來的。

2009年春節上班第一天,在北京上地的匯衆大廈203這間連暖氣都沒有的辦公室裏,一幫工程師一邊口呼白氣,一邊敲出了“飛天”的第一行代碼。

377043ca6993d0facc7995ce3f65791eb20f7b76
飛天的第一行代碼

說起來,這個地方算是阿里雲最早的辦公室,但是門口也沒個牌子。直到半年後他們搬出大廈,保安都不知道這幫神神叨叨的人究竟是幹什麼的。(不過十年後的今天,他們的手機裏的很多 App 也許都跑在阿里雲的服務上。)

每天,工程師們除了噼裏啪啦寫代碼,還得順便“荒島求生”——自己訂水、買垃圾桶、修桌椅板凳、修無線網,連茶葉和咖啡都是從自己家帶來的。

不過,他們堅信自己在做的事情還是挺偉大的。“沒準將來我們成功了,我們寫的飛天第一行代碼還能印在T恤上呢!”角落裏有人瑟瑟發抖地說。

那個時候的他們,看上去和一幫戴着眼鏡的教徒無異。

時間馬上又到了夏天。北京的夏天,你懂的。當時測試系統的服務器就架在辦公室裏,這就是個巨大的火爐。大廈的空調不行,還沒到七月份,程序員就熱得撐不住了。爲了降溫,每天上午他們都叫冰場送兩大塊冰來。

有一次週六,馬雲來北京,專門到阿里雲的辦公室去看看。林晨曦趕緊想打開電腦給馬老師展示一下自己團隊的成果。結果按了半天開關,機器都沒反應。他才發現大廈停電。。。馬雲就這樣坐在辦公室等了半個小時,直到物業恢復供電才一睹阿里雲飛天系統最初的芳容。

王堅跟馬雲說,這幫人很能幹,每天晚上都加班。馬雲驚了,在這種地方還能加班??沒過幾天,阿里雲就搬出了這幢大樓,進入了有空調的辦公室。

2baf6b1e13c1c1660a0f74a4af8cd359a7591bb0

同事們往辦公室裏運冰

(5)神坑,阿里雲

金融大咖胡曉明,2005 年加入阿里,以辦事雷厲風行聞名全集團。

2009年6月,馬雲找到胡曉明,準備交給他一個大任:內部創業,做阿里金融的總裁。

胡曉明信心滿懷,準備擼起袖子說幹就幹。不料,馬老師悠悠地說,不要急,你要先答應我兩件事。

馬雲:第一件事,你只能做100萬人民幣以下的貸款生意,幫助像當年的我一樣借不到錢的創業者。

胡曉明:理解,這沒問題。

馬雲:第二件事,你必須跟剛成立的阿里雲綁在一起,用他們的技術架構支撐你的服務。

胡曉明:納尼??!!

這兩件事,胡曉明最終都答應了。不過阿里雲這幫看上去瘋瘋癲癲的人,他們技術到底靠不靠譜,胡曉明可是真沒底。

金融不像別的業務,這可是一個數據都不能錯,一個字節都不能丟。按照“行業祖訓”,打死都得用 IOE 這些國外大廠的基礎設施,現在可好,卻非得用聽上去就讓人懷疑的“阿里雲”。。。

“明明可以坐高鐵,卻偏偏要騎自行車去上海。”當時研發工程師王國濤的吐槽,代表了很多阿里金融同事們的心聲。

但馬老師肯定有馬老師的道理。阿里金融的同事們只能硬着頭皮跟阿里雲的朋友們握握手。

“牧羊犬”是阿里金融的第一個產品,簡單來說就是給淘寶商家貸款的項目。吐槽王王國濤回憶:“當時阿里雲一邊搭建飛天平臺,我們就一邊在飛天上面開發牧羊犬應用。這就像是開發商一邊在造房子,我們一邊在室內裝修鋪地板。”

飛天果然不負衆望。

數據傳輸問題、計算穩定性問題、處理速度問題一樣都不少,翻版篆版梅花版的錯誤層出不窮,各種 Bug 形式翻新,永不重複,這叫一個皮。。。

阿里金融的工程師必須24小時盯着系統,才能防止釀成大錯。當時情況危急到了什麼程度呢?一位奶爸工程師爲了值夜班盯系統,把自己小孩的哭聲設成了鬧鈴。因爲只有聽到這個聲音,他才能在無論多困的情況下從牀上彈起來。。。

這段時間,提到阿里雲,阿里金融的程序員們都是“眼睛乾乾的,有種想哭的心情”。他們的經典吐槽大概是這樣:人家的是雲計算,我們家的是“人肉雲計算”;人家的是“分佈式計算”,我們家的是“分步試計算”。。。

作爲合作伙伴,林晨曦每天的表情都有點兒尷尬,出則滿臉堆笑地幫阿里金融排除 Bug,入則愁容滿面地和同事們一起修改代碼。

眼看就要過春節了,兩個項目都快撐不住了。

被“豬隊友”坑得夠嗆的胡曉明氣鼓鼓地帶着核心骨幹跑到王堅辦公室門口“討說法”。胡曉明這個人,是出了名的“只要認定的事情就一定要辦成”,大有在王堅辦公室打地鋪靜坐的架勢。王堅無奈,派出所有的技術工程師,駐紮在阿里金融的現場加班開發,只爲了“讓兄弟團隊能過個好年”。

好不容易捱過了 2009 年,春節過後,阿里雲發佈了一次大版本升級。升級完成的一瞬間,空氣突然安靜了:

飛天系統穩定得不像阿里雲的作品。。。

阿里金融從一口口嗆水的狀態,一下子衝出海面。

巨大的計算力讓阿里金融實現了“秒級”放貸。這種技術進步讓“小額多次放貸”成爲了可能,這就讓阿里金融幾乎等於開掛,不良貸款率大大低於傳統金融機構。也正是因爲阿里雲“高效低價”的加持,單賬戶每年的 IT 成本可以控制在1元以內。

阿里金融,成爲了後來的網商銀行。他們就這樣無意間成爲了中國第一個上雲的銀行。

7a23c77c27313df9fa336c170492456eed18ab3a

胡曉明內心OS:

寶寶心裏苦,

但寶寶要笑 T_T…

(6)“騙子”王堅

解決了穩定性,阿里雲就像抓住了救命稻草,總算可以暫時喘口氣。

這些成績,也已經成功引起了其他公司的注意。於是 2010 年,在阿里巴巴出發兩年後,很多大公司紛紛着手研究自己的雲計算技術。

但所有人都沒想到,有一隻巨大的怪獸正在必經之路上靜靜等待着。

這隻怪獸名爲“5K”。

你還記得“雲梯1”和“雲梯2”兩個項目嗎?此時,終於輪到他們唱主角了。

兩座雲梯,就像“爭奪家產”的兩兄弟,規則很明確:

1、要想成功肩負起阿里巴巴的底層計算系統,就必須有能力獨自調度 5000 臺服務器。

2、兩兄弟誰先跑到 5000 這根線,就“贏者通喫”,繼承家業。

而 5000 這個目標,就寫爲 5K。

目標就擺在這,但無論是“雲梯1”還是“雲梯2”,都死活達不到這個指標。

李超是飛天伏羲調度系統的研發工程師。他用苦逼來形容自己的2010 到 2012。當時他帶着同事們沒日沒夜地加班,收穫的就是一個接一個的系統錯誤。

就這樣,一年過去了,兩年過去了。

王堅是一個性情溫和的人,但是那段時間,他幾乎天天跟團隊拍桌子。

滿弓回憶,每次一開會大家都會把桌子收拾乾淨,把水杯什麼的拿走,以防出現“事故”。

我記得有一次博士(王堅)很生氣,砰砰地拍手機。有一個工程師實在受不了了,說博士,你拍的是我的手機。。。

現實不是小說。神兵天降和劇情反轉並不存在。縱然他們幾乎嘗試了所有可能的技術策略,但就是沒有一種方案可以成功調度5000臺機器。

2012年底,以開源軟件爲基礎的“雲梯1”計劃實現了4000臺集羣調度,而阿里雲團隊更看好的純自研的“雲梯2”還在1500臺集羣的數量徘徊。

越是困難時刻,越會產生分歧。

實話實說,當時大多數的技術大牛,都覺得用經過全世界驗證的 Hadoop 爲基礎的“雲梯1”更有希望,對“雲梯2”嗤之以鼻。而阿里雲這幫人就是不認,因爲根據他們的推斷,Hadoop 在4K到5K的路上,肯定會遇到一個不可逾越的溝壑,於是倔強地帶着團隊大舉投入“雲梯2”。

在一片質疑和爭吵中,“最寒冷的冬天”就這樣降臨了。

1934年到1936年,從蘇區出發到陝北會師,三年長征,工農紅軍從8萬人銳減到3萬人。

從2010年到2012年,在阿里雲最艱苦的長征三年,“戰損率”只多不少。

由於沒有成績沒有進展,連續幾年阿里雲整個部門都在集團拿最低分。

滿弓、李超他們開始收到團隊同學的辭職書,林晨曦也收到了部下的轉崗信。這些郵件,最終都一封不少地塞在王堅的郵箱裏。

一般來說,三年時間足夠判斷一件事情到底靠不靠譜。“世界末日”那年,人們幾乎已經認定了阿里雲不可能做出一套雲計算系統了。不僅如此,很多阿里的同事都叫王堅“騙子”。開始大家還在背地裏說,後來,大家都不再忌諱,公司裏流傳着很多騙子王堅的笑話。“一個學心理的博士居然當上阿里巴巴的 CTO,心理學學得真好啊!”

無論是“伏羲”還是“盤古”,這些開天闢地的名字,此時都成爲了阿里雲這些人要滿足“個人野心”的明證,成爲了狂妄的代價,成爲了“不自量力”的恥辱。

7726352d7f9132c16a10711f699f5d168a171c47

當時內網論壇裏對阿里雲和王堅的吐槽

滿弓、李超、飛天總架構師唐洪、林晨曦,他們每天都是低着頭上班。今天,左邊的工位空了,明天,右邊的工位空了。。。

“誰也不知道王堅當時幫我們抗了多大的壓力。。。”李超回憶起那段日子,只說了這麼一句話。

眼看阿里雲成立就要滿五年了,集團裏卻風言風語地傳着“阿里雲要被撤掉”的消息。

某一天,馬雲突然召集阿里集團高管開會,所有業務部門的負責人都估計是馬雲要宣佈關掉阿里雲的消息,於是紛紛帶上自己的技術負責人蔘會,準備一聲令下,就瓜分阿里雲的技術人才。

在 2012 年的阿里雲年會上,王堅走上臺,他緊緊攥着話筒,幾次擡眼望向遠處,幾次欲言又止,最終泣不成聲。這個曾經揚言要用一己之力把中國雲計算鐫刻在世界科技史上的“瘋子”,就那樣孤零零站在原地,面對臺下黑壓壓的一羣錯愕的人。彷彿無數時間的列車在他眼前呼嘯飛逝,而他手裏沒有握着任何一張車票。

這是阿里雲故事裏最爲人所知的一個細節。但我猜很少有人記得,王堅一邊哭,一邊說了什麼。

他說:“這兩年我挨的罵甚至比我一輩子挨的罵還多。但是,我不後悔。只是,我上臺之前看到幾位同事,他們以前在阿里雲,現在不在阿里雲了。。。

就像王堅的一位老部下把辭職信交到他手裏時,對他說的那樣:做雲計算的感覺就像集體合圍抱一棵大樹,誰都知道最終大家的手會連在一起,但誰也不知道那一刻會發生在什麼時候。真的真的對不起,我撐不住了。。。

如果把阿里雲所有曾經的員工加起來,可能是現在的好幾倍。有太多太多的人都在那段暗淡的日子裏離開了。這不怪他們,任何一個能認真判斷利弊的人,也許在那時候都應該離開阿里雲。也許只有“瘋子”,纔會選擇留下。

就在阿里雲最危急的時候,好友朱瓏找到林晨曦,鼓勵他離職創業。但林晨曦給朋友撂下一句斬釘截鐵的話:“現在我絕對不能走。如果你想等我創業,先讓我把阿里雲扶上正軌。”

阿里雲苦苦撐着,人心飄搖,流言四起。

流言終於傳到馬雲耳朵裏。

“我每年給阿里雲投 10 個億,投個十年,做不出來再說。”他對着阿里巴巴集團所有人,斬釘截鐵地說。

這一句話,讓所有的流言順次平息。

在阿里雲年會上,馬雲做了這樣的獨白:

我知道,所有留下來的人其實是真正阿里雲的精髓。

有的時候不是你技術有多強,而是我們有多團結,互相多配合,多支持,多理解。

換任何一個公司,喫不消內網上那麼多人罵的,我有一段時間也是特別替大家難過,就像我罵兒子可以,我打兒子可以,不允許別人罵我兒子的,要不然我要翻臉的。

我沒有想過公司內部對阿里雲有那麼大的意見,我真沒想到。但是你們都扛過來了,這是我深以爲傲的,如果你們能抗得過內部人罵,抗得過那麼多人指責,我們還有什麼扛不過未來五年的發展?

李超給我看了這張照片。

57c05aab611cd1046daeedbaeba1461b1cdf652b
這是當年參加 5K 項目的同事。他說,這些人中現在只有十幾個還在阿里巴巴。

李超又給我看了另一張照片。

09ef2217638f094362b0028114ef3d1edb427b10

阿里雲成立滿六年的時候,爲所有從第一年走到現在的員工做了一個人偶。所謂的“所有”,只是眼前這五個人偶。滿弓和李超就在其中,他們相顧一笑。

這場長征,從摩肩接踵走到踽踽獨行。年輕的人們爲了共同的夢想相互溫暖,又難免爲了各自的夢想互道珍重。只是那些曾經鮮活的夥伴,就這樣成爲離去的背影,越走越遠,消失在視野裏,也消失在生命裏。

再多情的看客,恐怕也難解其中滋味。

(7)5K

阿里雲的神坑,不僅“坑”了胡曉明的阿里金融,也在“坑”淘寶網。

之前說過,淘寶網從2009年就開始了“雲梯計劃”。到了 2012 年,局面變得有些尷尬:

1、無論是雲梯1和雲梯2,都沒有衝上雲計算的技術標準:5K 的規模。

2、雖然沒達標,但是淘寶網沒有選擇,只能“趕鴨子上架”,讓兩架還在試驗中的雲梯承擔一些重要負載。

被刀架在脖子上的行癲心急如焚。

2013年3月28日,一封來自集團技術保障部架構師雲錚的郵件直達高層:

按照數據增量與未來業務增長的情況,雲梯1和雲梯2兩套系統的存儲和計算能力將在今年6月21日到達瓶頸。

到那時,數據業務將會停滯,淘數據,量子能業務都會受到影響;阿里金融的貸款業務將因爲無法進行信用數據運算而中止。

這一天終於來了。人們洪水般的“買買買”爲阿里巴巴劃定了 Deadline。要想維持正常的業務,他們必須在不到三個月的時間裏解決問題。

這個時候,把飛天推上 5K,幾乎已經是唯一的選擇了。事到如今,這已經不是阿里雲自己的戰鬥,而是整個阿里巴巴集團的“背水一戰”了。

在這個關頭,阿里雲需要集團所有人的幫助。

各個部門的技術大牛迅速組成增援大軍列立山頭,旌旗飄揚。但是在進入戰鬥序列之前,一個糾纏了各路大神五年恩怨情仇的問題必須有個了斷:

最初,因爲要做兩手準備,以 Hadoop 爲基礎的“雲梯1”和以飛天爲基礎的“雲梯2”一直並行。這個時候,時局已經緊迫到不允許團隊分流,他們必須拋棄掉一個雲梯。

拋棄哪個?

雲梯1,依靠開源技術,更加成熟,但幾年的實踐證明,把它推到 5K 有明顯的的技術瓶頸。而且,最核心的技術轉向開源系統,也許會讓阿里巴巴在未來遇到更多技術制約;

雲梯2,自研技術,難度更大,但它的架構和代碼都是基於阿里自身訴求而設計的。自主可控的 5K 一旦成功,就會打下阿里巴巴下一個十年的江山。而一旦失敗,後果也將不堪設想。。。

此時做出任何抉擇,都會徹底改變阿里巴巴的歷史。但歷史又只在彼時彼刻給阿里巴巴一次機會,開弓沒有回頭箭。所有人的目光都看向王堅。

王堅說了兩個字:“飛天!”

再沒有一句質疑,再沒有一絲埋怨。那些曾經看好或者不看好飛天的技術大牛,這個時候擼起袖子一齊殺了進來。

核心技術系統的正明團隊,全員投入 5K 的攻堅戰;負責應用集測測試的許咼兢,在得知調度系統的日誌自動收集和分析工具缺口嚴重,二話沒說主動請纓;褚霸、多隆、長仁這些分散在各部門的的技術牛人也都衝進來了。各路神仙在這幾個月親近得不分彼此。

褚霸回憶當時的場景:“早上9點進入項目,11點我們就開始解BUG。”

就連在電梯裏,都會人問阿里雲的同事“最近怎麼樣?需不需要幫忙?”他們來自一些兄弟團隊,有負責安全的,有負責集成測試的。

阿里雲自己的同事更是全力衝刺。

新員工剛剛入職,就立刻被派往“戰場”。本來是北京分公司的員工,入職之後直接拉到杭州幫忙 5K 項目。都加入公司兩個月了,還不知道自己北京的工位在哪裏。

而一位叫做李泉的同事,連續幾個禮拜連軸轉,半夜兩三點被叫起來解決問題,早晨八點又出現在工位上。被同事封爲“李鐵人”。

在最後的測試階段,杭州和北京兩個辦公室的同事電話24小時通着,人可以輪班休息,電話不能掉線,那部用來接聽的電話都燒得滾燙。

就這樣,一行行代碼累積起來,在賽博世界的疆土上一眼望不到邊界。他們交錯重疊,像從白堊紀開始慢慢累積的地層。直到這片大陸,終於浮出海面。

2013年6月底,5K進入了最後的穩定性測試。

怎麼測試系統的問題定性呢?之前帶領“八十勇士”圍攻后羿的振飛,提出了一個真·鋼鐵直男的測試辦法:拔電源。

他的理由是:“如果這種突然暴力斷電都能撐得住,阿里雲還有什麼不穩定的呢?”

拉電的同學反覆問了三遍:拉嗎?拉嗎?拉嗎?最後才顫抖着雙手拉下了電源。

這一刻,時間停止了,只有機器重新啓動的聲音。

四個小時以後,當系統完全恢復運行的時候,很多阿里雲同事的背後,已經被冷汗打溼了。經過系統自檢,一切正常。雖然還有十臺服務器光榮就義。但是,數據毫髮無損!

這一刻,在場見證的人都明白:成了。

所有的技術路線之爭,所有的進退成敗之辯,所有的隱忍委屈不甘,所有的懷疑嘲諷憂慮,就在此時此刻突然畫上句號。

盛夏的杭州,阿里巴巴熱血翻湧,阿里雲的“瘋子”們卻心如止水。

(8)阿里雲這羣瘋子

阿里雲,成爲了中國第一家擁有完整雲計算能力的企業。

2015年,在計算界的奧運會 Sort Benchmark 中,阿里雲計算100TB數據排序只用了不到7分鐘,把 ApacheSpark 之前創造的23分鐘世界紀錄一下子縮短了一多半。這說明,中國人研發的雲計算系統不僅成功了,而且不比世界上任何現存的雲計算系統差。

成功登頂的“雲梯2”,後來更名爲 ODPS,“加冕”成爲了阿里巴巴各項業務通用的大數據計算平臺。

ODPS 驗證成功之後,阿里立刻啓動“登月計劃”,把所有的數據和計算都遷移到飛天爲基礎的系統上,全盤替代 IOE 和 雲梯1。2013年5月,阿里巴巴最後一臺小型機下線。7月,淘寶最後一個Oracle數據庫下線。阿里巴巴這臺戰車,用了五年時間,在超高速行駛中,沒有踩一腳剎車,成功更換了發動機。

因爲突破了技術瓶頸,在 5K 之後,ODPS 只用了幾個月就衝上了單集羣 10K,進而實現了無限制擴展。到 2018年,已經更名爲 MaxCompute 的 ODPS 達到了數萬臺的規模。

哦對了,還有一件小事。當年振飛和后羿的那場“世紀賭局”,后羿贏了。用了三年時間,新的淘寶核心系統果然實現了零故障。

這段時間,阿里雲也迎來了兩個變動:

2012年秋天,林晨赴約去創業。提及過往,他如此回憶:“阿里雲的四年,像是過完了一輩子。以後的事情,都是下輩子的。”他和朱瓏創立了依圖科技,如今是人工智能領域最炙手可熱的公司之一。

2014年秋天,胡曉明來了。這個當年去王堅辦公室“上訪”的熱血青年,陪着阿里雲走過了最漫長艱難的歲月。也正因如此,此時他比任何人都更堅信雲計算的力量。

2015年7月22日,雲棲大會北京峯會開幕。新的領導團隊第一次在公衆面前露面。

胡曉明任阿里雲總裁。李津扛起產品研發,在淘寶網鼎力幫助阿里雲的小邪作爲技術顧問。等等等等。

名單裏沒有王堅。王堅知道,當有人能比他更好地帶領阿里雲前進的一刻,就是他放手的時候了。

這個老男孩,此時靜靜坐在時光的河岸邊,癡癡傻笑。夢迴少年,肝膽皆冰雪。

(9)另一個奇蹟

在阿里巴巴的雲棲小鎮,一尊雕像被豎立起來,雕像上只有兩個字:“5K”。

b3a42b0dab01e72e087c6157287dbb785e8ce4d4

5K雕塑,上面刻着飛天團隊所有工程師的名字,無論 Ta 是不是仍然在團隊。

之前有人無心說的那句“沒準將來我們成功了,我們寫的飛天第一行代碼還能印在T恤上呢!”也成爲了現實。

fbb0cee121661a342727729d0cc1e4af41dca091

2018年現任阿里雲產品總監何雲飛

身上就穿着“第一行代碼T恤”

2013年,中國企業IT架構升級最好的解決方式,再也不是買來一臺新的機器替代掉原有機器,而是採用雲計算。

從這一刻開始,這些瘋狂的技術宅纔有了服務全世界企業的信心;也正是從這一刻開始,坐鎮第一把交椅的傳奇總裁胡曉明,帶領阿里雲進入了“攻城掠地”的時代。

中國的網站登錄阿里雲的比例,從20%,上漲到30%,上漲到40%,上漲到50%。全球19個地域,兩百多個飛天數據中心順次點亮。

每個季度,阿里雲都保持同比增長100%,這樣逆天的增長速度持續了12個季度。

2018年初的雲棲大會上,在一幅碩大的市場曲線圖面前,胡曉明擡起右手,這一秒,時間像是凝固了一般。

同一年,飛天雲計算操作系統獲得了一個特別的獎項——中國電子學會15年以來的第一個特等獎。

11b10f6b0e6e13a4c2cb288d605c39e6b9e91ce7

在芯片領域,我們面對美國壟斷只得眼睜睜地沉默。

在操作系統領域,我們面對美國的背影只能艱難追趕;

但是在雲計算這片土地上,從王堅帶着一羣理想主義者橫空出世,到胡曉明把商業戰場拉至和亞馬遜的 AWS 同一級別。中國人用了十年時間造出的全球第三、亞洲第一的阿里雲,不說和美國戰爲和棋,至少在世界的版圖上奪下了堪稱廣袤的一片疆土。

如此,阿里雲的瘋子們,理應贏得光芒和榮耀。

創業維艱,唯有曾和死神擦肩而過的人,餘生纔會用十倍的速度奔跑。

2018年,當年爲阿里雲對接淘寶立下汗馬功勞的小邪正式加入了阿里雲,掌管“飛天八部”,阿里雲所有的現役主力技術和前沿技術,都歸至他麾下。

49d7495740fb3705c935775ee5a14b9f45e6c45e

小邪 蔣江偉

小邪手中的彈藥充足:

2017年發佈的神龍雲服務器,是對下一代雲計算主機的探索。

同年發佈的 POLARDB,劍指商業數據庫 Oracle 和它的繼任者 MySQL,也稱得上是阿里雲未來之星。

2018年初,飛天的分佈式存儲系統“盤古”升級到了 2.0,成爲阿里巴巴統一存儲平臺。

2018年秋天的雲棲大會上,唐洪、小邪、何導等阿里雲大咖悉數登場,發佈了飛天2.0。敢稱 2.0,是因爲他們把野心放到了“萬物互聯”的下一個20年。

如此嘗試和未來對話的技術還有很多。

此刻的阿里雲,手握歷史上最好的一把牌。

(10)尾聲

不久前,王堅受央視《朗讀者》節目邀請,回憶了阿里雲的創業史。他平靜地說:“阿里雲是拿命換來的”。

8beeef6035db89b3bdda342103935ad556d806e7

能用命換來夢想,未嘗不是幸事。

君不見,在無數個平行世界中,瘋人院裏的麥克墨菲最終都越獄失敗,被醫生切去前額葉,再無還手之力。

一羣理想主義者的長征路上,一片落葉微微改變飛舞的方向,都有可能把他們引向另一個方向,另一種結局。如果重來一次,阿里雲也許無法復現今天的疆域和榮耀。但歷史沒有假設,可嘆阿里雲這羣人從第一天就無來由地相信,中國人有權擁有自己的雲計算。

以身爲棋,勝天半子。

阿里雲的創業故事走到了封底。書中悲歡離合,凡此種種,也許只博看客一嘆。只有那些經歷過這一切的活生生的人,才能在時間的風塵裏,循着自己的腳印依稀辨別來路。

而那些走散的人呢?

他們也許會在某個秋日回憶起和夥伴同行的日子,心懷感念;他們也許有了新的忙碌的生活,來不及回望;他們也許偶然翻到新聞,看到那年王堅的滾滾熱淚;他們也許在飯桌上談笑風生,聊到當時的兄弟,忽然擡眼望向遠方,乾掉一杯烈酒。

我想起一個小故事。

在最初面試時,有一個大牛程序員和滿弓聊過之後,本想再考慮考慮是否入職。但是出門時,他看到了阿里雲辦公室上的一副對聯,原地思考了幾秒鐘,轉身決定馬上加入。

那副對聯是這樣寫的:

代碼成就萬世基積沙鎮海

夢想永在凌雲意意氣風發

任何執拗都會成爲過往,只有時間會告訴你對錯。

人們總愛說一句話:認真你就輸了。而我更相信另一句話。認輸,你才真的輸了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章