平衡成本與業務風險 “去IOE”話題的思考與實踐

很多人談到“去IOE”話題,會理所當然的認爲,將IBM、Oracle、EMC的全部產品從信息架構中移去就是去IOE,其實不然。IOE其實是特指IBM、Oracle、EMC的專有系統:“I”指的是IBM大/小型機;“O”指Oracle專有數據庫;“E”指EMC存儲設備。由於推出較早,行業應用豐富,性能指標優秀,所以“IOE”架構成爲針對各行各業的企業關鍵應用而設計,基於向上擴展(Scale-up)技術高端設備,並形成了圍繞着它們而開發的大型數據庫、商業中間件與應用的產業生態。

由於出發點不同,不同的人在理解“去IOE”的過程與結果也是不一樣的。“去 IOE”話題很容易走向到兩個極端:一是單純變爲企業購買成本問題,二是簡單地變成一個是否能用國內產品技術去替代IOE的問題。

筆者認爲,企業業務纔是價值的核心問題,在不影響或是更好全面支持業務的前提下,如何平衡成本與業務風險 ,實現安全、可複製的“去IOE”纔是本文需要討論的重點。而建設銀行新疆分行應用國產主機代替IBM小型機的實踐,則可成爲我們參考的案例。

點燃“去IOE”話題

“去IOE”話題的開始,要從去年夏天阿里巴巴集團正式公佈技術團隊合併,並宣佈用開源的MySQL數據庫替換Oracle數據庫說起。

2013年6月20日,阿里高調宣佈其對爲支付寶用戶服務了5年的最後一臺小型機下線。在阿里巴巴集團首席架構師王堅的主導下,採用PC-Server承載MySQL數據庫,支撐大併發大數據量的核心業務系統。

王堅這樣概括“去 IOE”運動和阿里雲之間的關係:“去 IOE”將徹底改變了阿里集團 IT 架構的基礎,是阿里擁抱雲計算,產出計算服務的基礎。“去 IOE”的本質是分佈化,讓隨處可以買到的 PC 架構成爲可能,是雲計算能夠落地的首要條件。

我們可以這樣理解,在王堅的眼中,“IOE”是軟件時代或是“買計算機”時代的產物,而在雲計算時代,則變成買“計算能力”的時代。儘管“IOE”的性能與可靠性表現出衆,但隨着雲計算能力的快速提升,理論上說,“IOE”就一定能去掉!

這明顯是互聯網思維下的“去IOE”。

觀點看似沒有問題,但拋開實際的“去IOE”過程而言,由於阿里以電商業務發跡,進而邁入公有云服務市場的業務特點來看,阿里高調“去IOE”的發佈其實是在爲自己的未來業務站臺。

從阿里的技術發展歷程來看,阿里是從主要依靠商業軟件、到開源再發展到更多的自有技術或是說雲計算的。

在最早依賴商業軟件時,阿里是當時是亞洲最大擁有20 多個節點的 Oracle RAC 數據庫集羣,之後成爲開發使用開源軟件 MySQL 最好的企業之一,再到研發自己的關係數據庫 OceanBase,目前也已用在了不同的業務場景。

從用 Oracle 做處理數據,到用 Hadoop 集羣 (是業內單個機羣節點數最多的 Hadoop 機羣),再到用自己飛天平臺上的 ODPS。這樣演進的路徑也表明:商業軟件、開源軟件跟自有技術永遠是一個搭檔,對於不同企業來說,是擇優選擇的問題。

傳統企業幾乎不可複製

從2010年開始的“去IOE”運動耗時3年,經過阿里巴巴集團1.7萬名內部技術人員的努力,才高調的宣佈了“去IOE”成功。阿里巴巴無疑將自身作爲風險極高的“去IOE”創新試驗品,下定決心纔有了現在的成果。

阿里巴巴後來總結“去IOE”是“技術門檻很高、技術風險很大、水很深”的技術改革,敢冒如此風險的首要原因就是,考慮成本可控、技術可控等因素,不願繼續增加成熟商用系統以滿足阿里巴巴特別是淘寶爆炸式業務增長的架構需求。由於其中的特殊性和特定性,這一過程雖然具有示範效應,但卻有着太多不可複製的底層技術細節。比如互聯網交易系統對數據一致性要求低於傳統銀行,但任何交易都存在數據複雜性與一致性的協調問題。因而雖然阿里巴巴採用分佈式架構處理部分交易系統,但也需要對分佈式開源數據庫進行大量定製化改造。

在全新的IT架構下,淘寶的業務變得更加開放、靈活、高效,並在中國的互聯網行業產生了很大的影響,欲效仿者甚衆。當然,企業沒有總結和沉澱積累,絕對不會盲目去實踐,尤其是傳統企業。

阿里技術保障部DBA負責人周寶方稍後接受記者採訪時也表示,“去IOE”技術門檻很高,其他企業根本無法複製。”

“去IOE”的理性思考

成本問題恐怕是企業“去IOE”的最大動力了。

確實,負責掌管企業核心業務的“IOE”們的身價不菲,專有系統不僅僅售價高昂,每年去維護這些系統都是一筆不小的費用支出。這就像去買一輛豪車的價格其實只是個開始,而保養、修理費用是不可以忽視的。

之前說過,“去IOE”不應單獨被視爲企業購買成本的問題,至少說起來就像豪車的售價與4S店保養費用都是明碼標價的。而很多企業爲了成本問題,在“去IOE”的過程中使用購買成本幾乎爲零的開源軟件來替代專有的Oracle數據庫,就像淘寶採用MySQL去代替Oracle數據庫之初,阿里和淘寶曾經多次嘗試從Oracle數據庫遷移到MySQL,但是都失敗了,最根本的原因就是懂MySQL DBA技術的人才極少。

去Oracle並不是單純的成本問題,但用戶又不得不去考慮它的成本。首先,這是一個技術的替換過程,其次必然會考慮更加省錢的數據庫軟硬件解決方案,最後就是時間成本問題。很多人在談阿里的成功,卻忽視它背後花了3年、1.7萬技術人員時間用重金打造的一個“成長”過程換來如今的低基礎架構成本與高工作效率。

3年時間、1.7萬人,在說明互聯網模式下的“去IOE”不可複製的同時,也進一步清晰與量化了阿里“去IOE”的成本。

筆者看來,目前Oracle數據庫是“IOE”中最難去掉的那個,原因就是因爲與業務核心綁定緊密,去除所花的成本與風險很大。尤其是傳統企業,以金融行業爲例,目前國內就難以找到讓客戶滿意又能替代Oracle的產品。原因其實很簡單,在傳統企業IT基礎架構不是很完善,缺乏最佳實踐,經常面臨捉襟見肘的局面。如果冒然替換,不但起不到成本降低的要求,低效的工作會讓自己的用戶無法滿足。另外一個問題,Oracle集成體系在傳統行業已經根深蒂固,幾乎***到金融業,運輸業,電信業,連鎖業等等,客戶也是在這個過程中形成了一種依賴。

所以,從理性出發,“去IOE”其實是一種趨勢,但並非是一種決絕的方式。

“去IOE” 服務器是第一步

誠實的說,就像阿里巴巴一樣,很多企業“去IOE”的目的其實是爲了平衡成本與支持實現業務價值。

作爲企業IT系統的承載基礎與計算核心,服務器的價值在於三點:可靠性(硬件)、計算性能(性價比)、操作系統(廣泛支持與強壯性)。

由於摩爾定律的持續拉動,計算性能在最近十年的增長可以說是突飛猛進,IOE中IBM的大/小型機以往所能夠傲視羣雄的性能優勢已經逐漸喪失,而服務器設計中也越來越考慮RAS特性,也將可靠性與“IOE”中的“I”逐漸拉近。與數據庫與業務應用的強烈綁定,存儲系統的多樣性設計相比,對於傳統企業來說,替換掉IBM專有服務器其實可以是“去IOE”過程的第一步。

新疆建行的實踐

然而實際操作層面,企業如何才走出“去IOE”的第一步?

作爲金融領域的龍頭之一,在2011年,中國建設銀行所轄的新疆區分行就使用了浪潮天梭K1系統替換掉了IBM小型機。

以往建行新疆分行的核心繫統是IBM小型機加上IBM專用的AIX操作系統,支撐起核心交易數據庫IBM的Informix,與管理信息系統Oracle數據庫,中間件則是Oracle的WebLogic和Tuxedo。

在做了充分的調研之後,新疆建行採用整合、測試、遷移的“三步走”戰略,將核心系統遷移到了浪潮天梭K1之上。遷移之前的新疆建行業務系統大多是分散部署,大約有18個。因此,在遷移核心系統之前,項目組花了半年時間將過去分散的18個子系統整合成一個統一的特色業務平臺。

從一個國外專有系統遷移到國產主機,也必須對天梭K1與各個第三方軟件的兼容性進行測試。由於天梭K1採用的是浪潮自主研發的K-UX操作系統,這也是全球第五個通過第三方Unix組織03認證的操作系統。項目組花了大量時間和精力進行測試和優化,成功的將Informix關係型數據庫和 Tuxedo中間件,及各類工具軟件、管理軟件以及Oracle數據庫、WebLogic等各種軟件也遷移到了天梭K1上。

2010年8月,新疆建行第一批業務系統成功遷移上線。到了2011年5月,除了幾個已經確定要下線的非常小的業務系統(大概佔到整個系統的3%左右),其他所有的業務系統也就是新疆建行的特色業務系統全部順利遷移到了天梭K1上面。此後又運行了一年的時間,2012年5月,整個項目順利通過了國家組織的專家組的驗收。直到現在,新疆建行的核心繫統仍然運行在這臺天梭K1樣機上面,狀況非常良好。

新疆建行試用國產小型機的成功,使得建行的其他省行動了心。其根本的原因,還是因爲國產小型機的成本優勢太明顯:國外小型機的購置成本至少要比國產小型機高出三分之一,三年之後每年還要交納高達10%-15%的維護成本。而且由於核心的技術人員都在美國總部,一旦小型機出現故障,本地工程師解決不了就只能反饋給美國總部,可能一個月之後才能解決問題。

在成功驗收之後,就不斷有很多省行聯繫新疆建行。最積極的是廣東建行,他們專門派人在去年9月來到新疆,與新疆建行做了很深入的交流之後,開始用天梭K1替換IBM小型機,用於其“粵龍雲”應用,逐漸將廣東建行分散的數據統一到一個數據倉庫當中。

2013年1月,在新疆建行應用了2年半之後,浪潮正式將天梭K1投入市場。

目前,國產小型機已經逐步從金融行業擴展到財稅、電力、石油、農業等行業,開始逐步替代進口小型機。無論是在勝利油田、國家電網,還是在農業部、北京市財政局的機房裏,都能夠看到國產小型機的影子。

結語:去IOE需要平衡成本與業務價值

就像前文所提到的企業業務纔是價值的核心問題,在不影響甚至是更好的支持全業務的前提下,如何平衡成本與業務風險 ,實現安全、可複製、逐步的“去IOE”纔是企業應該去考慮的問題。

從這點來說,新疆建行的“去IOE”實踐就很有代表性。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章