華爲架構師8年經驗談:從單體架構到微服務的服務化演進之路

轉自:http://www.58maisui.com/2016/06/28/a-327/?ref=myread

本次分享的大綱如下:

傳統應用開發面臨的挑戰
服務化實踐
服務化不是銀彈
服務化架構的演進方向

一 、傳統應用開發面臨的挑戰

挑戰1– 研發成本高

主要體現在如下幾個方面:

代碼重複率高
在實際項目分工時,開發都是各自負責幾個功能,即便開發之間存在功能重疊,往往也會選擇自己實現,而不是類庫共享,主要原因如下:

從技術架構角度看,傳統垂直架構的特點是本地API接口調用,不存在業務的拆分和互相調用,使用到什麼功能就本地開發,非常方便,不需要過度依賴於其它功能模塊;
從考覈角度來看,共享很難推行。開發只需要對自己開發的模塊交付質量負責,沒有義務爲他人提供並維護公共類庫,這個非常耗費成本;
時間依賴很難把控:對於公共類庫的使用者而言,依賴別人提供此功能,但是功能提供者可能有更重要的事情在做,提供時間無法滿足使用者。與其坐等別人提供,還不如自己開發效率高;
跨地域、跨開發小組協調很困難,業務團隊可能跨地域研發,內部通常也會分成多個開發小組,各開發小組之間的協調和溝通成本非常高。

需求變更困難
代碼重複率變高之後,已有功能變更或者新需求加入都會非常困難,以充值繳費功能爲例,不同的充值渠道開發了相同的限額保護功能,當限額保護功能發生變更之後,所有重複開發的限額保護功能都需要重新修改和測試,很容易出現修改不一致或者被遺漏,導致部分渠道充值功能正常,部分存在Bug的問題,示例如下:

無法滿足新業務快速創新和敏捷交付


挑戰2– 運維效率低

在傳統的MVC架構中,業務流程是由一長串本地接口或者方法調用串聯起來的,臃腫而冗長,而且往往由一個人負責開發和維護。隨着業務的發展和需求變化,本地代碼在不斷的迭代和變更,最後形成了一個個垂直的功能孤島,只有原來的開發者才理解接口調用關係和功能需求,一旦原有的開發者離職或者調到其他項目組,這些功能模塊的運維就會變得非常困難:

當垂直應用越來越多時,連架構師都無法描述應用間的架構關係,隨着業務的發展和功能膨脹,這種架構很容易發生腐化。

測試、部署成本高:業務運行在一個進程中,因此係統中任何程序的改變,都需要對整個系統重新測試並部署
可伸縮性差:水平擴展只能基於整個系統進行擴展,無法針對某一個功能模塊按需擴展
可靠性差:某個應用BUG,例如死循環、OOM等,會導致整個進程宕機,影響其它合設的應用
如何解決傳統單體架構面臨的挑戰?

解決對策:1、拆分 2、解耦 3、透明 4、獨立 5、分層。

拆分:對應用進行水平和垂直拆分,例如商品中心、計費中心、訂單中心等。
解耦:通過服務化和訂閱、發佈機制對應用調用關係解耦,支持服務的自動註冊和發現
透明:通過服務註冊中心管理服務的發佈和消費、調用關係
獨立:服務可以獨立打包、發佈、部署、啓停、擴容和升級,核心服務獨立集羣部署
分層:梳理和抽取核心應用、公共應用,作爲獨立的服務下沉到核心和公共能力層,逐漸形成穩定的服務中心,使前端應用能更快速的響應多變的市場需求
二、服務化實踐

服務的訂閱發佈機制

它的核心理念是實現服務消費者和服務提供者的解耦,讓服務消費者能夠像使用本地接口一樣消費遠端的服務提供者,而不需要關心服務提供者的位置信息,實現透明化調用。

關鍵技術點:服務的訂閱、發佈機制、服務的健康狀態檢測和高HA。

常用的服務註冊中心有Zookeeper、ETCD,以及基於數據庫的配置中心。

大家在技術選型的時候,需要根據自己的業務實際情況進行選擇。例如超大規模集羣,服務實例數超過10W,Zookeeper就會存在性能問題。

現在開源的分佈式配置服務很多,如無特殊需求,建議選擇開源方案。

服務化實踐-零侵入

實際上,完全的零侵入很難做到,即使是聲明式配置,配置本身也是代碼的一部分,只不過相比於代碼類庫依賴,它不是編譯器依賴。

一種好的做法是,服務的發佈和消費通過聲明式或者註解的方式,而不是直接調用服務框架的接口,例如Thrift。客戶端需要調用Thrift提供的類庫訪問服務端,這就是代碼API級的依賴,對業務代碼侵入比較大。

一種比較成熟的實踐是 利用Spring的擴展機制,通過XML的方式實現服務的發佈和消費。

服務化實踐-容錯和路由

單體應用服務化之後,通常採用分佈式集羣的部署模式。

這會帶來兩個問題:

服務如何路由;
遠端服務訪問失敗之後,如果進行容錯。
大部分的容錯和路由策略可以抽象到分佈式服務框架中,通過策略配置的方式提供給用戶使用,降低用戶的開發成本。

從業務擴展性角度看,服務框架通常會提供擴展點,供業務做路由和容錯定製。例如,業務希望根據手機號碼和地市進行路由:

服務化實踐-本地短路策略

在電信行業中,小機還是很普遍,應用通常會合設,例如服務提供者和消費者部署到同一臺主機上。

爲了提升性能,降低時延,往往會提供本地短路策略,具體策略如下:

服務化實踐-多樣化調用方式

服務的調用方式,主要有三種:同步服務調用、異步服務調用、並行服務調用。最常用、簡單的就是同步服務調用。

異步服務調用的工作原理如下:

詳細步驟如下:

消費者調用服務端發佈的接口,接口調用由分佈式服務框架包裝成動態代理,發起遠程服務調用;
通信框架異步發送請求消息,如果沒有發生I/O異常,返回;
請求消息發送成功後,I/O線程構造Future對象,設置到RPC上下文中;
用戶線程通過RPC上下文獲取Future對象;
構造Listener對象,將其添加到Future中,用於服務端應答異步回調通知;
用戶線程返回,不阻塞等待應答;
服務端返回應答消息,通信框架負責反序列化等;
I/O線程將應答設置到Future對象的操作結果中;
Future對象掃描註冊的監聽器列表,循環調用監聽器的operationComplete方法,將結果通知給監聽器,監聽器獲取到結果之後,繼續後續業務邏輯的執行,異步服務調用結束。
並行服務調用,目的是爲了提升服務調用的並行度,降低E2E時延。

服務化實踐-高性能、低時延

服務框架的性能,主要強調三個要素:1、I/O通信;2、序列化框架;3、線程調用模型。

如果使用Java語言,I/O框架推薦 Netty。

序列化框架推薦:Thrift、Avro序列化框架、PB等。線程調度模型建議參考Reactor。

一種線程模型的參考實現方式:Netty的線程模型

無鎖化串行設計理念

服務化實踐-故障隔離

故障隔離非常重要,由於經常會採用同步服務調用模式,核心服務和非核心服務共用同一個線程池和消息隊列,非核心服務處理慢往往會阻塞核心服務,導致雪崩現象。

故障隔離的核心技術點如下:

1. 支持服務部署到不同線程/線程池中

2. 核心服務和非核心服務隔離部署

服務化實踐-服務治理

隨着業務規模的不斷擴大,小服務資源浪費等問題逐漸顯現,需要能夠基於服務調用的性能KPI數據進行容量管理,合理分配各個服務的資源佔用,提高機器的利用率。

線上業務發生故障時,需要對故障業務做服務降級、流量控制、流量遷移等,快速恢復業務。

隨着開發團隊的不斷擴大,服務的上線越來越隨意,甚至發生功能相同、服務名不同的服務同時上線。上線容易下線難,爲了規範服務的上線和下線,在服務發佈前,需要走服務預發佈流程,由架構師或者項目經理對需要上線的服務做發佈審覈,審覈通過的才能夠上線。

爲了滿足服務線下管控、保障線上高效運行,需要有一個統一的服務治理框架對服務進行統一、有效管控,保障服務的高效、健康運行。

服務治理是分佈式服務框架的一個可選特性,儘管從服務開發和運行角度看它不是必須的,但是如果沒有服務治理功能,分佈式服務框架的服務SLA很難得到保障,服務化也很難真正實施成功。

從架構上看,分佈式服務框架的服務治理分爲三層:

第1層爲服務治理展示層,它主要由服務治理Portal組成,提供可視化的界面,方便服務運維人員進行治理操作。

第2層爲服務治理SDK層,它主要由如下幾部分組成:

服務治理元數據:服務治理元數據主要包括服務治理實體對象,包括服務模型、應用模型、治理組織模型、用戶權限模型、數據展示模型等。元數據模型通過Data Mapper和模型擴展,向上層界面屏蔽底層服務框架的數據模型,實現展示層和服務框架的解耦,元數據也可以用於展示界面的定製擴展;
服務治理接口:服務治理Portal調用服務治理接口,實現服務治理。例如服務降級接口、服務流控接口、服務路由權重調整接口、服務遷移接口等。服務接口與具體的協議無關,它通常基於分佈式服務框架自身實現,可以是Restful接口,也可以是內部的私有協議;
服務治理客戶端類庫:由於服務治理服務本身通常也是基於分佈式服務框架開發,因此服務治理Portal需要集成分佈式服務框架的客戶端類庫,實現服務的自動發現和調用;
調用示例:客戶端SDK需要提供服務治理接口的參數說明、注意事項以及給出常用的調用示例,方便前端開發人員使用;
集成開發指南:服務治理SDK需要提供集成開發指南,指導使用者如何在開發環境中搭建、集成和使用服務治理SDK。
第3層爲後臺服務治理服務層:它通常由一組服務治理服務組成,可以單獨部署,也可以與應用合設。考慮到健壯性,通常選擇獨立集羣部署。治理服務的可靠性由分佈式服務框架自身來保證,治理服務宕機或者異常,不影響業務的正常使用。服務治理服務通常並不隨服務框架發佈,治理服務是可選的插件,單獨隨服務治理框架交付。

服務化實踐-高可靠性

關鍵技術點設計如下:

服務無狀態設計
服務註冊中心集羣,宕機不影響業務運行
服務提供者集羣,集羣容錯屏蔽服務提供者故障
服務健康狀態檢測,基於時延等性能KPI指標
服務治理中心集羣,宕機不影響業務運行
服務級故障隔離
核心服務獨立部署和集羣
跨機房路由和異地容災
三、服務化不是銀彈

服務化會帶來很多收益,但是它卻不是銀彈。

服務化不是銀彈-時延問題

在服務化之前,業務通常都是本地API調用,本地方法調用性能損耗較小。服務化之後,服務提供者和消費者之間採用遠程網絡通信,增加了額外的性能損耗。

服務化不是銀彈-問題定位

在分佈式環境下,如何高效的進行問題定界定位和日誌檢索

服務化不是銀彈-事務一致性

服務化、分佈式部署之後,有邏輯關聯關係的多個數據庫操作被打散到集羣中各個獨立的服務實例中,引入分佈式環境下的事務一致性問題。

服務化不是銀彈-前後臺直接通信問題

前後臺直接通信問題如下:

存在的問題如下:

客戶端需求和每個微服務暴露的細粒度API不匹配
微服務使用的RPC私有協議,不是瀏覽器友好或防火牆友好的
微服務難以重構。隨着時間推移,我們可能想要更改系統劃分成服務的方式。如果客戶端與微服務直接通信,那麼執行這類重構就非常困難了
服務化不是銀彈-團隊協作問題

共享服務註冊中心問題:爲了方便開發測試,經常會在線下共用一個所有服務共享的服務註冊中心,這時,一個正在開發中的服務發佈到服務註冊中心,可能會導致一些消費者不可用。
多團隊進度協同問題:服務提供者和消費者相互依賴問題,開發依賴、測試依賴等。
接口前向兼容性問題:由於線上的Bug修復、內部重構和需求變更,服務提供者會經常修改內部實現,包括但不限於:接口參數變化、參數字段變化、業務邏輯變化和數據表結構變化。在實際項目中經常會發生服務提供者修改了接口或者數據結構,但是並沒有及時知會到所有消費者,導致服務調用失敗
四、未來演進方向-微服務架構

微服務的劃分原則是難點,根據華爲的經驗:微服務劃分不是一步到位,而是不斷的迭代和演進,最終找到適合自己團隊和業務的微服務劃分原則。

未來演進方向-基於Docker部署微服務

使用Docker部署微服務的優點總結:

一致的環境:線上線下環境一致
避免對特定雲基礎設施提供商的依賴
降低運維團隊負擔
高性能:接近裸機的性能
多租戶


未來演進方向-雲端微服務

利用雲平臺的彈性資源調度,動態性等,可以實現微服務的Dev&Ops

最後我們一起回顧下服務化的演進歷程:

Q&A

Q1:上面提到服務化缺點的第三條接口變更問題,請問微服務是如何解決這個問題的呢?或者說微服務相比之下什麼優勢會避免這個問題?

A1:根據我們團隊的經驗,主要從如下幾個方面降低影響:1、微服務的接口就是契約,制定 接口兼容性規範;涉及到技術和管理兩個層面;2、微服務鼓勵只做一件事情,因此它更加穩定;3、基於消費者契約測試,快速發現兼容性問題。

Q2:微服務架構裏,分佈式事務如何做的,對數據一致性要求較高的系統是否適合拆分成微服務,或者說微服務的粒度如何把握?

A2:分佈式事務是難點,策略如下:1)如果業務上能夠承受非強一致性,建議通過事務補償的方式做最終一致性,可以基於MQ等中間件來實現;2)如果是轉賬、實時計費、充值等對實時性要求高的,往往選擇強一致性事務,就需要引入TCC等分佈式事務框架。無論如何,只要做分佈式,事務一致性就會成爲問題,跟是否是微服務沒必然關係。

Q3:生產環境中的服務註冊中心必然是共享的,那如何去做灰度發佈或者A/B Test呢?

A3:一種比較好的服務灰度策略是:1)服務框架提供灰度規則框架,包括後臺引擎和前臺Portal,由業務配置灰度規則;2)分佈式服務框架支持灰度規則推送和業務自定義路由;3)前端SLB ,例如Ngix做灰度插件,接收灰度規則。消息從前端門戶接入到後端服務路由,都支持基於規則的路由分發策略,實現灰度發佈。

Q4:Netty的無鎖化串行會比有鎖的並行性能更高嗎?有案例嗎?華爲現在都是用Docker部署應用嗎?

A4:Netty的無鎖化串行性能問題:1)在實際項目中,線程池爭用模式和串行模式我們都使用過,Netty的無鎖化串行模式性能更高。Docker部署應用:華爲的公有云和私有云都支持基於Docker部署應用,由客戶根據需要自主選擇。

Q5:IO通信是怎麼保證每次連接成功的呢?

A5:NIO通信本身並不保證每次連接都成功,它的連接是異步的,你可以根據如下兩種策略獲得異步鏈接的結果:1)發起連接之後主動調用同步方法等待結果返回,阻塞式;2)獲取異步連接Future,添加Listener監聽器監聽連接結果,這種模式是異步回調,不會阻塞當前線程。

Q6:使用zk作爲服務註冊中心,對與某個服務當客戶端連接數很多時候節點變化會引起羊羣效應,怎麼處理這種問題呢?或者說如何避免這種問題呢?

A6:這個問題真是好!通常而言,大家會使用服務註冊中心做服務可用性檢測,如果發現某個服務節點不可用,就會將其從註冊中心中刪除。但是,有一種場景是ZK檢測的結果跟客戶端和服務端實際的連接狀態不一致。從ZK看,服務提供者可以使用。但是由於服務消費者跟提供者之間的鏈路已經中斷,跟ZK的鏈路卻是正常,這種情況下就會出現狀態不一致問題。所以,只依靠ZK做狀態檢測還不夠,需要服務提供者和消費者的鏈路層做雙向心跳檢測。

Q7:我現在做的系統是zk做註冊中心服務把地址註冊上去(臨時節點),客戶端拿地址請求,http的,現在發現如果是公網調用的話,對公網資源要求還挺多的,zk公網, 應用公網;爲了減少對公網需求,中間加一層nginx,把nx地址註冊上去,不過又得加個http探測監控程序,異常還得刪掉註冊數據,不知道這種做法是否妥當?

A7:Ng監聽ZK註冊的服務提供者URL即可,問題不大。

Q8:用Netty做同通信框架,監控上報應該怎麼設計更完善?

A8:建議的方式如下:Netty自身不用告警,監聽Netty的異常事件,然後通過MQ吐出去,監控系統訂閱通信框架的事件主題,實現通信框架和監控系統解耦。

Q9:SOA和微服務架構的區別和聯繫是?看起來好像啊!

A9:1) 服務拆分粒度:SOA首先要解決的是異構應用的服務化;微服務強調的是服務拆分儘可能小,最好是獨立的原子服務;

2) 服務依賴:傳統的SOA服務,由於需要重用已有的資產,存在大量的服務間依賴;微服務的設計理念是服務自治、功能單一獨立,避免依賴其它服務產生耦合,耦合會帶來更高的複雜度;

3) 服務規模:傳統SOA服務粒度比較大,多數會採用將多個服務合併打成war包的方案,因此服務實例數比較有限;微服務強調儘可能拆分,同時很多服務會獨立部署,這將導致服務規模急劇膨脹,對服務治理和運維帶來新的挑戰;

4) 架構差異:微服務化之後,服務數量的激增會引起架構質量屬性的變化,例如企業集成總線ESB(實總線)逐漸被P2P的虛擬總線替換;爲了保證高性能、低時延,需要高性能的分佈式服務框架保證微服務架構的實施;

5) 服務治理:傳統基於SOA Governance的靜態治理轉型爲服務運行態微治理、實時生效;

6) 敏捷交付:服務由小研發團隊負責微服務設計、開發、測試、部署、線上治理、灰度發佈和下線,運維整個生命週期支撐,實現真正的DevOps。

總結:量變引起質變,這就是微服務架構和SOA 服務化架構的最大差異。

Q10:如果要將現有單機服務重構到微服務,應該考慮哪些問題?數據遷移的安全問題怎麼解決?有什麼實踐方案嗎?

A10:需要考慮的問題如下:1)當前單機應用是否能夠滿足業務發展需要,有沒有必要做服務化改造和分佈式部署;2)評估遷移的工作量,以及人員技能培訓等。3)自研服務框架還是使用開源的方案。

數據遷移安全問題:如果內網,通常不會涉及到複雜的安全控制問題;如果跨公網,建議加入API Gateway統一做安全管控。

實踐方案:公開的資料,可以參考淘寶的服務化實踐、京東的服務化實踐等。其實華爲也有,不過遺憾的是目前政策不允許公開出來。

Q11:麻煩李老師介紹下你們華爲內部基於netty做socke通信的協議設計的最佳實踐。

A11:這個問題很大,簡單介紹下思路。在11年和13年的時候我分別主持設計了華爲基於Mina和Netty的統一NIO通信框架。設計要點如下:1)要熟悉Netty的線程調度模型、常用的類庫等,能夠熟練使用Netty;2)NIO通信框架的分層原則,哪些該做、哪些不該做,需要識別出來;3)擴展點,預留足夠的擴展點給上層應用協議棧做擴展;4)可以內置配置化的安全策略、握手認證、心跳檢測等機制;5)可服務性設計,包括日誌、性能KPI指標等。

作者介紹 李林鋒

從事華爲軟件PaaS平臺的架構設計和開發工作,8年多NIO、平臺中間件領域設計、開發和運維經驗,精通NIO通信框架、分佈式服務框架、PaaS平臺等;
參與設計和開發某網關平臺;
曾獲得公司總裁技術創新獎;
《分佈式服務框架原理與實踐》作者。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章