百萬用戶級遊戲服務器架構設計(1)

 

服務器結構探討 -- 最簡單的結構

  所謂服務器結構,也就是如何將服務器各部分合理地安排,以實現最初的功能需求。所以,結構本無所謂正確與錯誤;當然,優秀的結構更有助於系統的搭建,對系統的可擴展性及可維護性也有更大的幫助。

  好的結構不是一蹴而就的,而且每個設計者心中的那把尺都不相同,所以這個優秀結構的定義也就沒有定論。在這裏,我們不打算對現有遊戲結構做評價,而是試着從頭開始搭建一個我們需要的MMOG結構。

  對於一個最簡單的遊戲服務器來說,它只需要能夠接受來自客戶端的連接請求,然後處理客戶端在遊戲世界中的移動及交互,也即遊戲邏輯處理即可。如果我們把這兩項功能集成到一個服務進程中,則最終的結構很簡單:

  client ----- server

  嗯,太簡單了點,這樣也敢叫服務器結構?好吧,現在我們來往裏面稍稍加點東西,讓它看起來更像是服務器結構一些。

  一般來說,我們在接入遊戲服務器的時候都會要提供一個帳號和密碼,驗證通過後才能進入。關於爲什麼要提供用戶名和密碼才能進入的問題我們這裏不打算做過多討論,雲風曾對此也提出過類似的疑問,並給出了只用一個標識串就能進入的設想,有興趣的可以去看看他們的討論。但不管是採用何種方式進入,照目前看來我們的服務器起碼得提供一個帳號驗證的功能。

  我們把觀察點先集中在一個大區內。在大多數情況下,一個大區內都會有多組遊戲服,也就是多個遊戲世界可供選擇。簡單點來實現,我們完全可以拋棄這個大區的概念,認爲一個大區也就是放在同一個機房的多臺服務器組,各服務器組間沒有什麼關係。這樣,我們可爲每組服務器單獨配備一臺登錄服。最後的結構圖應該像這樣:

  loginServer   gameServer
     |           /
     |         /
     client

  該結構下的玩家操作流程爲,先選擇大區,再選擇大區下的某臺服務器,即某個遊戲世界,點擊進入後開始帳號驗證過程,驗證成功則進入了該遊戲世界。但是,如果玩家想要切換遊戲世界,他只能先退出當前遊戲世界,然後進入新的遊戲世界重新進行帳號驗證。

  早期的遊戲大都採用的是這種結構,有些遊戲在實現時採用了一些技術手段使得在切換遊戲服時不需要再次驗證帳號,但整體結構還是未做改變。

  該結構存在一個服務器資源配置的問題。因爲登錄服處理的邏輯相對來說比較簡單,就是將玩家提交的帳號和密碼送到數據庫進行驗證,和生成會話密鑰發送給遊戲服和客戶端,操作完成後連接就會立即斷開,而且玩家在以後的遊戲過程中不會再與登錄服打任何交道。這樣處理短連接的過程使得系統在大多數情況下都是比較空閒的,但是在某些時候,由於請求比較密集,比如開新服的時候,登錄服的負載又會比較大,甚至會處理不過來。

  另外在實際的遊戲運營中,有些遊戲世界很火爆,而有些遊戲世界卻非常冷清,甚至沒有多少人玩的情況也是很常見的。所以,我們能否更合理地配置登錄服資源,使得整個大區內的登錄服可以共享就成了下一步改進的目標。

服務器結構探討 -- 登錄服的負載均衡

  回想一下我們在玩wow時的操作流程:運行wow.exe進入遊戲後,首先就會要求我們輸入用戶名和密碼進行驗證,驗證成功後才會出來遊戲世界列表,之後是排隊進入遊戲世界,開始遊戲...

  可以看到跟前面的描述有個很明顯的不同,那就是要先驗證帳號再選擇遊戲世界。這種結構也就使得登錄服不是固定配備給個遊戲世界,而是全區共有的。

  我們可以試着從實際需求的角度來考慮一下這個問題。正如我們之前所描述過的那樣,登錄服在大多數情況下都是比較空閒的,也許我們的一個擁有20個遊戲世界的大區僅僅使用10臺或更少的登錄服即可滿足需求。而當在開新區的時候,或許要配備40臺登錄服才能應付那如潮水般涌入的玩家登錄請求。所以,登錄服在設計上應該能滿足這種動態增刪的需求,我們可以在任何時候爲大區增加或減少登錄服的部署。

  當然,在這裏也不會存在要求添加太多登錄服的情況。還是拿開新區的情況來說,即使新增加登錄服滿足了玩家登錄的請求,遊戲世界服的承載能力依然有限,玩家一樣只能在排隊系統中等待,或者是進入到遊戲世界中導致大家都卡。

  另外,當我們在增加或移除登錄服的時候不應該需要對遊戲世界服有所改動,也不會要求重啓世界服,當然也不應該要求客戶端有什麼更新或者修改,一切都是在背後自動完成。

  最後,有關數據持久化的問題也在這裏考慮一下。一般來說,使用現有的商業數據庫系統比自己手工技術先進要明智得多。我們需要持久化的數據有玩家的帳號及密碼,玩家創建的角色相關信息,另外還有一些遊戲世界全局共有數據也需要持久化。

  好了,需求已經提出來了,現在來考慮如何將其實現。

  對於負載均衡來說,已有了成熟的解決方案。一般最常用,也最簡單部署的應該是基於DNS的負載均衡系統了,其通過在DNS中爲一個域名配置多個IP地址來實現。最新的DNS服務已實現了根據服務器系統狀態來實現的動態負載均衡,也就是實現了真正意義上的負載均衡,這樣也就有效地解決了當某臺登錄服當機後,DNS服務器不能立即做出反應的問題。當然,如果找不到這樣的解決方案,自己從頭打造一個也並不難。而且,通過DNS來實現的負載均衡已經包含了所做的修改對登錄服及客戶端的透明。

  而對於數據庫的應用,在這種結構下,登錄服及遊戲世界服都會需要連接數據庫。從數據庫服務器的部署上來說,可以將帳號和角色數據都放在一箇中心數據庫中,也可分爲兩個不同的庫分別來處理,基到從物理上分到兩臺不同的服務器上去也行。

  但是對於不同的遊戲世界來說,其角色及遊戲內數據都是互相獨立的,所以一般情況下也就爲每個遊戲世界單獨配備一臺數據庫服務器,以減輕數據庫的壓力。所以,整體的服務器結構應該是一個大區有一臺帳號數據庫服務器,所有的登錄服都連接到這裏。而每個遊戲世界都有自己的遊戲數據庫服務器,只允許本遊戲世界內的服務器連接。

  最後,我們的服務器結構就像這樣:

               大區服務器       
          /     |       /
            /       |        /
            登錄服1   登錄服2   世界服1   世界服2
         /         |         |       |  
          /       |         |         |
          帳號數據庫         DBS     DBS

  這裏既然討論到了大區及帳號數據庫,所以順帶也說一下關於激活大區的概念。wow中一共有八個大區,我們想要進入某個大區遊戲之前,必須到官網上激活這個區,這是爲什麼呢?

  一般來說,在各個大區帳號數據庫之上還有一個總的帳號數據庫,我們可以稱它爲中心數據庫。比如我們在官網上註冊了一個帳號,這時帳號數據是隻保存在中心數據庫上的。而當我們要到一區去創建角色開始遊戲的時候,在一區的帳號數據庫中並沒有我們的帳號數據,所以,我們必須先到官網上做一次激活操作。這個激活的過程也就是從中心庫上把我們的帳號數據拷貝到所要到的大區帳號數據庫中。

服務器結構探討 -- 簡單的世界服實現

  討論了這麼久我們一直都還沒有進入遊戲世界服務器內部,現在就讓我們來窺探一下里面的結構吧。

  對於現在大多數MMORPG來說,遊戲服務器要處理的基本邏輯有移動、聊天、技能、物品、任務和生物等,另外還有地圖管理與消息廣播來對其他高級功能做支撐。如縱隊、好友、公會、戰場和副本等,這些都是通過基本邏輯功能組合或擴展而成。

  在所有這些基礎邏輯中,與我們要討論的服務器結構關係最緊密的當屬地圖管理方式。決定了地圖的管理方式也就決定了我們的服務器結構,我們仍然先從最簡單的實現方式開始說起。

  回想一下我們曾戰鬥過無數個夜晚的暗黑破壞神,整個暗黑的世界被分爲了若干個獨立的小地圖,當我們在地圖間穿越時,一般都要經過一個叫做傳送門的裝置。世界中有些地圖間雖然在地理上是直接相連的,但我們發現其遊戲內部的邏輯卻是完全隔離的。可以這樣認爲,一塊地圖就是一個獨立的數據處理單元。

  既然如此,我們就把每塊地圖都當作是一臺獨立的服務器,他提供了在這塊地圖上游戲時的所有邏輯功能,至於內部結構如何劃分我們暫不理會,先把他當作一個黑盒子吧。

  當兩個人合作做一件事時,我們可以以對等的關係相互協商着來做,而且一般也都不會有什麼問題。當人數增加到三個時,我們對等的合作關係可能會有些複雜,因爲我們每個人都同時要與另兩個人合作協商。正如俗語所說的那樣,三個和尚可能會碰到沒水喝的情況。當人數繼續增加,情況就變得不那麼簡單了,我們得需要一個管理者來對我們的工作進行分工、協調。遊戲的地圖服務器之間也是這麼回事。

  一般來說,我們的遊戲世界不可能會只有一塊或者兩塊小地圖,那順理成章的,也就需要一個地圖管理者。先稱它爲遊戲世界的中心服務器吧,畢竟是管理者嘛,大家都以它爲中心。

  中心服務器主要維護一張地圖ID到地圖服務器地址的映射表。當我們要進入某張地圖時,會從中心服上取得該地圖的IP和port告訴客戶端,客戶端主動去連接,這樣進入他想要去的遊戲地圖。在整個遊戲過程中,客戶端始終只會與一臺地圖服務器保持連接,當要切換地圖的時候,在獲取到新地圖的地址後,會先與當前地圖斷開連接,再進入新的地圖,這樣保證玩家數據在服務器上只有一份。

  我們來看看結構圖是怎樣的:

              中心服務器
           /       /         /
         /         /         /
       登錄服     地圖1     地圖2   地圖n
         /         |         /       /
           /       |         /       /
                客戶端

  很簡單,不是嗎。但是簡單並不表示功能上會有什麼損失,簡單也更不能表示遊戲不能賺錢。早期不少遊戲也確實採用的就是這種簡單結構。

服務器結構探討 -- 繼續世界服

  都已經看出來了,這種每切換一次地圖就要重新連接服務器的方式實在是不夠優雅,而且在實際遊戲運營中也發現,地圖切換導致的卡號,複製裝備等問題非常多,這裏完全就是一個事故多發地段,如何避免這種頻繁的連接操作呢?

  最直接的方法就是把那個圖倒轉過來就行了。客戶端只需要連接到中心服上,所有到地圖服務器的數據都由中心服來轉發。很完美的解決方案,不是嗎?

  這種結構在實際的部署中也遇到了一些挑戰。對於一般的MMORPG服務器來說,單臺服務器的承載量平均在2000左右,如果你的服務器很不幸地只能帶1000人,沒關係,不少遊戲都是如此;如果你的服務器上跑了3000多玩家依然比較流暢,那你可以自豪地告訴你的策劃,多設計些大量消耗服務器資源的玩法吧,比如大型國戰、公會戰爭等。

  2000人,似乎我們的策劃朋友們不大願意接受這個數字。我們將地圖服務器分開來原來也是想將負載分開,以多帶些客戶端,現在要所有的連接都從中心服上轉發,那連接數又遇到單臺服務器的可最大承載量的瓶頸了。

  這裏有必要再解釋下這個數字。我知道,有人一定會說,才帶2000人,那是你水平不行,我隨便寫個TCP服務器都可帶個五六千連接。問題恰恰在於你是隨便寫的,而MMORPG的服務器是複雜設計的。如果一個演示socket API用的echo服務器就能滿足MMOG服務器的需求,那寫服務器該是件多麼愜意的事啊。

  但我們所遇到的事實是,服務器收到一個移動包後,要向周圍所有人廣播,而不是echo服務器那樣簡單的迴應;服務器在收到一個連接斷開通知時要向很多人通知玩家退出事件,並將該玩家的資料寫入數據庫,而不是echo服務器那樣什麼都不需要做;服務器在收到一個物品使用請求包後要做一系列的邏輯判斷以檢查玩家有沒有作弊;服務器上還啓動着很多定時器用來更新遊戲世界的各種狀態......

  其實這麼一比較,我們也看出資源消耗的所在了:服務器上大量的複雜的邏輯處理。再回過頭來看看我們想要實現的結構,我們既想要有一個唯一的入口,使得客戶端不用頻繁改變連接,又希望這個唯一入口的負載不會太大,以致於接受不了多少連接。

  仔細看一看這個需求,我們想要的僅僅只是一臺管理連接的服務器,並不打算讓他承擔太多的遊戲邏輯。既然如此,那五六千個連接也還有滿足我們的要求。至少在現在來說,一個遊戲世界內,也就是一組服務器內同時有五六千個在線的玩家還是件讓人很興奮的事。事實上,在大多數遊戲的大部分時間裏,這個數字也是很讓人眼紅的。

  什麼?你說夢幻、魔獸還有史先生的那個什麼征途遠不止這麼點人了!噢,我說的是大多數,是大多數,不包括那些明星。你知道大陸現在有多少遊戲在運營嗎?或許你又該說,我們不該在一開始就把自己的目標定的太低!好吧,我們還是先不談這個。

  繼續我們的結構討論。一般來說,我們把這臺負責連接管理的服務器稱爲網關服務器,因爲內部的數據都要通過這個網關才能出去,不過從這臺服務器提供的功能來看,稱其爲反向代理服務器可能更合適。我們也不在這個名字上糾纏了,就按大家通用的叫法,還是稱他爲網關服務器吧。

  網關之後的結構我們依然可以採用之前描述的方案,只是,似乎並沒有必要爲每一個地圖都開一個獨立的監聽端口了。我們可以試着對地圖進行一些劃分,由一個Master Server來管理一些更小的Zone Server,玩家通過網關連接到Master Server上,而實際與地圖有關的邏輯是分派給更小的Zone Server去處理。

  最後的結構看起來大概是這樣的:

         Zone Server         Zone Server
                 /             /
                 /           /
                 Master Server           Master Server
                     /       /                   /
                   /         /                 /
         Gateway Server         /               /
             |         /         /             /
             |         /         /           /
             |               Center Server
             |
             |
           Client

服務器結構探討 -- 最終的結構

  如果我們就此打住,可能馬上就會有人要嗤之以鼻了,就這點古董級的技術也敢出來現。好吧,我們還是把之前留下的問題拿出來解決掉吧。

  一般來說,當某一部分能力達不到我們的要求時,最簡單的解決方法就是在此多投入一點資源。既然想要更多的連接數,那就再加一臺網關服務器吧。新增加了網關服後需要在大區服上做相應的支持,或者再簡單點,有一臺主要的網關服,當其負載較高時,主動將新到達的連接重定向到其他網關服上。

  而對於遊戲服來說,有一臺還是多臺網關服是沒有什麼區別的。每個代表客戶端玩家的對象內部都保留一個代表其連接的對象,消息廣播時要求每個玩家對象使用自己的連接對象發送數據即可,至於連接是在什麼地方,那是完全透明的。當然,這只是一種簡單的實現,也是普通使用的一種方案,如果後期想對消息廣播做一些優化的話,那可能才需要多考慮一下。

  既然說到了優化,我們也稍稍考慮一下現在結構下可能採用的優化方案。

  首先是當前的Zone Server要做的事情太多了,以至於他都處理不了多少連接。這其中最消耗系統資源的當屬生物的AI處理了,尤其是那些複雜的尋路算法,所以我們可以考慮把這部分AI邏輯獨立出來,由一臺單獨的AI服務器來承擔。

  然後,我們可以試着把一些與地圖數據無關的公共邏輯放到Master Server上去實現,這樣Zone Server上只保留了與地圖數據緊密相關的邏輯,如生物管理,玩家移動和狀態更新等。

  還有聊天處理邏輯,這部分與遊戲邏輯沒有任何關聯,我們也完全可以將其獨立出來,放到一臺單獨的聊天服務器上去實現。

  最後是數據庫了,爲了減輕數據庫的壓力,提高數據請求的響應速度,我們可以在數據庫之前建立一個數據庫緩存服務器,將一些常用數據緩存在此,服務器與數據庫的通信都要通過這臺服務器進行代理。緩存的數據會定時的寫入到後臺數據庫中。

  好了,做完這些優化我們的服務器結構大體也就定的差不多了,暫且也不再繼續深入,更細化的內容等到各個部分實現的時候再探討。

  好比我們去看一場晚會,
舞臺上演員們按着預定的節目單有序地上演着,但這就是整場晚會的全部嗎?顯然不止,在幕後還有太多太多的人在忙碌着,甚至在晚會前和晚會後都有。我們的遊戲服務器也如此。

  在之前描述的部分就如同舞臺上的演員,是我們能直接看到的,幕後的工作人員我們也來認識一下。

  現實中有警察來維護秩序,遊戲中也如此,這就是我們常說的GM。GM可以採用跟普通玩家一樣的拉入方式來進入遊戲,當然權限會比普通玩家高一些,也可以提供一臺GM服務器專門用來處理GM命令,這樣可以有更高的安全性,GM服一般接在中心服務器上。

  在以時間收費的遊戲中,我們還需要一臺計費的服務器,這臺服務器一般接在網關服務器上,註冊玩家登錄和退出事件以記錄玩家的遊戲時間。

  任何爲用戶提供服務的地方都會有日誌記錄,遊戲服務器當然也不例外。從記錄玩家登錄的時間,地址,機器信息到遊戲過程中的每一項操作都可以作爲日誌記錄下來,以備查錯及數據挖掘用。至於蒐集玩家機器資料所涉及到的法律問題不是我們該考慮的。

  差不多就這麼多了吧,接下來我們會按照這個大致的結構來詳細討論各部分的實現。

服務器結構探討 -- 一點雜談

  再強調一下,服務器結構本無所謂好壞,只有是否適合自己。我們在前面探討了一些在現在的遊戲中見到過的結構,並盡我所知地分析了各自存在的一些問題和可以做的一些改進,希望其中沒有謬誤,如果能給大家也帶來些啓發那自然更好。

  突然發現自己一旦羅嗦起來還真是沒完沒了。接下來先說說我在開發中遇到過的一些困惑和一基礎問題探討吧,這些問題可能有人與我一樣,也曾遇到過,或者正在被困擾中,而所要探討的這些基礎問題向來也是爭論比較多的,我們也不評價其中的好與壞,只做簡單的描述。

  首先是服務器操作系統,linux與windows之爭隨處可見,其實在大多數情況下這不是我們所能決定的,似乎各大公司也基本都有了自己的傳統,如網易的freebsd,騰訊的linux等。如果真有權利去選擇的話,選自己最熟悉的吧。

  決定了OS也就基本上確定了網絡IO模型,windows上的IOCP和linux下的epool,或者直接使用現有的網絡框架,如ACE和asio等,其他還有些商業的網絡庫在國內的使用好像沒有見到,不符合中國國情嘛。:)

  然後是網絡協議的選擇,以前的選擇大多傾向於UDP,爲了可靠傳輸一般自己都會在上面實現一層封裝,而現在更普通的是直接採用本身就很可靠的TCP,或者TCP與UDP的混用。早期選擇UDP的主要原因還是帶寬限制,現在寬帶普通的情況下TCP比UDP多出來的一點點開銷與開發的便利性相比已經不算什麼了。當然,如果已有了成熟的可靠UDP庫,那也可以繼續使用着。

  還有消息包格式的定義,這個曾在雲風的blog上展開過激烈的爭論。消息包格式定義包括三段,包長、消息碼和包體,爭論的焦點在於應該是消息碼在前還是包長在前,我們也把這個當作是信仰問題吧,有興趣的去雲風的blog上看看,論論。

  另外早期有些遊戲的包格式定義是以特殊字符作分隔的,這樣一個好處是其中某個包出現錯誤後我們的遊戲還能繼續。但實際上,我覺得這是完全沒有必要的,真要出現這樣的錯誤,直接斷開這個客戶端的連接可能更安全。而且,以特殊字符做分隔的消息包定義還加大了一點點網絡數據量。

  最後是一個純技術問題,有關socket連接數的最大限制。開始學習網絡編程的時候我犯過這樣的錯誤,以爲port的定義爲unsigned short,所以想當然的認爲服務器的最大連接數爲65535,這會是一個硬性的限制。而實際上,一個socket描述符在windows上的定義是unsigned int,因此要有限制那也是四十多億,放心好了。

  在服務器上port是監聽用的,想象這樣一種情況,web server在80端口上監聽,當一個連接到來時,系統會爲這個連接分配一個socket句柄,同時與其在80端口上進行通訊;當另一個連接到來時,服務器仍然在80端口與之通信,只是分配的socket句柄不一樣。這個socket句柄纔是描述每個連接的唯一標識。按windows網絡編程第二版上的說法,這個上限值配置影響。

  好了,廢話說完了,下一篇,我們開始進入登錄服的設計吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章