session多服務器共享的方案梳理(轉載)

session的存儲瞭解以前是怎麼做的,搞清楚了來龍去脈,纔會明白進行共享背後的思想和出發點。我喜歡按照這樣的方式來問(或者去搞清楚):爲什麼要session要進行共享,不共享會什麼問題呢?

 

 php中session的原理,以前做了一下總結,可以參考:http://www.cnblogs.com/wangtao_20/archive/2011/02/16/1955659.html

 

以前業界使用session的做法:

 

默認情況下,php的session文件是保存在磁盤文件中。在php.ini配置文件中的配置項如下:

 

session.save_handler = files

 

session.save_path = "N;/path"

 

第一個配置項是指定使用files(文件形式)存儲session數據。

 

第二個參數指定保存的路徑。N表示生成多少級目錄(不放到一個目錄下,分散到多個磁盤目錄中去)

 

我的配置項是:session.save_path = "F:/wamp/tmp"。那麼就會去這個目錄下面看到很多session數據的文件。

 

當我們使用php的內置函數session_start()的時候,就是去上面指定的磁盤目錄把session數據載入,實際上就是拿類似

sess_74dd7807n2mfml49a1i12hkc45的文件。

 

 

74dd7807n2mfml49a1i12hkc45就是大家經常說的什麼session的id號。

 

php.ini中還有一個關鍵配置項,如下:

 

session.name = PHPSESSID

 

 

PHPSESSID就是cookie的名稱,其實上面一串"74dd7807n2mfml49a1i12hkc45"會保存在一個名爲PHPSESSID的cookie中。

 

根據http的請求機制,當瀏覽器請求的時候,頭部信息會把瀏覽器中的cookie一起發給服務器。PHPSESSID這個cookie也

是在其中發給了服務器,php引擎通過讀取PHPSESSID的值來確定要載入哪個session文件。

比如值爲74dd7807n2mfml49a1i12hkc45,載入的就是"sess_74dd7807n2mfml49a1i12hkc45"。

 

注:當你調用php的函數session_start(),才表明你需要使用session文件了。不然平白無故就去載入文件,浪費性能。

 

===========================================

 

根據如上原理。session的數據默認是保存在磁盤文件中。假設這種情況:多臺php服務器進行負載均衡的時候,比如有三臺php服務器,爲了實現負載均衡,那麼三臺服務器上面的php代碼都是一樣(拷貝一份)。

 

 

 

上面的圖是nginx+fpm部署圖。可以看到多臺php服務器進行負載均衡。

 

 

生成session數據文件都是在本地了(a,b,c各自的服務器磁盤上)。負載均衡的目的本來就是要爲了平均分配請求,所以沒有固定第一次訪問和第二次訪問是同一臺服務器,實際上無法確定的。第一秒訪問可能是a服務器,第二秒訪問的可能是c服務器。

所以同一個登錄會員,實際上就會出現:第一秒訪問第一臺php服務器,第二秒訪問的是第二臺服務器。登錄的信息一般是保存在session中的。這樣子登錄保存的session數據就需要進行共享了。不然的話會出現,訪問第一臺服務器生成了一個session數據。第二秒負載請求到第三臺服務器,結果獲取不到剛纔生成的session數據。

 

我的理解是:只有涉及到多臺多臺後端服務器(php,java等處理服務器)的時候,才涉及到session讀取不到的問題。

在php環境中,只有多臺php服務器(php服務器而非web服務器,session文件是php引擎生成的)的情況下,纔會涉及到

session共享的問題。單臺php服務器,存儲都在一臺主機上。不涉及到共享問題。因爲session直接存儲在這臺服務器磁盤上是能夠被本機讀取到的。

 

如果是:一臺php服務器,多臺mysql服務器。這種也是負載均衡,這種負載均衡不涉及到共享問題。因爲怎麼session數據怎麼操作都是保存在一臺服務器上。

 

==================================

ps:實際上,session在php,.net,java等只要是後端語言都會用到。session的存儲機制,各種語言都大體差不多。我覺得這跟cookie在各個語言中都會用到差不多。.net,java我沒去了解過。但是存儲原理是差不多的。區別就是,php,java,.net調用的函數,讀和取session數據的方式不同。默認都是存儲在本地文件中的(不然怎麼會涉及到session共享問題呢,存儲在數據庫本身就可以實現共享的)。

 

 

 

所以,無論是.net還是java都會涉及到session數據共享的問題。

其實我的理解是,session的原理都是一樣的。討論session共享方案設計,是可以拋開具體的語言去討論session共享方案設計。

 

 

目前業界解決session共享的幾種思路,我總結如下:

 

第一種辦法:把原來存儲在服務器磁盤上的session數據存儲到客戶端的cookie中去。

這樣子,就不需要涉及到數據共享了。a客戶端請求的時候,原來生成在服務器的數據生成到瀏覽器的cookie中,根據cookie中的數據識別用戶。php由原來的”從本地(也就是服務器)磁盤上讀取session數據”轉變爲”瀏覽器的cookie中讀取數據”,

這樣子,在多臺php服務器負載均衡的情況下,即便第一秒請求是a服務器,第二秒請求是b服務器,都不需要管哪臺服務器了。反正都是讀取客戶端上的cookie數據。

一般是把session數據按照自己定義的加密規則,加密後後存在cookie中。

數據保存在cookie中這種做法有好處,也有壞處。

好處是服務器的壓力減小了,因爲session數據不存在服務器磁盤上。根本就不會出現session讀取不到的問題。

帶來的弊端是:

網絡請求佔用很多。每次請求時,客戶端都要通過cookie發送session數據給服務器。

另外,瀏覽器對cookie的大小存在限制。每個瀏覽器限制是不同的。

Firefox和Safari允許cookie多達4097個字節,包括名(name)、值(value)和等號。

  Opera允許cookie多達4096個字節,包括:名(name)、值(value)和等號。

  Internet Explorer允許cookie多達4095個字節,包括:名(name)、值(value)和等號。

 

所以第一種方案不適合高訪問量的情況下,因爲高訪問量的情況下,每次請求瀏覽器都要發送session數據給服務器。一般一個cookie大小2k的樣子。

要佔用很多帶寬了(服務器購買帶寬是一個很大費用),成本增高。歸納爲帶寬性能,速度問題。

存儲到cookie中去,第二方面是安全問題:把session數據放到客戶端,一般session中存的都是重要性數據(帳號、暱稱、用戶id等),會存在安全問題。

瞭解到,淘寶以前用過這種方式,把session數據存儲到cookie中,根據cookie來識別用戶。

 

第二種思路:用一種算法(簡單理解爲規則),什麼機制下session是保存在哪臺服務器下,那麼讀取的時候就按照這種規則去讀取,就能定位到原來的服務器。叫做分發請求,分發到特定的服務器上去,我理解其原理是存session和讀session數據保證都在一臺服務器操作,就不會需要涉及到共享,具體實現方式是通過約定一種分發機制來實現。

也叫做sticky模式(粘性會話模式),同一個用戶的訪問請求都被派送到同一個服務器上。

假設是同一個用戶user1,每次訪問都路由到同一臺服務器上,這樣即便是在負載均衡的情況下,也能保證每次訪問都能讀取到session,不需要做session數據共享了。

關鍵多臺server的原因是爲負載均衡而做的,那麼就得把原來負載均衡的規則假設是—a,現在改爲按照session來均衡分發請求的規則—b

 

如果這臺機子掛掉了,那麼後續的請求按照session的規則還是會分發到這臺服務器上去,但是現在不可用了。

本來負載均衡有一個目的就是:當其中一臺機子不可用的時候,會自動分發到可用的機子上去(自動判斷現在要請求的機子是否可用)

 

因爲某種規則的session都是保存在一臺服務器上,比如用戶編號是1-200涉及到的session數據保存到a服務器上去。所以只要一臺出問題,1-200的用戶就無法實現登錄了。後面就不可用了(可能想到1-200用戶的session服務器用多臺進行復制,這感覺很蹩腳,仍然需要用到複製的話,還不如用其他簡便的方法)

 

第三種思路:做一箇中間層,專門來存儲所有訪問涉及到的session。也就是所有的session都存儲在這裏。

服務器端統一從這裏讀取session數據。

 

具體實現方式很多種。我的理解是,這裏只是一種思想層面上的。我不知道淘寶的tbsession框架的具體實現。但是大致思想差不多,

由這個session框架來維護所有網站的session數據。我根據自己的理解,猜測淘寶的結構畫圖大致如下:

 

使用這種中間層的思想來實現共享,具體的技術方案,我歸納爲以下幾種:

 

1、 通過NFS文件共享的方式,多臺php服務器共享保存session文件的磁盤。

通過nfs的方式,各個php服務器操作session數據的時候,是讀取本地磁盤目錄,但實際上是一個共享網絡文件。各個php服務器實際上操作的都是同一個目錄的文件。

 

具體的操作細節。到時候還需要詳細寫一下。我根據理解,畫了下面的圖:

 

 

 

 2保存在數據庫中,這種方式的擴展性很強,可以隨意增加WEB而不受影響。放在數據庫裏面安全方面好。

 

其實我理解本質是:自己寫程序(php,java都可以實現,反正是保存在數據庫中)模擬實現session的機制。

 

具體爲,把以前存儲在文件中的session數據存儲到數據庫中去,那麼這樣做,其實就不用到php內置的session機制了(像session_start()之類的函數都不需要去用了)。

寫程序要模擬的是,從數據庫拿session數據,約定什麼情況下數據過期瞭然後自動清理,這裏是指刪除數據庫中的行。保存在文件中的時候,php有垃圾回收機制會去自動清理過期的session文件。

====================================弊端

 

放在數據庫裏面,訪問量小沒有問題。大流量網站這麼做,只會拖慢速度。因爲得查詢數據庫,造成數據庫壓力大。

高併發訪問的情況下,會出現很大的性能問題。

有些做法跟這種思想是類似的:比如ecshop、phpcms是把session數據都存儲在數據庫中去。服務端就是從數據庫中拿session的數據。

放到數據庫存儲後,就可以實現:多臺web服務器統一操作數據庫,因爲數據都在數據庫,web服務器都能從數據庫進行讀取,那麼session數據就能實現共享。

存儲在數據庫的做法,在線人數決定了其瓶頸,主要問題是影響性能。在線人數,因爲登錄的session數據存儲在數據庫中,只要是登錄的用戶就會涉及到頻繁操作數據庫。

我覺得小網站,同時1-2萬個人在線情況下。應該沒什麼問題。

看網上丟出一個問題:對於大訪問量的網站,數據庫存儲session方法可行性有待商榷。

 

我搜尋了一些資料,理解如下:

訪問量大的話,一個用戶訪問了n多個頁面,哪怕是刷新頁面,都需要去數據庫取session數據。數據庫的承受壓力,確實很恐怖。pv是多少,就要請求多少次數據庫服務器。

 

訪問每個頁面都會去數據庫查詢是否登錄,或者添加數據進數據庫的sessions表

 

保存在文件中的時候,則交給了操作系統去控制。一個用戶怎麼刷新頁面,查看其他頁面,都只需要讀取單個session文件(sess_74dd7807n2mfml49a1i12hkc45)。

我覺得,ecshop,discuz之類的系統之所以把session存儲在數據庫中去,跟網站的應用級別有關。他們設計的系統本身就是給中小站長用的,這些中小站長一般由於規模小,經濟成本考慮,使用的是虛擬主機之類的。不具備對服務器的完全控制權限,比如還要安個memcache之類的,修改php.ini之類的都需要自己擁有獨立服務器才能操控的(vps也算,只是虛擬出來的硬件而已)。

其實真正要做到網站大了,系統承受不住了。也會自己有獨立的技術人員可以進行二次開發。

 

discuz這些做通用的軟件要考慮思路有個特點:得考慮大部分用戶的服務器環境。比如經常看到源代碼裏面要做php版本判斷的代碼,判斷是5.0之前的要如何處理,以求儘量適應大部分環境。而我們公司自己運營的內部系統,環境我們完全可控。做這些確實是多餘的工作量。

另外一個點是,這些通用軟件不會爲了高級用戶的特殊需求,做一些改變,結果另外一部分用戶就無法使用了。沒法兩全。所以我的理解是,他們一般不會隨便去響應站長的需求,比如你明明是一個很大用戶的站點,你用了我的系統,還要說數據量大了承受不住,表容易損壞。你都達到某種級別的應用了,還不自己進行開發。來這裏抱怨。找我按照你們方式定製,願意給錢就好。

 

從這裏我看到,不是說這些軟件技術含量就多好,是多麼成熟的解決方案。他們針對的用戶羣不同。

由於http是短連接,每次過程是:建立連接(握手)》》數據通信》》通信結束後結束連接。如果頻繁的這樣子連接後再斷開,性能會非常差。

session存儲在數據庫中,有多少pv,就要多少次這樣的數據庫連接操作(得去數據庫拿session才能知道有沒有登錄,登錄是否過時)。

 

3可以將session數據保存在memcached,redis之類內存數據庫中,memcached是基於內存存儲數據的,性能很高,用戶併發量很大的時候尤其合適。

主要是利用內存的數據讀取速度是很快的,與磁盤讀取的速度不是一個數量級的。

使用內存存儲:方便統計在線人數,內存的速度比磁盤訪問快、內存數據庫系統能夠控制內存中的過期數據自動失效(剛好符合session過期需要)。

 

存儲在redis比較理想的選擇,存儲在數據庫中方便存儲統計在線人數,那麼存儲在redis中也實現了這個要求。

也可以存儲在memcache中。但redis支持的數據類型多。所以用它好點。

 

關於使用技術工具複製session數據同步到多臺服務器的方案權衡:

這種方案是,使用一些文件同步工具(linux下的rsync),當a服務器中的session數據有更改的時候,就會把這些更改也同步到b,c服務器上去。通過複製的方式,最終a,b,c各個服務器上都拷貝了一份session數據。

這種方式的弊端是,速度慢。複製數據會出現延遲。比如第一秒訪問是a服務器,修改了session數據,負載均衡,可能下一秒訪問是b服務器,session數據如果沒有被複制到b服務器,則是讀取不到session數據的,出現時間上的延遲。這種複製數據要消耗很多網絡帶寬的。在實際中業界用得比較少。機器的數量越多,複製數據的性能損耗越大。不具備高度擴展性。

複製session的方式,無論是網絡帶寬成本還是硬件開銷上都很大的。

轉自:http://www.cnblogs.com/wangtao_20/p/3395518.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章