Session原理之jsp

在web開發中,session是個非常重要的概念。在許多動態網站的開發者看來,session就是一個變量,而且其表現像個黑洞,他只需要將東西在合適的時機放進這個洞裏,等需要的時候再把東西取出來。這是開發者對session最直觀的感受,但是黑洞裏的景象或者說session內部到底是怎麼工作的呢?當筆者向身邊的一些同事或朋友問及相關的更進一步的細節時,很多人往往要麼含糊其辭要麼主觀臆斷,所謂知其然而不知其所以然。

筆者由此想到很多開發者,包括我自己,每每都是糾纏於框架甚至二次開發平臺之上,而對於其下的核心和基礎知之甚少,或者有心無力甚至毫不關心,少了逐本溯源的精神,每憶及此,無不慚愧。曾經實現過一個簡單的HttpServer,但當時由於知識儲備和時間的問題,沒有考慮到session這塊,不過近期在工作之餘翻看了一些資料,並進行了相關實踐,小有所得,本着分享的精神,我將在本文中儘可能全面地將個人對於session的理解展現給讀者,同時盡我所能地論及一些相關的知識,以期讀者在對session有所瞭解的同時也能另有所悟,正所謂授人以漁。

Session是什麼

    Session一般譯作會話,牛津詞典對其的解釋是進行某活動連續的一段時間。從不同的層面看待session,它有着類似但不全然相同的含義。比如,在web應用的用戶看來,他打開瀏覽器訪問一個電子商務網站,登錄、並完成購物直到關閉瀏覽器,這是一個會話。而在web應用的開發者開來,用戶登錄時我需要創建一個數據結構以存儲用戶的登錄信息,這個結構也叫做session。因此在談論session的時候要注意上下文環境。而本文談論的是一種基於HTTP協議的用以增強web應用能力的機制或者說一種方案,它不是單指某種特定的動態頁面技術,而這種能力就是保持狀態,也可以稱作保持會話。

爲什麼需要session

    談及session一般是在web應用的背景之下,我們知道web應用是基於HTTP協議的,而HTTP協議恰恰是一種無狀態協議。也就是說,用戶從A頁面跳轉到B頁面會重新發送一次HTTP請求,而服務端在返回響應的時候是無法獲知該用戶在請求B頁面之前做了什麼的。

    對於HTTP的無狀態性的原因,相關RFC裏並沒有解釋,但聯繫到HTTP的歷史以及應用場景,我們可以推測出一些理由:

1.   設計HTTP最初的目的是爲了提供一種發佈和接收HTML頁面的方法。那個時候沒有動態頁面技術,只有純粹的靜態HTML頁面,因此根本不需要協議能保持狀態;

2.   用戶在收到響應時,往往要花一些時間來閱讀頁面,因此如果保持客戶端和服務端之間的連接,那麼這個連接在大多數的時間裏都將是空閒的,這是一種資源的無端浪費。所以HTTP原始的設計是默認短連接,即客戶端和服務端完成一次請求和響應之後就斷開TCP連接,服務器因此無法預知客戶端的下一個動作,它甚至都不知道這個用戶會不會再次訪問,因此讓HTTP協議來維護用戶的訪問狀態也全然沒有必要;

3.   將一部分複雜性轉嫁到以HTTP協議爲基礎的技術之上可以使得HTTP在協議這個層面上顯得相對簡單,而這種簡單也賦予了HTTP更強的擴展能力。事實上,session技術從本質上來講也是對HTTP協議的一種擴展。

總而言之,HTTP的無狀態是由其歷史使命而決定的。但隨着網絡技術的蓬勃發展,人們再也不滿足於死板乏味的靜態HTML,他們希望web應用能動起來,於是客戶端出現了腳本和DOM技術,HTML裏增加了表單,而服務端出現了CGI等等動態技術。

而正是這種web動態化的需求,給HTTP協議提出了一個難題:一個無狀態的協議怎樣才能關聯兩次連續的請求呢?也就是說無狀態的協議怎樣才能滿足有狀態的需求呢?

此時有狀態是必然趨勢而協議的無狀態性也是木已成舟,因此我們需要一些方案來解決這個矛盾,來保持HTTP連接狀態,於是出現了cookie和session。

對於此部分內容,讀者或許會有一些疑問,筆者在此先談兩點:

1.   無狀態性和長連接

可能有人會問,現在被廣泛使用的HTTP1.1默認使用長連接,它還是無狀態的嗎?

連接方式和有無狀態是完全沒有關係的兩回事。因爲狀態從某種意義上來講就是數據,而連接方式只是決定了數據的傳輸方式,而不能決定數據。長連接是隨着計算機性能的提高和網絡環境的改善所採取的一種合理的性能上的優化,一般情況下,web服務器會對長連接的數量進行限制,以免資源的過度消耗。

2.   無狀態性和session

        Session是有狀態的,而HTTP協議是無狀態的,二者是否矛盾呢?

    Session和HTTP協議屬於不同層面的事物,後者屬於ISO七層模型的最高層應用層,前者不屬於後者,前者是具體的動態頁面技術來實現的,但同時它又是基於後者的。在下文中筆者會分析Servlet/Jsp技術中的session機制,這會使你對此有更深刻的理解。

Cookie和Session

    上面提到解決HTTP協議自身無狀態的方式有cookie和session。二者都能記錄狀態,前者是將狀態數據保存在客戶端,後者則保存在服務端。

    首先看一下cookie的工作原理,這需要有基本的HTTP協議基礎。

cookie是在RFC2109(已廢棄,被RFC2965取代)裏初次被描述的,每個客戶端最多保持三百個cookie,每個域名下最多20個Cookie(實際上一般瀏覽器現在都比這個多,如Firefox是50個),而每個cookie的大小爲最多4K,不過不同的瀏覽器都有各自的實現。對於cookie的使用,最重要的就是要控制cookie的大小,不要放入無用的信息,也不要放入過多信息。

    無論使用何種服務端技術,只要發送回的HTTP響應中包含如下形式的頭,則視爲服務器要求設置一個cookie:

Set-cookie:name=name;expires=date;path=path;domain=domain

    支持cookie的瀏覽器都會對此作出反應,即創建cookie文件並保存(也可能是內存cookie),用戶以後在每次發出請求時,瀏覽器都要判斷當前所有的cookie中有沒有沒失效(根據expires屬性判斷)並且匹配了path屬性的cookie信息,如果有的話,會以下面的形式加入到請求頭中發回服務端:

    Cookie: name="zj"; Path="/linkage"

    服務端的動態腳本會對其進行分析,並做出相應的處理,當然也可以選擇直接忽略。

    這裏牽扯到一個規範(或協議)與實現的問題,簡單來講就是規範規定了做成什麼樣子,那麼實現就必須依據規範來做,這樣才能互相兼容,但是各個實現所使用的方式卻不受約束,也可以在實現了規範的基礎上超出規範,這就稱之爲擴展了。無論哪種瀏覽器,只要想提供cookie的功能,那就必須依照相應的RFC規範來實現。所以這裏服務器只管發Set-cookie頭域,這也是HTTP協議無狀態性的一種體現。

需要注意的是,出於安全性的考慮,cookie可以被瀏覽器禁用。

    再看一下session的原理:

    筆者沒有找到相關的RFC,因爲session本就不是協議層面的事物。它的基本原理是服務端爲每一個session維護一份會話信息數據,而客戶端和服務端依靠一個全局唯一的標識來訪問會話信息數據。用戶訪問web應用時,服務端程序決定何時創建session,創建session可以概括爲三個步驟:

1.   生成全局唯一標識符(sessionid);

2.   開闢數據存儲空間。一般會在內存中創建相應的數據結構,但這種情況下,系統一旦掉電,所有的會話數據就會丟失,如果是電子商務網站,這種事故會造成嚴重的後果。不過也可以寫到文件裏甚至存儲在數據庫中,這樣雖然會增加I/O開銷,但session可以實現某種程度的持久化,而且更有利於session的共享;

3.   將session的全局唯一標示符發送給客戶端。

問題的關鍵就在服務端如何發送這個session的唯一標識上。聯繫到HTTP協議,數據無非可以放到請求行、頭域或Body裏,基於此,一般來說會有兩種常用的方式:cookie和URL重寫。

1.   Cookie

讀者應該想到了,對,服務端只要設置Set-cookie頭就可以將session的標識符傳送到客戶端,而客戶端此後的每一次請求都會帶上這個標識符,由於cookie可以設置失效時間,所以一般包含session信息的cookie會設置失效時間爲0,即瀏覽器進程有效時間。至於瀏覽器怎麼處理這個0,每個瀏覽器都有自己的方案,但差別都不會太大(一般體現在新建瀏覽器窗口的時候);

2.   URL重寫

所謂URL重寫,顧名思義就是重寫URL。試想,在返回用戶請求的頁面之前,將頁面內所有的URL後面全部以get參數的方式加上session標識符(或者加在path info部分等等),這樣用戶在收到響應之後,無論點擊哪個鏈接或提交表單,都會在再帶上session的標識符,從而就實現了會話的保持。讀者可能會覺得這種做法比較麻煩,確實是這樣,但是,如果客戶端禁用了cookie的話,URL重寫將會是首選。

    到這裏,讀者應該明白我前面爲什麼說session也算作是對HTTP的一種擴展了吧。如下兩幅圖是筆者在Firefox的Firebug插件中的截圖,可以看到,當我第一次訪問index.jsp時,響應頭裏包含了Set-cookie頭,而請求頭中沒有。當我再次刷新頁面時,圖二顯示在響應中不在有Set-cookie頭,而在請求頭中卻有了Cookie頭。注意一下Cookie的名字:jsessionid,顧名思義,就是session的標識符,另外可以看到兩幅圖中的jsessionid的值是相同的,原因筆者就不再多解釋了。另外讀者可能在一些網站上見過在最後附加了一段形如jsessionid=xxx的URL,這就是採用URL重寫來實現的session。

(圖一,首次請求index.jsp)

(圖二,再次請求index.jsp)

Cookie和session由於實現手段不同,因此也各有優缺點和各自的應用場景:

1.   應用場景

Cookie的典型應用場景是Remember Me服務,即用戶的賬戶信息通過cookie的形式保存在客戶端,當用戶再次請求匹配的URL的時候,賬戶信息會被傳送到服務端,交由相應的程序完成自動登錄等功能。當然也可以保存一些客戶端信息,比如頁面佈局以及搜索歷史等等。

Session的典型應用場景是用戶登錄某網站之後,將其登錄信息放入session,在以後的每次請求中查詢相應的登錄信息以確保該用戶合法。當然還是有購物車等等經典場景;

2.   安全性

cookie將信息保存在客戶端,如果不進行加密的話,無疑會暴露一些隱私信息,安全性很差,一般情況下敏感信息是經過加密後存儲在cookie中,但很容易就會被竊取。而session只會將信息存儲在服務端,如果存儲在文件或數據庫中,也有被竊取的可能,只是可能性比cookie小了太多。

Session安全性方面比較突出的是存在會話劫持的問題,這是一種安全威脅,這在下文會進行更詳細的說明。總體來講,session的安全性要高於cookie;

3.   性能

Cookie存儲在客戶端,消耗的是客戶端的I/O和內存,而session存儲在服務端,消耗的是服務端的資源。但是session對服務器造成的壓力比較集中,而cookie很好地分散了資源消耗,就這點來說,cookie是要優於session的;

4.   時效性

Cookie可以通過設置有效期使其較長時間內存在於客戶端,而session一般只有比較短的有效期(用戶主動銷燬session或關閉瀏覽器後引發超時);

5.   其他

Cookie的處理在開發中沒有session方便。而且cookie在客戶端是有數量和大小的限制的,而session的大小卻只以硬件爲限制,能存儲的數據無疑大了太多。

Servlet/JSP中的Session

    通過上述的講解,讀者應該對session有了一個大體的認識,但是具體到某種動態頁面技術,又是怎麼實現session的呢?下面筆者將結合session的生命週期(lifecycle),從源代碼的層次來具體分析一下在servlet/jsp技術中,session是怎麼實現的。代碼部分以tomcat6.0.20作爲參考。

創建

在我問過的一些從事java web開發的人中,對於session的創建時機大都這麼回答:當我請求某個頁面的時候,session就被創建了。這句話其實很含糊,因爲要創建session請求的發送是必不可少的,但是無論何種請求都會創建session嗎?錯。我們來看一個例子。

衆所周知,jsp技術是servlet技術的反轉,在開發階段,我們看到的是jsp頁面,但真正到運行時階段,jsp頁面是會被“翻譯”爲servlet類來執行的,例如我們有如下jsp頁面:

<%@ page language="java" pageEncoding="ISO-8859-1" session="true"%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

<html>

    <head>

        <title>index.jsp</title>

    </head>

    <body>

        This is index.jsp page.

        <br>

    </body>

</html>

    在我們初次請求該頁面後,在對應的work目錄可以找到該頁面對應的java類,考慮到篇幅的原因,在此只摘錄比較重要的一部分,有興趣的讀者可以親自試一下:

......

response.setContentType("text/html;charset=ISO-8859-1");

pageContext = _jspxFactory.getPageContext(this, request, response,

            nulltrue, 8192, true);

_jspx_page_context = pageContext;

application = pageContext.getServletContext();

config = pageContext.getServletConfig();

session = pageContext.getSession();

out = pageContext.getOut();

_jspx_out = out;

 

out.write("\r\n");

out.write("<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\r\n");

out.write("<html>\r\n");

......

    可以看到有一句顯式創建session的語句,它是怎麼來的呢?我們再看一下對應的jsp頁面,在jsp的page指令中加入了session="true",意思是在該頁面啓用session,其實作爲動態技術,這個參數是默認爲true的,這很合理,在此顯示寫出來只是做一下強調。很顯然二者有着必然的聯繫。筆者在jsp/servlet的翻譯器(org.apache.jasper.compiler)的源碼中找到了相關證據:

......

if (pageInfo.isSession())

    out.printil("session = pageContext.getSession();");

out.printil("out = pageContext.getOut();");

out.printil("_jspx_out = out;");

......

    上面的代碼片段的意思是如果頁面中定義了session="true",就在生成的servlet源碼中加入session的獲取語句。這隻能夠說明session創建的條件,顯然還不能說明session是如何創建的,本着逐本溯源的精神,我們繼續往下探索。

    有過servlet開發經驗的應該記得我們是通過HttpServletRequest的getSession方法來獲取當前的session對象的:

public HttpSession getSession(boolean create);

public HttpSession getSession();

    二者的區別只是無參的getSession將create默認設置爲true而已。即:

public HttpSession getSession() {

    return (getSession(true));

}

    那麼這個參數到底意味着什麼呢?通過層層跟蹤,筆者終於理清了其中的脈絡,由於函數之間的關係比較複雜,如果想更詳細地瞭解內部機制,建議去獨立閱讀tomcat相關部分的源代碼。這裏我將其中的大致流程敘述一下:

1.   用戶請求某jsp頁面,該頁面設置了session="true";

2.   Servlet/jsp容器將其翻譯爲servlet,並加載、執行該servlet;

3.   Servlet/jsp容器在封裝HttpServletRequest對象時根據cookie或者url中是否存在jsessionid來決定是綁定當前的session到HttpRequest還是創建新的session對象(在請求解析階段發現並記錄jsessionid,在Request對象創建階段將session綁定);

4.   程序按需操作session,存取數據;

5.   如果是新創建的session,在結果響應時,容器會加入Set-cookie頭,以提醒瀏覽器要保持該會話(或者採用URL重寫方式將新的鏈接呈現給用戶)。

通過上面的敘述讀者應該瞭解了session是何時創建的,這裏再從servlet這個層面總結一下:當用戶請求的servlet調用了getSession方法時,都會獲取session,至於是否創建新的session取決於當前request是否已綁定session。當客戶端在請求中加入了jsessionid標識而servlet容器根據此標識查找到了對應的session對象時,會將此session綁定到此次請求的request對象,客戶端請求中不帶jsessionid或者此jsessionid對應的session已過期失效時,session的綁定無法完成,此時必須創建新的session。同時發送Set-cookie頭通知客戶端開始保持新的會話。

保持

    理解了session的創建,就很好理解會話是如何在客戶端和服務端之間保持的了。當首次創建了session後,客戶端會在後續的請求中將session的標識符帶到服務端,服務端程序只要在需要session的時候調用getSession,服務端就可以將對應的session綁定到當前請求,從而實現狀態的保持。當然這需要客戶端的支持,如果禁用了cookie而又不採用url重寫的話,session是無法保持的。

    如果幾次請求之間有一個servlet未調用getSession(或者乾脆請求一個靜態頁面)會不會使得會話中斷呢?這個不會發生的,因爲客戶端只會將合法的cookie值傳送給服務端,至於服務端拿cookie做什麼事它是不會關心的,當然也無法關心。Session建立之後,客戶端會一直將session的標識符傳送到服務器,無論請求的頁面是動態的、靜態的,甚至是一副圖片。

銷燬

    此處談到的銷燬是指會話的廢棄,至於存儲會話信息的數據結構是回收被重用還是直接釋放內存我們並不關心。Session的銷燬有兩種情況:超時和手動銷燬。

    由於HTTP協議的無狀態性,服務端無法得知一個session對象何時將再次被使用,可能用戶開啓了一個session之後再也沒有後續的訪問,而且session的保持是需要消耗一定的服務端開銷的,因此不可能一味地創建session而不去回收無用的session。這裏就引入了一個超時機制。Tomcat中的超時在web.xml裏做如下配置:

<session-config>

<session-timeout>30</session-timeout>

</session-config>

    上述配置是指session在30分鐘沒有被再次使用就將其銷燬。Tomcat是怎麼計算這個30分鐘的呢?原來在getSession之後,都要調用它的access方法,修改lastAccessedTime,在銷燬session的時候就是判斷當前時間和這個lastAccessedTime的差值。

    手動銷燬是指直接調用其invalidate方法,此方法實際上是調用expire方法來手動將其設置爲超時。

    當用戶手動請求了session的銷燬時,客戶端是無法知道服務端的session已經被銷燬的,它依然會發送先前的session標識符到服務端。而此時如果再次請求了某個調用了getSession的servlet,服務端是無法根據先前的session標識符找到相應的session對象的,這是又要重新創建新的session,分配新的標識符,並告知服務端更新session標識符開始保持新的會話。

Session的數據結構

    在servlet/jsp中,容器是用何種數據結構來存儲session相關的變量的呢?我們猜測一下,首先它必須被同步操作,因爲在多線程環境下session是線程間共享的,而web服務器一般情況下都是多線程的(爲了提高性能還會用到池技術);其次,這個數據結構必須容易操作,最好是傳統的鍵值對的存取方式。

    那麼我們先具體到單個session對象,它除了存儲自身的相關信息,比如id之外,tomcat的session還提供給程序員一個用以存儲其他信息的接口(在類org.apache.catalina.session. StandardSession裏):

public void setAttribute(String name, Object value, boolean notify)

    在這裏可以追蹤到它到底使用了何種數據:

protected Map attributes = new ConcurrentHashMap();

    這就很明確了,原來tomcat使用了一個ConcurrentHashMap對象存儲數據,這是java的concurrent包裏的一個類。它剛好滿足了我們所猜測的兩點需求:同步與易操作性。

    那麼tomcat又是用什麼數據結構來存儲所有的session對象呢?果然還是ConcurrentHashMap(在管理session的org.apache.catalina.session. ManagerBase類裏):

protected Map<String, Session> sessions = new ConcurrentHashMap<String, Session>();

    具體原因就不必多說了。至於其他web服務器的具體實現也應該考慮到這兩點。

Session Hijack

    Session hijack即會話劫持是一種比較嚴重的安全威脅,也是一種廣泛存在的威脅,在session技術中,客戶端和服務端通過傳送session的標識符來維護會話,但這個標識符很容易就能被嗅探到,從而被其他人利用,這屬於一種中間人攻擊。

本部分通過一個實例來說明何爲會話劫持,通過這個實例,讀者其實更能理解session的本質。

首先,我編寫了如下頁面:

<%@ page language="java" pageEncoding="ISO-8859-1" session="true"%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

<html>

    <head>

       <title>index.jsp</title>

    </head>

    <body>

       This is index.jsp page.

       <br>

       <%

           Object o = session.getAttribute("counter");

           if (o == null) {

              session.setAttribute("counter", 1);

           } else {

              Integer i = Integer.parseInt(o.toString());

              session.setAttribute("counter", i + 1);

           }

           out.println(session.getAttribute("counter"));

       %>

       <a href="<%=response.encodeRedirectURL("index.jsp")%>">index</a>

    </body>

</html>

    頁面的功能是在session中放置一個計數器,第一次訪問該頁面,這個計數器的值初始化爲1,以後每一次訪問這個頁面計數器都加1。計數器的值會被打印到頁面。另外,爲了比較簡單地模擬,筆者禁用了客戶端(採用firefox3.0)的cookie,轉而改用URL重寫方式,因爲直接複製鏈接要比僞造cookie方便多了。

    下面,打開firefox訪問該頁面,我們看到了計數器的值爲1:

(圖三)

    然後點擊index鏈接來刷新計數器,注意不要刷新當前頁,因爲我們沒用採用cookie的方式,只能在url後面帶上jsessionid,而此時地址欄裏的url是無法帶上jsessionid的。如圖四,我把計數器刷新到了20。

(圖四)

    下面是最關鍵的,複製firefox地址欄裏的地址(筆者看到的是http://localhost:8080/sessio

n/index.jsp;jsessionid=1380D9F60BCE9C30C3A7CBF59454D0A5),然後打開另一個瀏覽器,此處不必將其cookie禁用。這裏我打開了蘋果的safari3瀏覽器,然後將地址粘貼到其地址欄裏,回車後如下圖:

(圖五)

    很奇怪吧,計數器直接到了21。這個例子筆者是在同一臺計算機上做的,不過即使換用兩臺來做,其結果也是一樣的。此時如果交替點擊兩個瀏覽器裏的index鏈接你會發現他們其實操縱的是同一個計數器。其實不必驚訝,此處safari盜用了firefox和tomcat之間的維持會話的鑰匙,即jsessionid,這屬於session hijack的一種。在tomcat看來,safari交給了它一個jsessionid,由於HTTP協議的無狀態性,它無法得知這個jsessionid是從firefox那裏“劫持”來的,它依然會去查找對應的session,並執行相關計算。而此時firefox也無法得知自己的保持會話已經被“劫持”。

結語

    到這裏,讀者應該對session有了更多的更深層次的瞭解,不過由於筆者的水平以及視野有限,文中也不乏表述欠妥之處,通篇更多地描述了在servlet/jsp中的session機制,但其他開發平臺的機制也都萬變不離其宗。只要認真思考,你會發現其實這裏林林總總之間,總有一些因果關係存在。在軟件規模日益增大的背景下,我們更多的時候接觸到的是框架、組件,程序員的雙眼被矇蔽了,在這些框架、組件不斷產生以及版本的不斷更新中,其實有很多相對不變的東西,那就是規範、協議、模式、算法等等,真正令一個人得到提高的還是那些底層的支撐技術。平時多多思考的話,你就能把類似的探索轉化爲印證。做技術猶如解牛,知根知底方能遊刃有餘。

轉載請保留出處:shoru.cnblogs.com 晉哥哥的私房錢


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章