理解HTTP冪等性

冪等(idempotence)是來自於高等代數中的概念。

定義如下(加入了自己理解):

單目運算, x爲某集合內的任意數, f爲運算子如果滿足f(x)=f(f(x)), 那麼我們稱f運算爲具有冪等性(idempotent)

比如在實數集中,絕對值運算就是一個例子: abs(a)=abs(abs(a))

雙目運算,x爲某集合內的任意數, f爲運算子如果滿足f(x,x)=x, f運算的前提是兩個參數都同爲x, 那麼我們也稱f運算爲具有冪等性

比如在實數集中,求兩個數的最大值的函數: max(x,x) = x, 還有布爾代數中,邏輯運算 "與", "或" 也都是冪等運算, 因爲他們符合AND(0,0) = 0, AND(1,1) = 1, OR(0,0) = 0, OR(1,1) = 1

 

基於HTTP 協議的Web API是時下最爲流行的一種分佈式服務提供方式。無論是在大型互聯網應用還是企業級架構中,我們都 見到了 越來越多 SOA或RESTful的Web API。爲什麼Web API如此流行呢?我認爲 很大程度上應 歸功於簡單有效的HTTP 協議 。HTTP協議是一種 分佈式 的面向資源的網絡應用層 協議 無論是服務器端提供Web服務,還是客戶端消費Web服務都非常簡單。 再 加上瀏覽器、Javascript、AJAX、JSON以及HTML5等技術和工具的發展,互聯網應用架構設計表現出了從傳統的PHP、JSP、 ASP.NET等服務器端動態網頁向Web API + RIA(富互聯網應用)過渡的趨勢。Web API專注於提供業務服務,RIA專注於用戶界面和交互設計,從此兩個領域的分工更加明晰。在這種趨勢下,Web API設計將成爲服務器端程序員的必修課。 然而, 正如簡單的Java語言並不意味着高質量的Java程序,簡單的HTTP 協議也不意味着高質量的Web API 要想設計出高質量的Web API ,還需要深入理解分佈式系統及HTTP 協議的特性。

 

 

冪等性定義

本文所要探討的正是HTTP協議涉及到的一種重要性質:冪等性(Idempotence )。 在HTTP/1.1規範中冪等性的定義是:

Methods can also have the property of "idempotence" in that (aside from error or expiration issues) the side-effects of N > 0 identical requests is the same as for a single request.

 

從 定義上看,HTTP方法的冪等性是指一次和多次請求某一個資源應該具有同樣的副作用。冪等性屬於語義範疇,正如編譯器只能幫助檢查語法錯誤一樣,HTTP 規範也沒有辦法通過消息格式等語法手段來定義它,這可能是它不太受到重視的原因之一。但實際上,冪等性是分佈式系統設計中十分重要 概念,而HTTP的分佈式本質也決定了它在HTTP中具有重要地位。

 

 

分佈式事務 vs 冪等設計

爲什麼需要冪等性呢?我們先從一個例子說起,假設有一個從賬戶取錢的遠程API(可以是HTTP的,也可以不是),我們暫時用類函數的方式記爲:  

bool withdraw(account_id, amount)

withdraw 的語義是從account_id對應的賬戶中扣除amount數額的錢;如果扣除成功則返回true,賬戶餘額減少amount;如果扣除失敗則返回 false,賬戶餘額不變。值得注意的是:和本地環境相比,我們不能輕易假設分佈式環境的可靠性。一種典型的情況是withdraw請求已經被服務器端正 確處理,但服務器端的返回結果由於網絡等原因被掉丟了,導致客戶端無法得知處理結果。如果是在網頁上,一些不恰當的設計可能會使用戶認爲上一次操作失敗 了,然後刷新頁面,這就導致了withdraw被調用兩次,賬戶也被多扣了一次錢。如圖1所示:

non-idemponent

圖1

這 個問題的解決方案一是採用分佈式事務,通過引入支持分佈式事務的中間件來保證withdraw功能的事務性。分佈式事務的優點是對於調用者很簡單,複雜性 都交給了中間件來管理。缺點則是一方面架構太重量級,容易被綁在特定的中間件上,不利於異構系統的集成;另一方面分佈式事務雖然能保證事務的ACID性 質,而但卻無法提供性能和可用性的保證。

另一種更輕量級的解決方案是冪等設計。我們可以通過一些技巧把withdraw變成冪等的,比如:

int create_ticket()

bool idempotent_withdraw(ticket_id, account_id, amount)

create_ticket 的語義是獲取一個服務器端生成的唯一的處理號ticket_id,它將用於標識後續的操作。idempotent_withdraw和withdraw的 區別在於關聯了一個ticket_id,一個ticket_id表示的操作至多隻會被處理一次,每次調用都將返回第一次調用時的處理結果。這 樣,idempotent_withdraw就符合冪等性了,客戶端就可以放心地多次調用。

基 於冪等性的解決方案中一個完整的取錢流程被分解成了兩個步驟:1.調用create_ticket()獲取ticket_id;2.調用 idempotent_withdraw(ticket_id, account_id, amount)。雖然create_ticket不是冪等的,但在這種設計下,它對系統狀態的影響可以忽略,加上idempotent_withdraw 是冪等的,所以任何一步由於網絡等原因失敗或超時,客戶端都可以重試,直到獲得結果。如圖2所示:

image

圖2

和分佈式事務相比,冪等設計的優勢在於它的輕量級,容易適應異構環境,以及性能和可用性方面。在某些性能要求比較高的應用,冪等設計往往是唯一的選擇。

 

HTTP的冪等性

HTTP 協議本身是一種面向資源的應用層協議,但對HTTP協議的使用實際上存在着兩種不同的方式:一種是RESTful的,它把HTTP當成應用層協議,比較忠 實地遵守了HTTP協議的各種規定;另一種是SOA的,它並沒有完全把HTTP當成應用層協議,而是把HTTP協議作爲了傳輸層協議,然後在HTTP之上 建立了自己的應用層協議。本文所討論的HTTP冪等性主要針對RESTful風格的,不過正如上一節所看到的那樣,冪等性並不屬於特定的協議,它是分佈式 系統的一種特性;所以,不論是SOA還是RESTful的Web API設計都應該考慮冪等性。下面將介紹HTTP GET、DELETE、PUT、POST四種主要方法的語義和冪等性。

HTTP GET方法用於獲取資源,不應有副作用,所以是冪等的。比如:GET http://www.bank.com/account/123456,不會改變資源的狀態,不論調用一次還是N次都沒有副作用。請注意,這裏強調的是 一次和N次具有相同的副作用,而不是每次GET的結果相同。GET http://www.news.com/latest-news這個HTTP請求可能會每次得到不同的結果,但它本身並沒有產生任何副作用,因而是滿足 冪等性的。

HTTP DELETE方法用於刪除資源,有副作用,但它應該滿足冪等性。比如:DELETE http://www.forum.com/article/4231,調用一次和N次對系統產生的副作用是相同的,即刪掉id爲4231的帖子;因此, 調用者可以多次調用或刷新頁面而不必擔心引起錯誤。

比較容易混淆的是HTTP POST和PUT。POST和PUT的區別容易被簡單地誤認爲“POST表示創建資源,PUT表示更新資源”;而實際上,二者均可用於創建資源,更爲本質的差別是在冪等性方面。在HTTP規範中對POST和PUT是這樣定義的:

The POST method is used to request that the origin server accept the entity enclosed in the request as a new subordinate of the resource identified by the Request-URI in the Request-Line. ...... If a resource has been created on the origin server, the response SHOULD be 201 (Created) and contain an entity which describes the status of the request and refers to the new resource, and a Location header.

The PUT method requests that the enclosed entity be stored under the supplied Request-URI. If the Request-URI refers to an already existing resource, the enclosed entity SHOULD be considered as a modified version of the one residing on the origin server. If the Request-URI does not point to an existing resource, and that URI is capable of being defined as a new resource by the requesting user agent, the origin server can create the resource with that URI.

POST 所對應的URI並非創建的資源本身,而是資源的接收者。比如:POST http://www.forum.com/articles的語義是在http://www.forum.com/articles下創建一篇帖 子,HTTP響應中應包含帖子的創建狀態以及帖子的URI。兩次相同的POST請求會在服務器端創建兩份資源,它們具有不同的URI;所以,POST方法 不具備冪等性。 而PUT所對應的URI是要創建或更新的資源本身。比如:PUT http://www.forum/articles/4231的語義是創建或更新ID爲4231的帖子。對同一URI進行多次PUT的副作用和一次PUT是相同的;因此,PUT方法具有冪等性。

在 介紹了幾種操作的語義和冪等性之後,我們來看看如何通過Web API的形式實現前面所提到的取款功能。很簡單,用POST /tickets來實現create_ticket;用PUT /accounts/account_id/ticket_id&amount=xxx來實現idempotent_withdraw。值得注意 的是嚴格來講amount參數不應該作爲URI的一部分,真正的URI應該是/accounts/account_id/ticket_id,而 amount應該放在請求的body中。這種模式可以應用於很多場合,比如:論壇網站中防止意外的重複發帖。

 

所以RESTful設計中將冪等性和安全性是作爲兩個不同的指標來衡量POST,PUT,GET,DELETE操作的:

重要方法 安全? 冪等?
GET
DELETE
PUT
POST

冪等性是系統的接口對外一種承諾(而不是實現), 承諾只要調用接口成功, 外部多次調用對系統的影響是一致的. 聲明爲冪等的接口會認爲外部調用失敗是常態, 並且失敗之後必然會有重試.

 

總結

上面簡單介紹了冪等性的概念,用冪等設計取代分佈式事務的方法,以及HTTP主要方法的語義和冪等性特徵。其實,如果要追根溯源,冪等性是數學中的一個概念,表達的是N次變換與1次變換的結果相同,有興趣的讀者可以從 Wikipedia 上進一步瞭解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章