1分鐘售出5萬張票!電影節搶票技術揭祕

原文鏈接:https://mp.weixin.qq.com/s/yTymeq0ebM6cR_wiTMAHTA

#####################################################################################

一、背景介紹

對於電影愛好者來說,每次的電影節、影展活動,都是搶票大戰的開啓,出票速度幾乎可 以用“秒空”來形容,例如上海國際電影節線上開售的記錄是 60 秒售出 5 萬張。

本文主要圍繞售票環節,講述阿里文娛的雲智系統是如何支撐高流量併發,保障系統的穩定,不出現重賣等實現方案背後的技術。

先簡單分析一下電影節的搶票業務,典型特徵是在大流量搶購、高併發的場景下,讓用戶 極快的鎖定座位然後出票,特別是熱門的影片,會異常的火爆。第一道壓力是查詢已售座位列 表和鎖座,需要能快速的支撐用戶的鎖座請求,且實時查詢到已售賣的座位列表,避免發起無 效的鎖座請求;第二道壓力是出票,如果鎖座成功,但一直出票失敗,會給用戶帶來很不好的 體驗。

二、架構設計思考的方向

1.讓業務贏

在分層設計上,分成渠道接入層、業務層和服務層。在業務層,對外業務和管理後臺功能 獨立,職責清晰,快速支撐業務;服務層沉澱基礎服務,構成穩定的業務和基礎服務。       

(圖 1 業務技術大圖)

 

2.讓系統穩定

在架構設計上,接入統一網關讓系統安全,有限流,對庫存中心和訂單中心進行數據隔離, 且加入多級緩存方案,讓系統穩定。

       

       (圖 2 技術架構圖)

三、實現方案與技術解析

1.高併發流量如何抗?

電影節的流量是非常典型的秒殺場景,瞬時流量非常高,對於系統的高性能要求就註定很 高,在雲智中,我們是如何抗高併發流量的?我們通過以下三點來進行闡述:熱點數據隔離、 流量削峯漏斗、多級緩存。

1)熱點數據隔離

在熱點隔離這塊,雲智選擇的策略包括:數據隔離和業務隔離。

數據隔離:是把查詢已售賣座位和已鎖定座位等庫存相關的熱點數據,隔離出來,單獨業 務數據庫,且使用分庫分表,減少系統性能壓力,提高吞吐量。

業務隔離:電影節的業務數據,獨立的業務數據生成能力,圈定參與活動的業務數據,進 行緩存預熱,起到隔離的效果。

2)流量削峯漏斗

關鍵詞是“分層削峯”,漏斗式的減少請求流量,在業務鏈路的過程中,我們會進行業務校驗,層層過濾,如用戶的賬號安全、購買資格,影院、影廳等基礎信息狀態是否正常,要購買的商品信息狀態是否正常、秒殺是否已經結束等,每個層次都儘可能的過濾掉非法的請求,只 在最後端處理真正有效的請求,最終減少請求到數據庫 DB 的寫操作流量,保證系統處理真正 有效的請求。

以鎖座流程爲例子:       

(圖 3 流量削峯漏斗示例圖)

3)多級緩存

在分層漏斗的前提下,雲智採用分佈式緩存和本地緩存 LocalCache 多級緩存的方案來抵抗 高併發流量,以下簡要介紹一下在系統中使用的策略:

a)緩存預熱。在指定參加活動的場次後,會在限定時間內停止變更,在開售前,會自動進 行預熱緩存,避免激增流量擊穿緩存;

b)緩存失效時長控制,對基礎數據實體的 VO 對象和 DO 對象採用失效時間長短的緩存控 制,靜態數據和 DO 實體使用長失效時長的策略:不失效或 24H;動態數據和實體 Info 使用比 較短的失效時長策略:分鐘級,比如冪等性 KEY 的緩存時間爲 2min;

c)本地緩存 LocalCache 使用的緩存時長策略分 3 種:2s,60s,122s。優先讀本地的緩存, 其次讀遠程分佈式的緩存,使得系統可以抵抗瞬間的高併發流量。

示例圖如下所示:

(圖 4  多級緩存示例圖)

將緩存分 2 層結構:第一層是本地緩存結構:用戶、權限、基礎信息等靜態數據,我們優先選擇本地緩存;第二層是全量的緩存實體信息的 DO 和 VO 信息,這層採用的是 Tair 分佈式緩存。

 

2.系統的穩定性、高可用性如何保證?

對於任何檔期或者活動,系統的穩定性都是第一要素,針對電影節的活動場景,我們使用了很多設計上的穩定性模式,其中比較核心的有:多輪全鏈路壓測、限流、降級、動態擴容、 流量調度、減少單點、依賴簡化等方式;除了以上幾點,本節我們重點聊一聊我們在電影節過 程中是如何保障備戰的?

1)保障備戰體系

(圖 5  保障備戰體系圖)

a)在戰前階段

這個階段的工作會比較多,只有做到事前充分準備,纔能有更好的保障結果,主要包括以下幾個部分:

(1)梳理薄弱點,包括系統架構、系統薄弱點、核心主流程,識別出來後製定應對策略;

(2)全鏈路壓測,對系統進行全鏈路壓測,找出系統可以承載的最大 QPS;

(3)限流配置,爲系統配置安全的、符合業務需求的限流閥值;

(4)應急預案,收集各個域的可能風險點,製作應急處理方案;

(5)安全保障,主要聚焦在賬號權限管控,以最小夠用原則爲準,防止權限濫用,安全無 小事;

(6)戰前演練,通過演練來檢驗保障體系是否完善,演練開票現場,提高團隊響應和處理 能力;

(7)作戰手冊,制定作戰手冊,明確作戰流程和關鍵點節點的任務以及溝通機制。

b)在戰中階段

活動開售,我們也稱爲戰中,整個項目組主要專注三件事情,即“監控”、“響應”和“記錄”。項目組的同學都必須要保持作戰狀態,嚴格按照應用 owner 機制,負責巡檢應用情況,及時同步技術數據和業務數據是否有異常。同時,在戰中,我們臨時組建“保障虛擬小組”,用於 應對大促期間可能出現的緊急客訴等問題,及時做出決策,控制影響範圍,同時也能提高整體 作戰能力。記錄,是在戰中過程中必須要記錄下各應用的峯值,及時沉澱技術數據,爲後續系 統建設,流量評估等提供參考借鑑。

c)在戰後階段

這個階段的主要工作是項目覆盤,覆盤的內容主要包括:項目結果、項目回顧、項目沉澱和改進,將項目過程中收集到的問題和故障進行詳細分析,並將項目過程中沉澱出來的,關於系統穩定性保障的經驗沉澱到日常,讓活動保障的常態化逐步落地。

2)最佳實踐

a)精準監控

通過監控,實時發現各個服務是否觸發限流值,及時進行 Review,調整限流值,保證業務成功率和系統穩定。

對系統基礎值班和業務量指標進行精準監控,如 load,內存,PV,UV,錯誤量等,避免 因內存泄露或代碼的 Bug 對系統產生影響,精準監控,提前感知內存泄露等問題。

b)數據大盤

通過數據大盤,實時彙總數據,展示業務數據,爲系統、爲業務提供更加直觀的業務支持,也可以更加有效的進行業務備戰。

 

3.如何保證不出現重賣?

在業務過程中,我們實現了很多業務,解決了很多困難,我們重點闡述以下兩個痛點,一個是惡意鎖座,一個是防止超賣。

1)如何解決惡意鎖座?

首先我們採用的扣減庫存方式是預扣庫存,用戶操作鎖定座位時即鎖定庫存,那我們如何解決惡意鎖座呢?

a)鎖座訂單中會生成一個“庫存失效時間”,超過該時間,鎖座訂單會失效釋放庫存;

b)限制用戶購買數量,一人最多隻能購買 6 張票;

c)接入黃牛防控系統。

2)如何防止庫存超賣?

電影票不同於電商業務普通的標品,是不允許出現超賣的情況,否則會出現重票,從而引 發客訴輿論問題,所以在庫存數據一致性上,需要保障在高併發情況下不出現重票,我們的解 決方案是:

a)使用分佈式緩存,在分佈式緩存中預減庫存,減少數據庫訪問;

b)使用數據庫唯一鍵,在鎖座表中,設定場次 Id 和座位 Id 做爲唯一鍵。鎖定座位時,如果座位已經售賣,會報出數據庫異常,不允許某一個座位重複售賣。

四、總結

回顧電影節搶票,我們首先想到的是能抗高併發流量,能讓系統穩定。通過上述章節我們揭開了高性能、高可用等背後的技術,展示了一個典型搶票大戰的技術方案,核心技術包括:

  • 讓業務贏 = 完整的業務應用 + 支撐核心業務;

  • 高性能、高可用 = 流量削峯 + 限流降級 + 多級緩存;

  • 平臺成熟化 = 完善的監控 +  保障方案。在這個過程中,我們沿着讓系統穩定、讓業務贏的設計思想,不斷的思考和落地這些技術細節,沉澱核心技術,以達到讓用戶體驗流暢的搶票過程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章