獨家揭祕阿里文娛數據服務平臺發展史

背景

近些年,隨着雙11、618等營銷活動的常態化,優酷對內部的數據分析能力提出了更高的要求。主要體現在以下三方面:

  1. 實時性:傳統的離線數據分析已無法滿足強實時性的數據分析需求。在面向直播的數據大屏中,需要實時計算在線人數、CDN帶寬水位、直播體驗(錯誤、卡頓等)等大盤數據指標,需要全網的客戶端日誌以及個別服務端日誌,無疑對數據的實時性提出了更高的挑戰;

  2. 靈活性:除已經固化的業務報表外,新上線的活動、研發爲了優化某一個模塊所依賴的數據分析,都需要靈活、個性化的維度;

  3. 平臺化:儘管依賴阿里集團的數據生態體系,但Case By Case的業務開發仍舊無法滿足實時大屏需求,開發、維護成本增加,如何快速支撐實時大屏的流式計算成爲數據團隊要解決的核心問題。

面對上述三個方面的挑戰,優酷數據團隊首先解決了數據實時性問題,並在過程中沉澱出了面向實時、離線的多維度聚合統計分析類場景,提供模型搭建、數據計算、數據可視化的一站式數據服務平臺。

前身:實時多維度聚合計算

每年的雙11,除阿里集團的雙11媒體大屏外,每個BU的大促、活動、戰役都有自己的實時大屏,優酷也不例外。面對的主要挑戰如下:

  1. 技術挑戰:實時大屏都對數據有非常高的要求,同時面臨着高吞吐、低延時、零差錯、高穩定等多方面的挑戰。僅世界盃期間,直播相關日誌的實時流計算處理峯值就達到1千萬條/秒,處理的總數據量高達百億,期間實時大屏的穩定性保持在3個9的水平,並且要求分鐘級的數據延時,涉及多維度分析;

  2. 業務挑戰:在面向直播的數據大屏中,爲了實時計算在線人數、CDN帶寬水位、直播體驗(錯誤、卡頓等)等大盤數據指標,需要全網的客戶端日誌以及個別服務端日誌。另外爲了讓技術同學更全面的分析流量,增加了很多實時的數據維度,比如理論帶寬降級策略需要端、版本、清晰度等,再比如播放體驗卡頓相關需要運營商、省份城市、網絡制式等維度。這些數據監控了當日直播的方方面面,也是活動應急決策的重要依據。

  3. 整體架構:

原文鏈接:【https://www.infoq.cn/article/4Y3VDIVBaEYe6BbEzEWo】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章