虎牙直播是怎樣建設數據中臺的?

最近幾年,“中臺”概念很火,尤其是數據中臺,它成爲企業發揮數據價值的重要支柱。虎牙通過數據中臺的建設不僅解決了以前面臨的數據問題,而且構建了自己的數據中臺能力,帶來不錯的收益。數據中臺和技術中臺的區別是什麼?數據中臺的建設會面臨哪些挑戰?如何解決數據治理上遇到的難題?… 帶着這些疑惑,InfoQ 記者採訪了 ArchSummit 全球架構師峯會講師虎牙數據技術部高級經理譚安林。

譚安林在虎牙負責數據中臺建設,圍繞數據治理、數據服務兩個方面,打造面向對內團隊的數據開放能力。據悉,虎牙自頂向下成立了中臺委員會,該委員會在近 1 年的時間中極大推動了虎牙內部的中臺化建設歷程。

數據中臺與技術中臺的區別

在譚安林看來,數據中臺和技術中臺有着較大區別。

技術中臺

技術中臺,這是着重於各類技術服務的抽象、封裝、開放,其效應是達成新業務、新功能的靈活快速組建,相關服務有專門團隊運維以達成穩定性保障,最終形成網狀的、豐富的服務調用生態。它是各個技術團隊技術成果共享的有效方式。

數據中臺

數據中臺的核心不在於大數據平臺技術的運維和開放,而是着重於數據本身。其核心點在於,如何利用大數據技術實現數據內容與開放能力的建設,以滿足不同層次的中臺客戶對數據的需求。而這些中臺客戶,包括業務產品與運營、數據分析人員、數據挖掘人員以及技術線的研發人員。

從數據中臺面向受衆着力,需要解決的是讓這些人員,如何在合法合規的基礎上,方便、有效地去找到數據並理解數據,最後使用數據。

虎牙數據中臺建設的背景和訴求

虎牙公司旗下既有國內遊戲直播平臺虎牙直播,也有風靡東南亞和南美的 Nimo TV,“隨着業務線的拓展以及業務在全球的持續展開,對數據的需求日益旺盛”。

同一場景,不同角色人員對某一場景都有一定程度的數據需求,因工作方向的着力點不同,故對數據的信息量、聚合度有一定差異。虎牙公司是有專門的底層平臺支撐團隊,底層能力包括但不限於上報 SDK、接入通道、以及大數據計算平臺等。當不同人員各自規劃一些數據需求,通過底層平臺去實現數據採集、清洗、計算這樣的工作,這就會導致兩大問題:

  1. 同一個場景出現多源頭數據,產生源頭一致性問題以及資源浪費問題;
  2. 同一份源頭數據被不同邏輯處理解讀導致出現結果一致性問題,從而引起數據信任危機。

此外,在業務發展過程中,有些數據需求是現有數據無法滿足的,存在多個技術團隊有相同需求,而彼此之間因爲所屬不同部門、工作職責不同,其信息分析、數據共享的機制欠缺,所以多個團隊去獲取同一份數據,導致工作重疊和成本浪費。

譚安林還提到,在新業務起步階段,“數據是欠缺的”。因此,如何在新業務起步階段,快速擁有兩個能力變得尤爲重要:

  • 能力一,基礎數據決策能力,以數據驅動業務的發展,而不是完全靠運營同學憑藉人工經驗;
  • 能力二,基礎數據採集分析能力,即如何讓新業務採集數據更快、更準地達成,讓運營報表可儘早落地,經營分析可儘早切入。

“前者是一個數據跨域應用的問題,後者是一個數據體系快速搭建的問題”。

他說,“針對這樣的一些問題,數據中臺就是當前的解法。”目標是囊括內部業務數據以及外部可用數據集、輸出具備一致性、有質量、易理解的數據內容體系,達成數據共享。降低工作重疊、規避成本浪費效應,進而助推數據決策在虎牙業務上更深度、更廣度的應用。

虎牙的業務場景特點

一直以來,虎牙深耕遊戲直播領域,同時也在發力秀場、戶外、體育等多個方向。簡言之,虎牙的業務場景涉及直播多個方面,存在業務多樣性、地域多樣性的特色。

針對不同業務場景,我們大致可以分爲兩部分:結構化數據需求和非結構化數據需求。

特點 1:結構化數據需求

傳統來說,經營分析、內容推薦、廣告推薦等需求場景,它們被歸爲結構化數據需求,其涉及多個產品、每個產品多個端,同時也涉及到客戶端、服務端、數據庫同步等多個縱深數據採集接入。

解決方案

怎樣解決對結構化數據的需求?譚安林表示,面對紛雜的數據接入點,以及多樣的數據需求,虎牙在底層接入通道、大數據計算平臺的基礎上,構建了中臺相關產品,包括面向採集的數據接入管理平臺,面向應用的數據地圖和 WebIDE 探索工具。

以產品化工具的形式,切入到數據從產生到應用鏈路,驅動業務產品、研發、測試參與數據接入環節,並以數據地圖的形式開放,讓數據技術人員能夠易檢索、易理解目標數據,在底層數據資源的基礎上通過 WebIDE 進行研究應用。

特點 2:非結構化數據需求

虎牙還在 AI 領域發力,不僅有 AI 美顏、AI 風控,而且也在數字人方向進行研究應用,比如晚玉等數字人形象。譚安林稱,在傳統直播模式的基礎上,大力探索 AI 方向的新玩法。

相比經營分析等場景,AI 場景的數據需求大爲不同,“這也是結構化數據場景、非結構化數據場景本質的不同,一些傳統場景強依賴於結構化的行爲數據等,但是數字人這類創新內容生產領域等強依賴於非結構化的圖片音頻等數據”。

譚安林指出,隨着業務和技術的深入,例如推薦等一些看似經典的場景,也越來越需要非結構化數據結構化後提供更豐富的信息以提升性能。因此,非結構化數據能力的補齊,也是數據中臺的一大特點。

解決方案

爲此,在非結構化數據方面,他們不僅在數據採集方面覆蓋相關環節,而且着重針對非結構化數據進行結構化信息的融合,形成非結構化數據的業務融合層,並基於內外部的 AI 能力進行標註,實現 AI 元數據。

在產品化工具方面,則提供基於結構化標籤篩選非結構化數據的能力,這對 AI 方向的數據研發起到了顯著加速的作用。

虎牙數據中臺的架構

據悉,虎牙的數據中臺是在大數據計算存儲平臺 hadoop 以及雲上對象存儲的基礎上構建,劃分爲 I、P、S 三層結構。

I 層側重於數據資源層建設,包括結構化和非結構化數據,由數據接入管理平臺、數據目錄管理系統、數據地圖產品、數據探索 WebIDE、網盤共享工具等部分組成,圍繞數據接入、非結構化與結構化融合、數據治理和底層數據開放等核心點。

P 層側重於數據資產層建設,包括主題式數據服務、跨域數據標籤,由數據交換消費系統、自助式 API 系統等組成,圍繞跨域能力、系統服務化等核心點。

S 層側重於具象數據產品應用,面向產品、運營或技術人員直接提供數據報表、分析結論,包括海思報表服務、自助提數服務、數據 CUBE 設計、自助分析系統等。

譚安林總結道,層次的劃分,是便於各層可以聚焦打磨能力,從而形成整體的數據中臺競爭力。每一層的建設,圍繞自身目標和核心點,形成閉環和開放的迭代機制。I 層厚在數據資源整合,P 層寬在開放能力多樣,S 層快在場景敏捷應用。

虎牙數據中臺建設面臨的挑戰

虎牙建設數據中臺主要面臨兩大挑戰:

  • 一是結構化方面紛雜的接入源以及多樣化的數據需求情況下如何形成通用化的中臺開放能力;
  • 二是非結構化情況下如何構建通用數據資源並便於使用。

而最大的難點在於,在數據中臺建設歷程中,團隊需要去思考數據中臺的工作邊界,中臺客戶能做什麼,不能做什麼,核心要去做哪些

他表示,有一個原則是“中臺客戶能做的,少去做,甚至不要去做”。

結構化數據倉庫方面,從埋點設計、研發測試、接入清洗、倉庫建模、數據應用鏈路 5 個環節來說,數據中臺團隊的核心工作是在接入清洗、倉庫建模兩個環節。這兩個環節是承接接入源,構建通用的數據倉庫層,並提供倉庫層數據的開放,屬於不得不去做的事情,也是持續投入的重要環節。

埋點設計和研發測試兩個環節的主要參與方不是數據中臺團隊,而是由產品 & 數據分析師根據產品功能規劃、數據分析需求等進行設計埋點明細,研發測試環節是業務研發在埋點設計基礎上進行代碼開發、業務測試進行驗收上線覈准。在這兩個環節中,數據中臺的價值是輔助各角色更好的完成相應環節的工作,而不是替代他們完成相關工作。故而數據中臺團隊制定了公司級的上報協同管理規範,並在底層接入通道基礎上研發了數據接入管理平臺,用於規範化這兩個環節的過程與產出。

而在數據應用環節,因應用場景多樣性、差異性,存在較多獨立數據應用團隊,比如經營分析、商業分析、推薦算法團隊、AB 測試、AI 圖形等團隊。數據中臺團隊在這個環境,同樣是以打輔助的角色切入,而不是替代的方式。

譚安林說,“和這些團隊深入交流,我們發現一些現象,舉一些例子:想要一個數據不知道如何去找、多個相似的數據不知道用哪個、某個數據是否有質量問題、某個指標是怎麼加工計算的、結果數據如何方便集成使用。“總結一下就是三點:找數據、辨數據、用數據

雖然業界數據目錄是一個辦法,但其主要側重於技術型元數據如存儲路徑、存儲大小、表 schema 等信息,要滿足中臺客戶自助式檢索數據,這還不夠。虎牙的做法是通過接入管理平臺輻射全公司,形成了完整的接入源覆蓋,通過程序化以及人工標註方式,構建了面向業務理解的業務元數據信息,比如業務劃分、過程定義、事件上報時機、值邏輯性說明等,再輔以數據地圖產品化手段提供“找”的能力。

除了技術元數據 + 業務元數據信息的供給,中臺的數據治理團隊針對開放數據進行了質量分析評估和監控,在數據地圖上呈現質量信息,從表、分區,乃至字段都有呈現,比如在字段上,會對值域範圍、值分佈等進行評估,以可視化的方式呈現給中臺客戶。

在底層 hive/presto 的能力基礎上,研發了與數據地圖打通的 WebIDE 探索工具,並針對數據交換場景研發了通用調度工具。“非結構化數倉方面也是類似。切入 AI 團隊數據準備、效果驗證環節中,提供數據資源以及元數據信息,並實現檢索性的產品化服務”。

數據治理怎麼做?

數據治理是一個比較大的課題,譚安林認爲,最關鍵的點是讓中臺客戶“信任”數據中臺開放的數據。他說,“常規的數據治理做法是偏過程性的做法,業界也很常見,像存儲效率、計算效率、血緣合理性這類,但是這些都是站在平臺視角出發,更多着重於成本。”

而虎牙,除了業務常規做法外,在過程性方面建立了數據倉庫建模規範,細化從 ods-dwd-dwt-dwb-dwa-ods 的建模細則,並且在倉庫建模過程中,根據主題化規劃,進行模型拓撲設計、定期評審整合,以此達成模型拓撲合理性以及複用效應。

在結果性方面,分成“源”和“果”兩個層面:

  • “源”方面,針對接入數據源,採取了准入機制。數據需求人可在數據接入管理平臺錄入數據埋點等需求,在測試驗收階段可使用平臺提供的消息篩選、自助校驗等工具進行驗收准入,在上線後,平臺會自動根據需求和驗收情況對線上數據進行跟蹤監控,讓源的質量顯性可視,主要呈現在接入管理平臺。
  • “果”方面,針對開放數據,包括表、指標,提供數值性校驗能力和指標對比性校驗能力,開放給中臺客戶可見,以達成“果”的質量顯性可視,主要呈現在數據地圖產品。

建設數據中臺的收益

短期收益

對虎牙而言,短期來看,數據中臺的建設,解決了接入源紛雜、接入職責不清晰等現象帶來的數據源質量問題,也一定程度滿足了數據應用團隊的數據需求,圍繞着“找數據、辨數據、用數據”三點降低了數據理解門檻,提升了應用團隊工作效率。

長期收益

長期來看,這讓虎牙建立了行之有效的數據上報規範、數據建模規範和中臺化開放能力,也形成了中臺化數據資源以及跨域的數據資產的構建機制,從而對現有業務實現更快速支撐,對新業務更能起到冷啓動支持。另外,還形成了一個基礎的、通用的數據層,實現了核心數據資產的沉澱,這對一家互聯網企業來說是具備寶貴戰略價值的。

在採訪最後,譚安林說,“現階段來說,虎牙的數據中臺在結構化和非結構化方向皆取得一定突破,在公司內部服務了各個業務線以及技術團隊。比如數據接入平臺覆蓋公司所有產品線,數據地圖每週服務四五百人,而數據資產也被廣泛使用。”

個人收穫

對於個人,他稱有兩個大的收穫:一是從 0 到 1 構建了數據中臺能力,實踐出真知,需要深入中臺客戶痛點,才能分析問題本質,進而指導我們的建設方向,而非照搬業界經驗;二是思維上的轉變,捋清楚短期痛點與長期目標之間的區別與關聯,面向長期目標持續投入人力以實現里程碑的突破,在短期痛點上聚焦人力以解決臨時矛盾。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章