全新一代企業級大數據應用模式揭祕

三個問題

1.當下是否還需要一個複雜的EDW(企業級數據倉庫)?

2.數據系統的目標用戶是誰?

3.讓數據適應計算能力還是計算跟着數據走

數據倉庫這個概念在二十多年前由Bill Inmon提出後,幾乎所有的IT廠商都開始介入這個領域,爲企業級數據倉庫設計非常複雜的體系結構和數據模型,典型的企業級數據應用架構如下:

全新一代企業級大數據應用模式揭祕

這個架構,層次結構非常清晰,但是鏈路非常長,導致數據冗餘非常大,同時數據表結構關係複雜,是一個典型的給技術人員使用的模型,業務的同學要使用數據是非常難的,沒法理解底層複雜的表結構和表之間複雜的關聯關係。這個現狀到現在還在持續存在,許多企業投入大量的資源構建企業級數據倉庫,目標是提升企業自身數據化運營的能力,其結果大部分都與目標相差很遠,更多看到的就是構建了一套報表系統。

同時,隨着互聯網和移動互聯網的興起,幾乎所有的企業都在擁抱互聯網,企業裏面產生出很多互聯網應用,同時也產生了大量的非結構化數據,結果問題來了,發現按照這樣的結構設計數據模型,似乎並不能解決企業對非結構化數據的應用能力。同時對於提升數據處理效率也沒有帶來多大的用處。

業務變化快,這點在新興互聯網公司表現的特別明顯,在創新的驅動下,業務變化非常頻繁,同時大數據概念的提出,多源數據結合使用將成爲主流的數據應用模式,導致數倉工程師很難抽象出一個相對比較穩定的數據倉庫模型。

產生大量沉睡數據,很多企業裏面,設計了ODS、DW、DM、RT層,產生了大量的數據表和數據任務,結果真正生產上使用的數據不多,導致每天有大量的關聯任務在不斷的耗用資源。我遇到的一些case,每日從業務庫裏面抽取的表只有1萬多張,但是經過後面的各種加工,整個庫裏面產生上百萬張數據表,技術人員使用起來都非常困難了,找不到數據。

我們回過頭來分析一下,爲什麼會這樣,同時也思考一下那三個問題。爲什麼會按照這個體系來設計:

我認爲,出現上述架構的最大的原因是計算能力不夠,傳統的IT架構用來實現DT架構,計算能力受限,必須通過改變數據的組織形式來適應計算。也就是前面我提到的數據跟着計算走,去積極的適應計算能力。這同時也導致另一個更爲嚴重的問題,二十幾年的發展,各個大數據廠商,都把很大精力放在了數據模型的設計和構建上面,忽略了針對上層業務場景化應用的計算模型探索,所以在新的技術體系下,我們需要來重新思考這些問題。

這樣的模式下,限制了上層數據應用模式,企業裏面業務人員根本不可能去理解一個複雜的IT架構,所有的需求都是由業務人員驅動技術人員來實現。真正對數據有需求的業務人員,理解不了技術的語言,他們理解不了什麼是表、什麼事字段、什麼是主鍵、什麼是外鍵、表與表之間怎麼關聯、甚至是SQL怎麼寫都很難理解。而日常工作中,業務人員更能理解的是什麼,他們能理解自己的客戶是誰,客戶都長什麼樣子,具備什麼樣的氣質;自己有哪些產品,產品有什麼功能,能解決什麼問題;自己的客戶和產品之間是如何互動,互動的結果是什麼。諸如此類的,這是業務人員能力理解的。所以當下要做的就是抽象並提供一套能讓業務人員直接可以理解使用的數據模型,而這個模型一定不是傳統的數倉模型。

封閉的,不透明的,這也是導致企業內數據膨脹的重要原因,同一個標籤,甚至同一張表,在企業數據倉庫裏面比比皆是,導致大量數據冗餘,因爲很多技術同學根本不知道庫裏面有什麼,廠商提的元數據管理也是面向技術的一個方案,沒有從本質上解決數據的業務視圖。所以企業裏面需要一種可以協同、共享、共建的全新的數據應用體系,確保有效數據的有效透出。

企業需要數據應用,提升自身數據化運營能力,但是是否需要一個複雜的DW模型,我認爲當下不需要了,設計上應該輕數據模型(注意這裏是輕數據模型,不是不要),重計算模型。

DTBoost新一代企業數據應用模式

DTBoost是什麼?DTBoost是阿里雲結合阿里巴巴自身大數據應用場景,經過多年總結抽象出的企業級大數據應用平臺,其目標,是讓業務人員可以快速的理解數據,應用數據;輕數據模型設計,重計算模型設計;結構開放,快速支撐數據應用開發;企業內部共建共享,協同開發。

DTBoost對標的產品是什麼?

我周邊經常有人問我這個問題,我可以直接告大家,DTBoost目前沒有對標的產品。在我理解,DTBoost是一種全新的企業級數據應用開發的模式,我們通過DT技術的手段,將這種模式實現成一套公共雲計算平臺上數據應用的PaaS,同時也可以部署在專有云。通過DTBoost可以幫助企業快速實現數據業務解決方案,同時使得業務人員直接使用數據變成現實。

DTBoost架構

全新一代企業級大數據應用模式揭祕

通過前面的分析,DT時代需要一個全新的數據模型,這個也將是整個DTBoost的基礎。我們要站在業務的視角來設計。同時要提供一套數據模型的管理系統,來方便模型的設計和構建。爲此在數據模型這部分將包含以下幾個核心模塊。

全新一代企業級大數據應用模式揭祕

上圖中,最下面三個標籤工廠、領域OLT模版、智能OL發現主要是爲了加速業務OLT模型構建和標籤生產。

OLT(Object Link Tag)模型:所謂的實體,例如 消費者、商家、商品等都可以表示成一個實體,這些都是直接業務的同學可以理解的。關係例如 交易、收藏、點擊、搜索等行爲都是一個關係,由多個實體之間發生的某種行爲。同時我們會在實體、關係上打上很多標籤,來刻畫實體和關係。聽下來和OLP模型非常像,不錯,在整體模型結構上一致,我們重點在tag(標籤)這部分,標籤是業務人員最容易理解的一種數據形態,標籤可以是實體的某種屬性,也可以是通過算法深度加工出來的某個評分,或者多個標籤組合的一個計算邏輯。

全新一代企業級大數據應用模式揭祕

共建共享

DTBoost可以在標籤這個粒度實現權限控制,確保企業內形成共建共享的數據應用模式,標籤可以有多個團隊開發,可以發佈、授權共享給其它部門查看使用。確保業務應用數據層公開透明。

市場機制

在這一層也可以通過市場機制的模式確保數據質量,嚴格意義上講是標籤數據質量,DTBoost可以通過標籤元信息的公開透明,確保業務同學能快速的理解標籤業務含義;通過講標籤的數據分佈可視化,確保數據產出的穩定性;通過業務線使用標籤的情況,來確保標籤是否要被淘汰,如果一個標籤長時間沒人用,系統就可以考慮將其停用下線,釋放底層計算資源;再進一步可以通過上層應用的情況,來自動優化物理層數據的組織方式。這裏舉個例子,如果A、B、C三個標籤經常性被業務方組合使用,原先這三個標籤在物理層分佈在三張表中,那這種情況下,DTBoost會自動檢測,自動構建新的底層物理表,將三個標籤合併到同一張表中,優化存儲的同時,優化了計算。

智能搬遷

這裏在標籤元信息中,DTBoost會詳細記錄標籤對應物理的存儲,當業務方在應用標籤時,只用對計算模型進行選擇,不用對數據物理存儲關心,這個模塊會根據計算模型的指令,完成底層物理數據的自動關聯和搬遷(這裏的搬遷指的是自動的將數據由一個存儲搬遷到計算模型需要的存儲中),不用數據開發的同學再去做物理數據的關聯和數據傳輸任務的配置。

API

下面的所有功能,DTBoost將其封裝成標準的API,共合作伙伴或者開發者做二次開發。

UI

DTBoost通過一個官方標準的交互界面,將底下的這些功能封裝,給用戶提供一套統一的操作體驗。

全新一代企業級大數據應用模式揭祕

標籤工廠

爲什麼需要這個模塊,DTBoost數據模型裏面有非常重要的一塊就是標籤,但是標籤怎麼產生,哪些標籤是有效的標籤,這個就至關重要。而生成標籤的方式有多種,可以讓數據開發人員,根據業務同學的定義,通過SQL或着MR去一一實現,這個也是不可避免的。但是經過對業務需求的分析,你會發現有一部分計算邏輯是非常通用的,爲此DTBoost裏面可以爲客戶提供這部分功能,來解決企業內30-50%的標籤加工需求,讓業務人員自己就可以實現通用方法的標籤加工。同時標籤工廠能夠對用戶屏蔽底層之間的表聯接邏輯,用戶只需要知道所用的標籤含義即可。當在某個時間段內同時有多個標籤進行生成、處理、分析的時候,標籤工廠可以自動找出這些處理的共同依賴、同一計算等,節省計算資源,避免某些熱門物理表被多次全盤掃描。現階段規劃的功能如下:

全新一代企業級大數據應用模式揭祕

當前支持的衍生方法:

  • 時間序列上的衍生: 方法名稱 方法描述

  • cnt 變量在一定週期內的發生次數

  • cntd 變量在一定週期內出現的不同值次數

  • totv 變量在一定週期內的總和

  • ttav 變量在一定週期內的均值

  • hmax 變量在一定週期內的最大值

  • hmin 變量在一定週期內的最小值

  • hmedian 變量在一定週期內的中位數

  • stddev 變量在一定週期內的標準差

  • variance 變量在一定週期內的方差

  • days 變量在一定週期內滿足條件的天數

  • ftdays 變量在一定週期內滿足條件的首次行爲距今時長 ltdays 變量在一定週期內滿足條件的末次行爲距今時長

  • 組合標籤支持的表達式以及函數:

  • 計算運算:+, -, *, /, %

  • 數學函數:abs,acos,asin,atan,ceil,conv,cos,cosh,cot,exp,floor,ln,log,pow,round,sin,sinh,sqrt,tanh,tanh

    智能發現

    這個模塊的作用就是加速構建OLT模型的過程,如果說 標籤工廠是加速T的過程,那麼智能發現就是加速OL的過程。如何構建一個有效的OLT模型非常關鍵,也是這個新一代大數據應用模式裏面可能花費時間最長的環節。爲此我們通過技術的手段來輔助解決這個問題,實體在物理數據中大部分都是以Key的形式存在,關係一般都是以組合Key的形式存在,我們採用機器學習方式,通過對業務庫log的挖掘,自動的發現出可能的實體和關係,並根據關係的強弱切割成不同的子圖,來幫助建模師確認、發現關鍵的業務模型。

全新一代企業級大數據應用模式揭祕

**領域OLT模版**

這點非常有意思,也是真正意義上的領域知識,通過DTBoost在不同行業的不斷輸出,可以總結沉澱出不同領域的實體關係模型,沉澱出不同領域標籤模型以及標籤分類體系,來形成DTBoost領域知識庫。同時它不僅僅是模型層的一個領域模版,他會和上層計算模型聯動,形成從模型層到應用層一整套模版。比如金融領域,首先會沉澱出一套金融領域的實體關係標籤模型,基於這個之上,可以沉澱出一套多維交叉分析模版、風控預警模版、市場營銷模版。在相同領域輸出時,可以基於這個領域知識庫做快速的客戶化改造。

到這裏,數據模型部分可以告一個段落,這塊是新一代企業大數據應用模式的基礎,非常重要,爲此DTBoost在這部分花了大量的時間和資源進行設計開發。重要但確實是個基礎,他並不能直接解決業務問題,真正作用到業務是基於這套數據模型之上的計算模型。

【轉自:必達】
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章