大數據網管運營數據存儲模式研究

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

隨着近兩年通信流量業務開展得如火如荼,更多的用戶上網行爲的數據分析需求猛增,而處理這類數據需要大量的寫入處理,而且字段不固定,傳統的關係型數據庫已無法滿足需求,急需多節點的分佈式大數據集羣來解決數據處理及存儲問題。

image

本研究構建了一套大數據採集、存儲體系,將系統分爲採集層、ODS、DW、DM等四層,分別完成海量數據的採集、彙總、處理、生成價值數據過程中的不同環節。其中,採集層負責原始數據的採集,ODS層負責統一不同系統間的業務內容,對部分海量數據的非結構化數據進行轉換。DW層是以空間換時間的一層,要形成大量的基礎Cube,基礎常用業務粒度的數據。實現統一的KPI過程,是ODS層指標轉換的基礎。DM層主要是面向業務的組合,面向分析的Cube變換,面向挖掘的數據變換。

數據分類存儲

在數據存儲過程中,按照數據價值和生命週期管理原則(熱數據對存儲性能要求高,隨着數據生命週期的變化,數據價值降低,逐漸向一般性能存儲遷移,其中數據價值的參考項包括時效性、訪問頻率、價值密度、業務意義等),可以將不同數據分類存儲,制定不同的存儲方式及存儲週期。

對於採集層的原始數據,將採集層的數據加載到基礎數據緩存,爲數據整合提供緩存,其中大數據1~3天,傳統數據7天。對於ODS層數據,通過內存庫關聯與整合,ETL爲ODM提供完整、準確的數據。該層存儲週期:大數據3個月,傳統數據1年。對於DW層數據,通過基於數據模型的並行計算域數據庫計算,提供多用途的輕度彙總,該層數據類型主要爲按維度、事實組織的數據,存儲週期爲3年。

數據處理及存儲過程採用了分佈式架構,其中有兩項關鍵技術—HDFS和MapReduce,應用這兩項技術能給系統帶來如下技術優勢。

Hadoop分佈式文件系統適合運行在通用硬件(x86服務器)上的分佈式文件系統,HDFS對外開放文件命名空間並允許用戶數據以文件形式存儲;MapReduce能自動將一個作業(Job)待處理的大數據劃分爲很多個數據塊,每個數據塊對應於一個計算任務(Task),並自動調度計算節點來處理相應的數據塊。作業和任務調度功能主要負責分配和調度計算節點(Map節點或Reduce節點),同時負責監控這些節點的執行狀態,並負責Map節點執行的同步控制。

具體應用案例

通過該系統的推進落地,吉林省完成了省內大數據處理平臺—數據共享平臺的建設,該系統日均處理數據超過10T左右,併爲吉林省內多個上層應用提供了數據支撐,比如互聯網端到端系統能以四大類關鍵業務(網頁瀏覽類、視頻類、即時通信類、應用下載類)進行端到端質量分析,通過五元五階分析定位方法,能夠定位質差業務SP、質差小區、質差核心網網元、質差終端等,並找出業務問題原因;CSFB業務質量分析系統能實現全流程質量概況分析、全流程質差網元問題定位分析;客戶滿意度畫像從覆蓋質量、網絡感知等網絡指標判斷用戶滿意度,做到在被投訴之前發現問題。

這些應用在吉林省內日常的網絡問題分析、優化,業務預測、發展支撐等方面發揮着有力的數據支撐作用。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-14
本文作者:金浩
本文來自:“51CTO”,瞭解相關信息可以關注“51CTO

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章