大數據網管運營數據存儲模式研究

雲棲號資訊：【點擊查看更多行業資訊】
在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！

隨着近兩年通信流量業務開展得如火如荼，更多的用戶上網行爲的數據分析需求猛增，而處理這類數據需要大量的寫入處理，而且字段不固定，傳統的關係型數據庫已無法滿足需求，急需多節點的分佈式大數據集羣來解決數據處理及存儲問題。

本研究構建了一套大數據採集、存儲體系，將系統分爲採集層、ODS、DW、DM等四層，分別完成海量數據的採集、彙總、處理、生成價值數據過程中的不同環節。其中，採集層負責原始數據的採集，ODS層負責統一不同系統間的業務內容，對部分海量數據的非結構化數據進行轉換。DW層是以空間換時間的一層，要形成大量的基礎Cube，基礎常用業務粒度的數據。實現統一的KPI過程，是ODS層指標轉換的基礎。DM層主要是面向業務的組合，面向分析的Cube變換，面向挖掘的數據變換。

數據分類存儲

在數據存儲過程中，按照數據價值和生命週期管理原則(熱數據對存儲性能要求高，隨着數據生命週期的變化，數據價值降低，逐漸向一般性能存儲遷移，其中數據價值的參考項包括時效性、訪問頻率、價值密度、業務意義等)，可以將不同數據分類存儲，制定不同的存儲方式及存儲週期。

對於採集層的原始數據，將採集層的數據加載到基礎數據緩存，爲數據整合提供緩存，其中大數據1~3天，傳統數據7天。對於ODS層數據，通過內存庫關聯與整合，ETL爲ODM提供完整、準確的數據。該層存儲週期：大數據3個月，傳統數據1年。對於DW層數據，通過基於數據模型的並行計算域數據庫計算，提供多用途的輕度彙總，該層數據類型主要爲按維度、事實組織的數據，存儲週期爲3年。

數據處理及存儲過程採用了分佈式架構，其中有兩項關鍵技術—HDFS和MapReduce，應用這兩項技術能給系統帶來如下技術優勢。

Hadoop分佈式文件系統適合運行在通用硬件(x86服務器)上的分佈式文件系統，HDFS對外開放文件命名空間並允許用戶數據以文件形式存儲;MapReduce能自動將一個作業(Job)待處理的大數據劃分爲很多個數據塊，每個數據塊對應於一個計算任務(Task)，並自動調度計算節點來處理相應的數據塊。作業和任務調度功能主要負責分配和調度計算節點(Map節點或Reduce節點)，同時負責監控這些節點的執行狀態，並負責Map節點執行的同步控制。

具體應用案例

通過該系統的推進落地，吉林省完成了省內大數據處理平臺—數據共享平臺的建設，該系統日均處理數據超過10T左右，併爲吉林省內多個上層應用提供了數據支撐，比如互聯網端到端系統能以四大類關鍵業務(網頁瀏覽類、視頻類、即時通信類、應用下載類)進行端到端質量分析，通過五元五階分析定位方法，能夠定位質差業務SP、質差小區、質差核心網網元、質差終端等，並找出業務問題原因;CSFB業務質量分析系統能實現全流程質量概況分析、全流程質差網元問題定位分析;客戶滿意度畫像從覆蓋質量、網絡感知等網絡指標判斷用戶滿意度，做到在被投訴之前發現問題。

這些應用在吉林省內日常的網絡問題分析、優化，業務預測、發展支撐等方面發揮着有力的數據支撐作用。

【雲棲號在線課堂】每天都有產品技術專家分享！
課程地址：https://yqh.aliyun.com/live

立即加入社羣，與專家面對面，及時瞭解課程最新動態！
【雲棲號在線課堂社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間：2020-07-14
本文作者：金浩
本文來自：“51CTO”，瞭解相關信息可以關注“51CTO”

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據網管運營數據存儲模式研究

健康碼—7天，支付寶“健康碼”怎樣從杭州跑遍全國！有人連續30小時沒閤眼

成都TOCC—智慧城市交通建設

企業IT採購最佳時機阿里雲雙11來襲：百款超低價產品普惠上雲

什麼是物聯網？常見IoT 物聯網協議最全講解

淺談MaxCompute資源規劃管理及評估

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結