奇點雲數據中臺技術匯(一) | DataSimba——企業級一站式大數據智能服務平臺

在這個“數據即資產”的時代,大數據技術和體量都有了前所未有的進步,若企業能有效使用數據,讓數據賺錢,這必將成爲企業數字化轉型升級的有力武器。

奇點雲自研的一站式大數據智能服務平臺——DataSimba,旨在提供數據採集、數據加工、數據治理、數據規範、數據資產、數據服務等全鏈路的產品+技術+方法論服務,構建面向業務應用的大數據智能平臺。其主要核心模塊包括了數據開發套件、數據治理套件、數據服務引擎、數據智能、數據安全。
奇點雲數據中臺技術匯(一) | DataSimba——企業級一站式大數據智能服務平臺

1、數據採集

數據採集作爲數據中臺第一個環節,不僅僅是要“採集”,也要將數據合理的“存”起來。DataSimba數據採集研發了兩套採集工具,一套是批量採集DataX,一套是實時採集DataS。

DataX爲批量離線採集工具,支持市面上基本所有的關係型DB、NoSQL等數據庫。

DataS爲實時的在線採集工具,支持關係型DB的操作日誌的實時讀取,如MySQL的binlog,也支持網頁埋點的服務日誌的實時讀取。

2、數據開發

數據開發套件作爲產品的核心模塊,底層是基於hadoop開源生態圈中的Hive、Spark、Flink、Impala爲計算引擎,以Hdfs、Hbase、kudu爲分佈式存儲,爲數據開發、數據分析、數據挖掘、算法工程師提供了一套可視化開發界面。開發人員可在開發套件上做一站式開發,包括可視化數據同步配置、創建各種開發任務(包括實時任務和離線任務)、數據建模、調度配置、運維監控等,大大地提高了開發人員的開發效率。同時開發套件實時採集了數據表的元信息、表級、字段級的血緣關係,爲數據地圖提供了豐富的元數據。

3、數據治理

數據治理套件主要圍繞開發完成的數據進行一系列的數據質量監控、數據規範定義、數據元信息展示。一方面提供了多種規則模板,監控各個環節任務產出的數據質量,每天定時產出數據質量檢測報告,讓數據開發對數據的質量做到心中有數,可以及時地修正髒數據;其次提供了元數據管理,形成全局數據地圖,分析數據血緣,數據影響,爲數據開發與維護提供支撐;最後還幫助開發人員制定一系列的數據標準進行名稱、指標、維度的設計規範,統一口徑,消除二義性。然後利用數學統計、機器學習、深度挖掘等大數據技術構建企業的標籤體系,把原始數據加工成企業可閱讀易理解的標籤體系,並且應用在不同的業務場合中,幫助企業解決痛點,提升商業價值。

4、數據服務

數據服務引擎打通了應用方和數據的通道,可以讓數據緊密的跟業務結合在一起,加速數據業務化過程。傳統的數據倉庫,通常在已有N個維度中隨機挑選幾個維度進行大數據量的聚合操作,返回結果集非常緩慢,OLAP引擎可以支持大數據量多維度查詢秒級結果返回,大大地提高了工作效率;另一方面傳統數倉在報表類數據展示上花費了很大的人力和物力,而且非常難維護開發好的接口,數據API通過可視化模式快速生成接口,並且建立起接口元信息,方便以後的維護,只需要輕鬆修改下接口元信息即可滿足前方業務的變動,而且數據API還提供了接口訪問信息的採集與監控,讓業務方可以及時地感知到接口的使用情況。

5、數據安全

數據安全可以幫助企業建立數據安全體系。數據安全在數據訪問、數據流動、數據運維等幾個關鍵環節中都加入了身份認證和權限訪問控制,通過網絡傳輸加密、高可靠的數據存儲、敏感數據脫敏、日誌審計、事件溯源、高危操作攔截等功能來保障企業數據的穩定性和安全性。

6、數據模型

好的數據模型,是高內聚低耦合的設計,是可以滿足未來業務發展的擴展性。當然也不能過度設計,夠用的同時兼顧擴展性。

數據模型設計是一套方法論加上對業務的深刻理解,將業務高度抽象成的多維數據模型結構,模型的數量與複雜度與業務強相關,如大家都比較熟悉的電商業務,按業務過程來切分,可設計爲流量數據模型、收藏數據模型、加購數據模型、交易數據模型等。

7、業務模型

前面的業務創新智能化提到,圍繞節本增效,業務通過融合後的全域數據、算法技術,將業務經驗與數據智能相結合,爲運營提高決策效率,如智能選品模型;爲業務提升經濟價值,如智能折扣模型;爲後端部門減少成本,如智能排班模型。

DataSimba作爲企業級一站式大數據智能服務平臺,產品體系和服務能力隨着業務場景不斷升級迭代,現已在商業綜合體、大時尚、醫藥、酒類等領域投入使用,實現數據化企業運營,幫助企業能夠真正盤活數據資產,創造更多的商業價值!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章