華爲生產場景數據湖平臺建設實踐
(綠色)結構化數據通過批處理、虛擬鏡像到Hive數據,再通過Kylin預處理將數據儲存在Cube中,封裝成RESTAPI服務,提供高併發亞秒級查詢服務,監測物料質量情況;
(紅色)IoT數據,通過sensor採集上報到MQS,走storm實時分揀到HBase,通過算法模型加工後進行ICT物料預警監測;
(黃色)條碼數據通過ETLloader到IQ列式數據湖,經過清洗加工後,提供千億規模條碼掃描操作。
統一索引描述非結構數據,方便數據檢索分析。
增加維護及更新時間作爲對象描述字段(圖片類型、像素大小、尺寸規格)。非對象方式及數字化屬性編目(全文文本、圖像、聲音、影視、超媒體等信息),自定義元數據。
不同類型的數據可以形成了關聯並處理非結構化數據。
實時金融數據湖的應用
第一,數據源。不僅僅支持結構化數據,也支持半結構化數據和非結構化數據。
第二,統一數據接入。數據通過統一數據接入平臺,按數據的不同類型進行智能的數據接入。
第三,數據存儲。包括數據倉庫和數據湖,實現冷熱溫智能數據分佈。
第四,數據開發。包括任務開發,任務調度,監控運維,可視化編程。
第五,數據服務。包括交互式查詢,數據 API,SQL 質量評估,元數據管理,血緣管理。
第六,數據應用。包括數字化營銷,數字化風控,數據化運營,客戶畫像。
在存儲層,有 MPP 數據倉庫和基於 OSS/HDFS 的數據湖,可以實現智能存儲管理。
在計算層,實現統一的元數據服務。
在服務層,有聯邦數據計算和數據服務 API 兩種方式。其中,聯邦數據計算服務是一個聯邦查詢引擎,可以實現數據跨庫查詢,它依賴的就是統一元數據服務,查詢的是數據倉庫和數據湖中的數據。
在產品層,提供智能服務:包 RPA、證照識別、語言分析、客戶畫像、智能推薦。商業分析服務:包括自助分析、客戶洞察、可視化。數據開發服務:包括數據開發平臺,自動化治理。
Soul的Delta Lake數據湖應用實踐
實現了類似Iceberg的hidden partition功能,用戶可選擇某些列做適當變化形成一個新的列,此列可作爲分區列,也可作爲新增列,使用SparkSql操作。如:有日期列date,那麼可以通過 'substr(date,1,4) as year' 生成新列,並可以作爲分區。
爲避免髒數據導致分區出錯,實現了對動態分區的正則檢測功能,比如:Hive中不支持中文分區,用戶可以對動態分區加上'\w+'的正則檢測,分區字段不符合的髒數據則會被過濾。
實現自定義事件時間字段功能,用戶可選數據中的任意時間字段作爲事件時間落入對應分區,避免數據漂移問題。
嵌套Json自定義層數解析,我們的日誌數據大都爲Json格式,其中難免有很多嵌套Json,此功能支持用戶選擇對嵌套Json的解析層數,嵌套字段也會被以單列的形式落入表中。
實現SQL化自定義配置動態分區的功能,解決埋點數據傾斜導致的實時任務性能問題,優化資源使用,此場景後面會詳細介紹。
本文分享自微信公衆號 - 大數據技術與架構(import_bigdata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。