統一數據接入實踐分享


統一數據接入

數據接入就是對於不同的數據來源、不同的合作伙伴,完成數據採集、數據傳輸、數據處理、數據緩存到行業統一的數據平臺的過程。
在這裏插入圖片描述

大數據接入處理面臨的問題

在這裏插入圖片描述

在這裏插入圖片描述

數據接入的三個階段

在這裏插入圖片描述

0.非結構化數據----(word,excel,圖片,pdf,掃描件,視頻)
1.文本文件----(txt,csv)----utf-8
(踩過的坑-gbk編碼和數據中換行符觸發spark2.2 加載文件的bug(multiline 和gbk 不能共同作用))

2.數據庫(full dump,請求接口)
3.去ioe,集羣遷徙

數據格式,字段,內容要求:

非結構化數據
0. 標籤,背景模板,文檔說明

結構化數據
數據字典,ER圖,數據流圖,系統截圖,新人入職培訓說明
1.所有文本文件要求編碼格式utf8,csv 要求雙引號包裹(字段中不要有回車換行)
2.數據庫full dump 給出導出腳本及日誌(yiyong數據的坑----沒有導出腳本,看着報錯一步步推斷)
3.請求接口給出請求文檔,及支持的最大併發數等指標

針對不同的數據來源,確定數據最終存儲的格式,地點

1.數據質量覈查
2.描述性統計分析


接入技術分析

在這裏插入圖片描述

批處理

優點:數據覆蓋面廣,時間跨度長,支撐業務範圍廣 ,計算準確度高;依靠歷史數據預先計算相關數據模型
缺點:數據實效性不足 存儲空間、存儲類型需求大

流式

優點:高效查詢、快速響應、“熱數據”價值高效利用
缺點:上下文關聯密切場景業務支撐不足

1.數據接入手段

1)socket方式
c/s交互模式,傳輸協議採用tcp/udp
優點:1.易於編程,java提供了多種框架,屏蔽了底層通信細節以及數據傳輸轉換細節。2.容易控制權限。通過傳輸層協議https,加密傳輸的數據,使得安全性提高
3.通用性比較強,無論客戶端是.net架構,java,python 都是可以的。尤其是webservice規範,使得服務變得通用
缺點:1.服務器和客戶端必須同時工作,當服務器端不可用的時候,整個數據交互是不可進行。2 當傳輸數據量比較大的時候,嚴重佔用網絡帶寬,可能導致連接超時。使得在數據量交互的時候,服務變的很不可靠
2)ftp/文件共享服務器方式
適合大數據量的交互,約定文件格式、命名規則。批量處理數據
優點:
在數據量大的情況下,可以通過文件傳輸,不會超時,不佔用網絡帶寬
方案簡單,易操作
缺點:
實時性不強
必須約定文件數據的格式,當改變文件格式的時候,需要各個系統都同步做修改
3)message形式
Java消息服務(Java Message Service)是message數據傳輸的典型的實現方式。
系統A和系統B通過一個消息服務器進行數據交換。系統A發送消息到消息服務器,如果系統B訂閱系統A發送過來的消息,消息服務器會消息推送給B。雙方約定消息格式即可。目前市場上有很多開源的jms消息中間件,比如 使用較多的消息隊列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等
優點:
1 由於jms定義了規範,有很多的開源的消息中間件可以選擇,而且比較通用。接入起來相對也比較簡單
2 通過消息方式比較靈活,可以採取同步,異步,可靠性的消息處理,消息中間件也可以獨立出來部署。
缺點:
1.學習jms相關的基礎知識,消息中間件的具體配置,以及實現的細節對於開發人員來說還是有一點學習成本的
2 在大數據量的情況下,消息可能會產生積壓,導致消息延遲,消息丟失,甚至消息中間件崩潰。

Flume+kafka
Flume作爲日誌收集工具,監控一個文件目錄或者一個文件,當有新數據加入時,收集新數據發送給Kafka。Kafka用來做數據緩存和消息訂閱。Kafka裏面的消息可以定時落地到HDFS上,也可以用Spark Streaming來做實時處理,然後將處理後的數據落地到HDFS上。
Flume採集數據都是按行分割的,一行代表一條記錄。如果原始數據不符合要求,需要對數據進行預處理。
數據庫文件
1.Imp/exp方式使用dmp文件直接導入目標庫
2.sqoop 關係型數據庫與hadoop生態系統(hive,hdfs)進行數據轉移

ETL(Extract-Transform-Load )工具:構建數據倉庫
用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去
Apache Camel、Apache Kafka、Apatar、Heka、Logstash、Scriptella、Talend、Kettle

2.接入技術選擇

1.ETL工具
(Extract-Transform-Load )
2.定製研發
在這裏插入圖片描述


參考文獻

《數據平臺的實踐及思考》 楊劍飛

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章