阿里雲Big Data - dataworks和MaxCompute之間的關係與區別

dataworks和MaxCompute之間的關係與區別

MaxCompute做數據存儲和數據分析處理,

Dataworks是集成了數據集成、數據開發調試、作業編排及運維、元數據管理、數據質量管理、數據API服務等等功能的大數據開發IDE套件。類似Spark和HUE的關係,不知道這個對比是否準確。

MaxCompute存儲目前只暴露表,能處理非結構化數據嗎?

可以,非結構化數據可以存放在OSS上,一種方式是通過外表方式,通過自定義Extractor來實現非結構化處理爲結構化數據的邏輯。另外,也可以用Spark on MaxComputeOSS進行訪問,通過Spark程序對OSS目錄下的文件進行抽取轉換,結果寫入MaxCompute表。

支持哪些數據源接入到MaxCompute

通過Dataworks數據集成服務或者自己使用DataX,可以實現阿里雲上的各種離線數據源如數據庫、HDFSFTP等數據源的接入;

也可以用MaxCompute Tunnel工具/SDK,通過命令或SDK批量進行數據上傳、下載;

流式數據,可以利用MaxCompute提供的Flume/logstash插件,將流式數據寫入Datahub,然後歸檔到MaxCompute表;

支持阿里雲SLSDTS服務數據寫入MaxCompute表;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章