MaxCompute做數據存儲和數據分析處理,
Dataworks是集成了數據集成、數據開發調試、作業編排及運維、元數據管理、數據質量管理、數據API服務等等功能的大數據開發IDE套件。類似Spark和HUE的關係,不知道這個對比是否準確。
MaxCompute存儲目前只暴露表,能處理非結構化數據嗎?
可以,非結構化數據可以存放在OSS上,一種方式是通過外表方式,通過自定義Extractor來實現非結構化處理爲結構化數據的邏輯。另外,也可以用Spark on MaxCompute對OSS進行訪問,通過Spark程序對OSS目錄下的文件進行抽取轉換,結果寫入MaxCompute表。
支持哪些數據源接入到MaxCompute
通過Dataworks數據集成服務或者自己使用DataX,可以實現阿里雲上的各種離線數據源如數據庫、HDFS、FTP等數據源的接入;
也可以用MaxCompute Tunnel工具/SDK,通過命令或SDK批量進行數據上傳、下載;
流式數據,可以利用MaxCompute提供的Flume/logstash插件,將流式數據寫入Datahub,然後歸檔到MaxCompute表;
支持阿里雲SLS、DTS服務數據寫入MaxCompute表;