雲棲號快速入門:【點擊查看更多雲產品快速入門】
不知道怎麼入門?這裏分分鐘解決新手入門等基礎問題,可快速完成產品配置操作!
產品概述
DataHub基本介紹
阿里雲流數據處理平臺DataHub是流式數據(Streaming Data)的處理平臺,提供對流式數據的發佈 (Publish),訂閱 (Subscribe)和分發功能,讓您可以輕鬆構建基於流式數據的分析和應用。DataHub服務可以對各種移動設備,應用軟件,網站服務,傳感器等產生的大量流式數據進行持續不斷的採集,存儲和處理。用戶可以編寫應用程序或者使用流計算引擎來處理寫入到DataHub的流式數據比如實時web訪問日誌、應用日誌、各種事件等,併產出各種實時的數據處理結果比如實時圖表、報警信息、實時統計等。
DataHub服務基於阿里雲自研的飛天平臺,具有高可用,低延遲,高可擴展,高吞吐的特點。DataHub與阿里雲流計算引擎StreamCompute無縫連接,用戶可以輕鬆使用SQL進行流數據分析。
DataHub服務也提供分發流式數據到各種雲產品的功能,目前支持分發到MaxCompute(原ODPS),OSS等。
系統整體功能圖
產品優勢
高吞吐
最高支持單shard每日8000萬Record級別的寫入量。
實時性
通過 DataHub ,您可以實時的收集各種方式生成的數據並進行實時的處理,對您的業務產生快速的響應。
易用性
- DataHub 提供豐富的SDK包,包括C++, JAVA, Pyhon, Ruby, Go等語言。
- DataHub服務也提供Restful API規範,您可以用自己的方式實現訪問接口。
- 除了SDK以外,DataHub 還提供一些常用的客戶端插件,包括:Fluentd,LogStash,Flume等。您可以使用這些客戶端工具往 DataHub 裏面寫入流式數據。
- DataHub 同時支持強Schema的結構化數據(創建Tuple類型的Topic)和無類型的非結構化數據(創建Blob類型的Topic),您可以自由選擇。
高可用
- 服務可用性不低於99.9%。
- 規模自動擴展,不影響對外服務;數據持久性不低於99.999%。
- 數據自動多重冗餘備份。
動態伸縮
每個主題(Topic)的數據流吞吐能力可以動態擴展和減少,最高可達到每主題256000 Records/s的吞吐量。
高安全性
- 提供企業級多層次安全防護,多用戶資源隔離機制;
- 提供多種鑑權和授權機制及白名單、主子賬號功能。
使用場景
DataHub作爲一個流式數據處理服務,結合阿里雲衆多雲產品,可以構建一站式的數據處理服務。
流計算StreamCompute
StreamCompute是阿里雲提供的流計算引擎,提供使用類SQL的語言來進行流式計算。DataHub 和StreamCompute無縫結合,可以作爲StreamCompute的數據源和輸出源,具體可參考實時計算文檔
流處理應用
用戶可以編寫應用訂閱DataHub中的數據,並進行實時的加工,把加工後的結果輸出。用戶可以把應用計算產生的結果輸出到DataHub中,並使用另外一個應用來處理上一個應用生成的流式數據,來構建數據處理流程的DAG。
流式數據歸檔
用戶的流式數據可以歸檔到 MaxCompute(原ODPS)中。用戶通過創建DataHub Connector,指定相關配置,即可創建將Datahub中流式數據定期歸檔的同步任務。
本文來自 阿里雲文檔中心 DataHub 產品概述
【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK