圖文詳解:DataHub產品概述

雲棲號快速入門:【點擊查看更多雲產品快速入門】
不知道怎麼入門?這裏分分鐘解決新手入門等基礎問題,可快速完成產品配置操作!

產品概述

DataHub基本介紹
阿里雲流數據處理平臺DataHub是流式數據(Streaming Data)的處理平臺,提供對流式數據的發佈 (Publish),訂閱 (Subscribe)和分發功能,讓您可以輕鬆構建基於流式數據的分析和應用。DataHub服務可以對各種移動設備,應用軟件,網站服務,傳感器等產生的大量流式數據進行持續不斷的採集,存儲和處理。用戶可以編寫應用程序或者使用流計算引擎來處理寫入到DataHub的流式數據比如實時web訪問日誌、應用日誌、各種事件等,併產出各種實時的數據處理結果比如實時圖表、報警信息、實時統計等。

DataHub服務基於阿里雲自研的飛天平臺,具有高可用,低延遲,高可擴展,高吞吐的特點。DataHub與阿里雲流計算引擎StreamCompute無縫連接,用戶可以輕鬆使用SQL進行流數據分析。

DataHub服務也提供分發流式數據到各種雲產品的功能,目前支持分發到MaxCompute(原ODPS),OSS等。

系統整體功能圖
image

產品優勢

高吞吐
最高支持單shard每日8000萬Record級別的寫入量。

實時性
通過 DataHub ,您可以實時的收集各種方式生成的數據並進行實時的處理,對您的業務產生快速的響應。

易用性

  • DataHub 提供豐富的SDK包,包括C++, JAVA, Pyhon, Ruby, Go等語言。
  • DataHub服務也提供Restful API規範,您可以用自己的方式實現訪問接口。
  • 除了SDK以外,DataHub 還提供一些常用的客戶端插件,包括:Fluentd,LogStash,Flume等。您可以使用這些客戶端工具往 DataHub 裏面寫入流式數據。
  • DataHub 同時支持強Schema的結構化數據(創建Tuple類型的Topic)和無類型的非結構化數據(創建Blob類型的Topic),您可以自由選擇。

高可用

  • 服務可用性不低於99.9%。
  • 規模自動擴展,不影響對外服務;數據持久性不低於99.999%。
  • 數據自動多重冗餘備份。

動態伸縮
每個主題(Topic)的數據流吞吐能力可以動態擴展和減少,最高可達到每主題256000 Records/s的吞吐量。

高安全性

  • 提供企業級多層次安全防護,多用戶資源隔離機制;
  • 提供多種鑑權和授權機制及白名單、主子賬號功能。

使用場景

DataHub作爲一個流式數據處理服務,結合阿里雲衆多雲產品,可以構建一站式的數據處理服務。
image

流計算StreamCompute

StreamCompute是阿里雲提供的流計算引擎,提供使用類SQL的語言來進行流式計算。DataHub 和StreamCompute無縫結合,可以作爲StreamCompute的數據源和輸出源,具體可參考實時計算文檔
image

流處理應用

用戶可以編寫應用訂閱DataHub中的數據,並進行實時的加工,把加工後的結果輸出。用戶可以把應用計算產生的結果輸出到DataHub中,並使用另外一個應用來處理上一個應用生成的流式數據,來構建數據處理流程的DAG。

流式數據歸檔

用戶的流式數據可以歸檔到 MaxCompute(原ODPS)中。用戶通過創建DataHub Connector,指定相關配置,即可創建將Datahub中流式數據定期歸檔的同步任務。

本文來自 阿里雲文檔中心 DataHub 產品概述

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章