騰訊雲 CKafka 聯合雲函數重磅上線 DataHub,讓數據流轉更簡便

隨着大數據時代的到來,各大互聯網公司對於數據的重視程度前所未有,各種業務對數據的依賴也越來越重。有一種觀點認爲大數據存在 “3V” 特性:Volume, Velocity, Variety。這三個 “V” 表明大數據的三方面特徵:量大,實時和多樣。這三個主要特徵對數據採集系統的影響尤爲突出。多種多樣的數據源,海量的數據以及實時高效的採集是數據採集系統主要面對的幾個問題。

我們想要在數據上創造價值,首先要解決數據獲取的問題。因爲在互聯網發展中,企業內或不同企業之間建立了各種不同的業務系統,這些系統產生的數據也都是互不相通的,要想實現數據的互通與融合,在數據的獲取與處理上就需要下很大功夫。

01. 騰訊雲 CKafka 重磅上線 DataHub

騰訊雲消息隊列 CKafka 正式上線數據中心接入服務模塊 DataHub。DataHub 具有強大的數據接入及分析處理的功能,可以從 App、Web、MongoDB 等數據源中進行持續不斷的數據採集,存儲和處理,並得到各種實時的數據處理結果,可用於日誌分析、網頁活動追蹤、IoT 分析應用等。

現今數據處理系統大體上可分爲離線處理系統和在線處理系統。CKafka 推出 Datahub 數據中心接入服務模塊,負責直接從業務數據源獲取數據,進行一些數據預處理工作,分發給離線 / 在線處理平臺,構建數據源和數據處理系統間的橋樑,將數據處理系統同業務側的數據源解耦。

02. DataHub 產品優勢

DataHub 基於 CKafka 的數據處理能力,具有高穩定、實時性、高擴展性、高安全性等優勢:

  • 高穩定

基於消息隊列 CKafka 分佈式的部署,穩定性有很好的保障。

  • 實時性

數據採集實時高效的同時還可以進行實時處理。

  • 高擴展性

支持集羣水平擴容,實例無縫升配,底層系統根據業務規模自動彈性伸縮,上層業務無感知。

  • 高安全性

不同租戶間網絡隔離,實例的網絡訪問在賬戶間天然隔離。支持管理流的 CAM 鑑權及數據流的 SASL 權限控制,嚴格控制訪問權限。

  • 上下游生態融合

支持與 EMR、COS、容器、流計算、雲函數、日誌服務等 13+ 雲上產品資源,實現快速一鍵部署。

  • 統一運維監控

提供騰訊雲平臺整套的運維服務,包括租戶隔離、權限控制、消息堆積查詢、消費者詳情查看等多維度監控告警等運維服務。

03. DataHub 應用價值

CKafka 是一個分佈式、高吞吐量、高可擴展性的消息系統,基於發佈/訂閱模式,通過消息解耦,使生產者和消費者異步交互,具有數據壓縮、同時支持離線和實時數據處理等優點。DataHub 作爲 CKafka 的一個功能模塊,可以幫助用戶以 CKafka 爲入口,通過簡單的界面化配置,即時連接到常用的數據源和接收器,打包各個場景的解決方案,實現實時數據通道、實時數據清洗和分析的功能。

在實際應用中,DataHub 實時接入各種數據源產生的不同類型的數據,用戶可以將多個數據源的數據投遞到同一個 Topic 中,統一管理,經過簡單的數據處理,並投遞到下游的數據處理系統,形成清晰的數據流,更好地釋放數據的價值。

<img src="https://qcloudimg.tencent-cloud.cn/raw/7701fc558fefb1667512ee7010396daa.png" width="500"/>

DataHub 可以同時實現大數據系統與業務系統以及大數據系統各組件之間的解耦。

1. 實時數據通道

我們都知道不同企業之間、不同業務之間數據互不相通,互不融合的數據在數據獲取、傳輸上會遇到很多問題,比如可用性差、傳輸延遲等。業務層面,也會遇到舊業務數據系統遷移到新系統、不同系統數據整合過程中數據不可用等問題,進而影響業務的後續進行。

爲了能夠讓數據更加實時高效地融合,DataHub 利用數據接入能力,**使業務數據能夠實時融合進大數據系統,縮短數據分析週期,**對於客戶來說就是實時的數據通道,那 DataHub 又是如何實現 數據接入 能力的呢?

<img src="https://qcloudimg.tencent-cloud.cn/raw/7d909a539df66d65195d5b425b086a83.png" width="500"/>

從上圖可以看出,DataHub 的數據源可以分爲:主動上報、服務類和日誌類。

  • 主動上報類:App、Web、遊戲等;
  • 服務類:MongoDB、COS、MySQL 等;
  • 日誌類:容器、網絡流日誌、CVM 等。

數據接入的控制檯界面如圖所示,展示用戶建立的數據接入任務列表。

<img src="https://qcloudimg.tencent-cloud.cn/raw/6763dd0592974eda3461f9834a09fae4.png" width="700"/>

點擊列表項可以查看每一條數據接入任務的詳情,可以查看監控。

<img src="https://qcloudimg.tencent-cloud.cn/raw/f5c8b2985206f719ff4271d9665c9683.png" width="700"/>

<img src="https://qcloudimg.tencent-cloud.cn/raw/a330ab8d347d8f2546acf605b951a10c.png" width="700"/>

數據接入具體操作主要分爲以下兩個部分:

**1. 主動上報:**提供SDK,使用流程如下:

<img src="https://qcloudimg.tencent-cloud.cn/raw/d42727e4bf825ee8fcd731def7d1d893.png" width="700"/>

  • 以 HTTP 上報爲例:

<img src="https://qcloudimg.tencent-cloud.cn/raw/c5ac45e66671a28ee8a54ab93f000632.png" width="700"/>

<img src="https://qcloudimg.tencent-cloud.cn/raw/90384dc7cc85bec8a49aefae711577d2.png" width="700"/>

任務創建成功後會生成接入點,後續在任務詳情中可以查看和複製該接入點。

<img src="https://qcloudimg.tencent-cloud.cn/raw/49798cc1ea716d660585063ef6d00273.png" width="700"/>

2. 異步拉取

服務類、日誌類、接口類,提供完整的產品化配置界面,用戶無需關心底層實現。

  • 以 MongoDB 爲例:

<img src="https://qcloudimg.tencent-cloud.cn/raw/0895dbf5dd0865027add02176f375ea1.png" width="700"/>

<img src="https://qcloudimg.tencent-cloud.cn/raw/4c02082ae436b06126733802875d564b.png" width="700"/>

2. 實時數據清洗和分析

DataHub 接入多種不同類型的數據後,通過數據流出和數據處理,對多種數據源的數據進行實時清洗、過濾、關聯與轉換,形成統一的結構化數據,實現各數據源不同類型數據的融合。

DataHub 又是如何進行 數據清洗和分析處理 的呢?

1. 數據流出

利用 雲函數SCF 或者 sink connector,分發數據到下游的各種雲產品。

  • 新建數據流出任務

<img src="https://qcloudimg.tencent-cloud.cn/raw/4023ef58dfd931f57407d9365823bbcd.png" width="700"/>

<img src="https://qcloudimg.tencent-cloud.cn/raw/e5e54d108046405c7bf477d31b2a12dc.png" width="700"/>

點擊提交後會在數據流出任務列表增加一條記錄,可以查看任務詳情和監控。

2. 數據處理

DataHub 延續了 Kafka to Kafka 的數據處理能力。

<img src="https://qcloudimg.tencent-cloud.cn/raw/424b840c2b09d1b3e1336b266b584282.png" width="700"/>

點擊“新建任務”,出現彈窗:

<img src="https://qcloudimg.tencent-cloud.cn/raw/647a92011e40ed4c432b12a6aacb2441.png" width="700"/>

<img src="https://qcloudimg.tencent-cloud.cn/raw/9d2227106714cc726c3f0c0d24559fe3.png" width="700"/>

以上是一些簡單清洗規則界面化展示,更高級的清洗規則後續會支持編寫函數進行配置。解析模式支持JSON、分隔符、正則表達式,點擊測試可以驗證上面設置的數據處理規則。

如下圖所示,在消息隊列 CKafka 控制檯的側邊欄劃分爲 消息平臺 和 DataHub 兩個模塊,查找使用更方便,目前 DataHub 已經上線,有需要使用數據接入與數據處理分析功能需求的用戶,可以用起來啦!

<img src="https://qcloudimg.tencent-cloud.cn/raw/938f1b66e1d86bc282c1b2691d1690db.png" width="700"/>

未來騰訊雲消息隊列產品的發展會在數據獲取與數據處理方向做更深的探索,也會結合上下游產品,爲用戶提供更多符合場景的解決方案,DataHub 未來可以發展爲雲上統一的數據接入服務,爲各數據源數據的接入、分析與處理提供更穩定的平臺。

04. DataHub 使用諮詢

目前 DataHub 都已全面發佈上線,前往騰訊雲消息隊列 Ckafka 控制檯即可使用體驗。爲了更好地給您提供產品服務,點擊這裏填寫以下表單,我們將在 1-3 個工作日內與您聯繫,溝通具體業務需求。

One More Thing

立即體驗騰訊雲 Serverless Demo,領取 Serverless 新用戶禮包 👉 騰訊雲 Serverless 新手體驗

歡迎訪問:Serverless 中文網

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章