StreamSets數據操作平臺(數據移動及數據清洗強大工具)-第二篇

版權聲明:本文爲博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/a337895179/article/details/79109061
收起
什麼是StreamSets數據收集器?
StreamSets 數據收集器是一個輕量級,強大的引擎,實時流數據。使用Data Collector在數據流中路由和處理數據。

要爲Data Collector定義數據流,請配置管道。一個流水線由代表流水線起點和終點的階段以及您想要執行的任何附加處理組成。配置管道後,單擊“開始”,“ 數據收集器”開始工作。

Data Collector在數據到達原點時處理數據,在不需要時靜靜地等待。您可以查看有關數據的實時統計信息,在數據通過管道時檢查數據,或仔細查看數據快照。

我應該如何使用Data Collector?
使用StreamSets 數據收集器就像一個管道的數據流。在整個企業數據拓撲結構中,您都有需要移動,收集和處理到目的地的數據流。Data Collector提供流之間的關鍵連接。

爲了解決您的採集需求,您可以使用單個Data Collector運行一個或多個管道。或者,您可能會安裝一系列Data Collector來在您的企業數據拓撲中傳輸數據。

這是如何工作的?
讓我們通過它...

安裝並啓動Data Collector之後,使用 Data Collector UI登錄並創建第一個管道。

你想要做什麼?假設您想從目錄中讀取XML文件,並在將其移入HDFS之前刪除換行符。要做到這一點,你需要從一個目錄原點階段開始,並將其配置爲指向源文件目錄。(您也可以將舞臺歸檔文件處理完畢並將未完全處理的文件寫入單獨的目錄中供審閱。)

若要刪除換行符,請將目錄連接到表達式評估程序處理器,並將其配置爲從記錄的最後一個字段中刪除換行符。

要使數據可用於HDFS,請將Expression Evaluator連接到Hadoop FS目標階段。您可以將舞臺配置爲將數據作爲JSON對象編寫(儘管您也可以使用其他數據格式)。

您可以預覽數據以查看源數據如何在管道中移動,並注意到某些字段缺少數據。因此,您添加一個值替代品來替換這些字段中的空值。

現在數據流已經完成了,您可以配置管道錯誤記錄處理,將錯誤記錄寫入文件,創建數據偏移警報以通知您字段名稱更改的時間,並配置電子郵件警報以通知您管道會生成超過100個錯誤記錄。然後,啓動管道,Data Collector開始工作。

該數據採集器進入監控模式,並立即顯示摘要和錯誤統計。爲了更仔細地看看這個活動,你可以對流水線做一個快照,這樣你就可以檢查一組數據是如何通過流水線的。您會看到一些意外的數據,因此您需要爲兩個階段之間的鏈接創建數據規則,以收集有關類似數據的信息,並設置一個警報,以便在數字太高時通知您。

那些寫入文件的錯誤記錄呢?他們保存錯誤的細節,所以你可以創建一個錯誤管道重新處理該數據。Et瞧!

StreamSets 數據收集器是一個強大的工具,但我們正在儘可能簡單的使用它。所以試試看,點擊幫助圖標獲取信息,如果您需要幫助,請聯繫我們。

登錄並創建管道
啓動Data Collector後,您可以登錄到Data Collector並創建第一個管道。

您可以自定義用於訪問Data Collector的地址和登錄名。此過程使用默認設置。

1. 要使用用戶界面訪問數據收集器,請在瀏覽器的地址欄中輸入以下URL:

HTTP:// <主機名>:18630 /

2. 如果更改了Data Collector配置文件中的默認Data Collector端口號,$ SDC_CONF / sdc.properties,請使用該號碼。

4. 在“ 登錄”對話框中,使用以下憑據登錄:管理 / 管理。

如果您創建了自定義登錄,請隨時使用它。

5. 在“ 入門”頁面上,單擊“ 新建管道”。

6. 在“ 新建管道”窗口中,輸入管道名稱,可選輸入描述,然後單擊“ 保存”。

出現管道畫布。“屬性”面板顯示管道屬性。

7. 有關配置管道的步驟,請繼續執行步驟3

相關信息

什麼是管道?

數據收集器配置

數據收集器用戶界面
Data Collector 提供基於Web的用戶界面(UI)來配置管道,預覽數據,監視管道和查看數據的快照。

該數據採集器 UI包括以下一般領域和圖標:

 

區/圖標

名稱

描述

1

管道畫布

畫布用於配置,預覽或監視管道。

2

屬性面板/預覽面板/監視器面板

在配置管道時,“屬性”面板將顯示管道或所選階段的屬性。您可以調整大小,最小化和最大化面板。

預覽數據時,“預覽”面板將顯示進入和退出所選階段或階段組的數據。它也可以顯示舞臺屬性和預覽配置。

監視正在運行的管道時,“監視器”面板將顯示實時指標和統計信息。

注意:某些圖標和選項可能不會顯示。顯示的項目取決於您正在執行的任務和分配給您的用戶帳戶的角色。

      
配置顯示
您可以配置Data Collector UI中的信息顯示方式,如聯機幫助版本,面板中的信息密度以及管道創建幫助欄。

1. 在Data Collector UI的右上角,單擊幫助 > 設置。

2. 在“設置”對話框中,您可以配置以下選項:

顯示設定

描述

時區

顯示時區。用於在Data Collector UI中顯示日期和時間,例如數據預覽或快照數據中的日期時間 數據。

您可以選擇以下選項之一:

· 世界標準時間

· 瀏覽器時區,通常使用操作系統時區。

· 當數據收集器運行在不同的機器中,操作系統的時區上數據採集計算機。

顯示密度

定義面板中顯示的信息的密度。

幫助文檔

定義Data Collector使用的幫助項目:

· 本地幫助 - 使用與Data Collector一起安裝的幫助項目 。

· 託管幫助 - 使用託管在StreamSets網站上的幫助項目。託管幫助包含最新的可用文檔。需要互聯網連接。

默認託管幫助。當互聯網訪問不可用時,Data Collector使用本地幫助。

這兩個幫助項目提供上下文相關的幫助。

隱藏管道創建幫助欄

當管道不完整時,隱藏默認顯示的管道配置幫助欄。

隱藏REST響應菜單

隱藏“REST響應”菜單,以便您不能請求REST API響應信息。

在後臺運行預覽以顯示可用字段

在後臺運行預覽以顯示可用字段的列表,並在配置管線和舞臺屬性時顯示“選擇帶預覽數據的字段”選項。

如果預覽導致大量記錄,則在後臺運行預覽可以凍結瀏覽器。要解決此問題,請清除該屬性。

在屬性中包裝長行

包裝您在屬性中輸入的長長的文本行。例如,您可以在配置舞臺的前提條件時輸入一長串文本。

清除後,用滾動條顯示長長的文本行。

數據收集器用戶界面 - 主頁上的管道
Data Collector 在主頁上顯示所有可用管道和相關信息的列表。您可以選擇一個管道類別,例如Running Pipelines,以查看所有可用管道的子集。

當您或您的用戶組具有管道讀取權限或創建管道時,管道將顯示在主頁上。

查看主頁上的管道以執行管道維護,例如複製或共享管道。當您單擊頁面頂層圖標集中的主頁圖標()時,您可以訪問主頁。您也可以在配置或監視管道時通過單擊管道路徑中的管道鏈接來訪問主頁。

區/圖標

名稱

描述

1

管道庫

與此Data Collector關聯的管道庫。

圖書館列出:

· 管道狀態 - 選擇管道狀態以按狀態過濾列表中的管道。

· 管道標籤 - 選擇管道標籤以按標籤過濾列表中的管道。

2

管道列表

允許您選擇一個或多個管道,然後在管道上執行操作,例如啓動,停止或導出管道。

3

篩選字段

允許您按名稱篩選管道。

4

顯示詳細資料

顯示列表中每個管道的錯誤消息和警報文本的詳細信息。

      
點贊 6
————————————————
版權聲明:本文爲CSDN博主「阿龍學堂」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/superzyl/article/details/79109061

 

發佈了43 篇原創文章 · 獲贊 119 · 訪問量 129萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章