Azure Data Factory(十一)Data Flow 的使用解析

一,引言

  上一篇文字,我們初步對 Data Flow 有個簡單的瞭解,也就是說可以使用 Data Flow 完成一些複雜的邏輯,如,數據計算,數據篩選,數據清洗,數據整合等操作,那我們今天就結合 Data Flow 中的常用數據轉換邏輯拉演示在實際場景中如何實現。

Task1:將數據源的數據進行分組 去重

Task2:去重後的數據進行篩選,過濾

Task3:根據篩選、過濾後的數據派生出新的備註列

Task4:將以上處理過的數據寫入到新的 CSV 文件中

--------------------我是分割線--------------------↳

1,Azure Data Factory(一)入門簡介

2,Azure Data Factory(二)複製數據

3,Azure Data Factory(三)集成 Azure Devops 實現CI/CD

4,Azure Data Factory(四)集成 Logic App 的郵件通知提醒

5,Azure Data Factory(五)Blob Storage 密鑰管理問題

 6,Azure Data Factory(六)數據集類型爲Dataverse的Link測試

7,Azure Data Factory(七)數據集驗證之用戶託管憑證

8,Azure Data Factory(八)數據集驗證之服務主體(Service Principal)

9,Azure Data Factory(九)基礎知識回顧

10,Azure Data Factory(十)Data Flow 組件詳解 

11,Azure Data Factory(十一)Data Flow 的使用解析

二,正文

 準備數據源 

登錄到 Azure Portal ,在已有的 storage account 上的 sourcecontainer 上傳 csv 文件,如下圖所示

使用 DataFlow 進行數據篩選處理

點擊 左側 Data Flow ... “new data flow” 創建新的 Data Flow

Name:“FromAzureBlob_DataFlow”

首先添加數據源 “source1”,Dataset 類型選擇 “FormAzureBlob”(數據源來自 Azure Blob)

點擊 ”Import projection“ 導入整個 csv 文件的架構

點擊 “Refresh” 可以預加載數據

接下添加 “Aggregate” 分組組件,以 ”NAME“ 作爲分組依據,其他字段取 max(value)

點擊 Data preview 頁面的 ”Refresh“ 進行刷新操作

添加 ”Filter“ 組件進行過濾 AGE >30 & AGE<=30,同時需要注意,兩個 filter 的數據源都得是 ”aggregate1“

Incoming stream:aggregate1

Filter On:AGE > 30

Incoming stream:aggregate1

Filter On:AGE <= 30

 根據 AGE 派生出新的列  REMARK

AGE >30 

AGE <= 30

使用 ”union“ 將兩組拆分計算好的邏輯的整合

最後,使用 ”sink“ 將數據寫入到新的目標數據集中

Settings 頁面設置,將數據整合成一個文件輸出

Mapping 關於如下圖所示

測試

新建 pipeline,添加 Data Flow 組件,輸入以下參數

Settings =》Data flow 選擇 ”FromAzureBlob_DataFlow“

點擊 ”Debug“ 進行調試,可以看到 ouput 輸出中的 dataflow 允許程序

冷知識:Data Flow 所使用的 Azure IR 爲 ”AutoResolveIntegrationRuntime“ 也就是微軟託管機器,需要經歷 創建、啓動的過程

最後,我們打開新的 csv 文件,查詢剛剛在 data flow 中編寫的數據清洗的邏輯是否正常

 找到 ”targetcontainer“ ,點擊進去 container 內部

以下是輸入的新的 csv 文件

三,結尾

   今天我們通過一些了操作演示,展示了 Azure Data Flow 對數據的處理,絕大多數的數據處理,通過這些豐富的組件就可以輕鬆完成分析、計算任務。從而提高數據處理效率和質量

參考連接:Azure 數據工程中的的映射數據流

作者:Allen 

版權:轉載請在文章明顯位置註明作者及出處。如發現錯誤,歡迎批評指正。

 
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章