一,引言
在本文中,我們將繼續瞭解什麼是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 數據工程中的數據管道,並瞭解繼承運行時 ----- IR。
--------------------我是分割線--------------------
1,Azure Data Factory(一)入門簡介
2,Azure Data Factory(二)複製數據
3,Azure Data Factory(三)集成 Azure Devops 實現CI/CD
4,Azure Data Factory(四)集成 Logic App 的郵件通知提醒
5,Azure Data Factory(五)Blob Storage 密鑰管理問題
6,Azure Data Factory(六)數據集類型爲Dataverse的Link測試
7,Azure Data Factory(七)數據集驗證之用戶託管憑證
8,Azure Data Factory(八)數據集驗證之服務主體(Service Principal)
9,Azure Data Factory(九)基礎知識回顧
二,正文
1,什麼是 Azure Data Factory ?
Azure Data Factory 是一種基於雲的數據繼承服務,允許組織城建,計劃和編排數據管道。Azure Data Factory 提供了可視化界面或基於代碼的方式來集成來自各種來源的數據,對其進行轉化和處理,然後再將其加載到數據目標存儲中。
Azure Data Factory 支持廣泛的數據源,包括本地和基於雲上的數據源,例如 Sql Server,Azure Blob,Dataverse 等等,它還提供數據移動,數據轉化,監控和管理等功能,使其成爲數據集成的綜合解決方案。
2,ADF 的工作原理是什麼?
Azure 數據工廠 (ADF) 通過提供可視化界面或基於代碼的方法來定義、計劃和執行數據管道。這些管道可用於執行各種任務,包括數據移動和轉換。
以下是 ADF 工作原理所涉及的步驟:
- 創建數據工廠:第一步是在 Azure 中創建數據工廠。這可以在 Azure 門戶中或使用 Azure CLI 完成。
- 定義數據源和目標:創建數據工廠後,您需要定義要在管道中使用的數據源和目標。數據源可以是本地的或基於雲的,目標可以是 Azure Data Lake Storage、Azure Blob 存儲或 Azure SQL 數據庫。
- 創建管道:管道是 ADF 的構建塊。它們定義了移動和轉換數據所需的步驟。可以在 ADF 可視化界面中或使用 Azure 數據工廠 SDK 創建管道。
- 計劃管道:可以安排管道定期運行或按需運行。這允許您自動執行數據管道。
- 監視管道:ADF 提供監視功能,以便您可以監視管道的狀態、查看日誌並管理已處理的數據。
ADF 是一個功能強大的工具,可以幫助您爲各種數據集成場景構建、調度和編排數據管道。對於需要的各種規模的組織來說,這是一個不錯的選擇到集成來自各種來源的數據並將其加載到各種目標中。
這裏有一些額外的細節關於 ADF 的工作原理:
- 數據連接器:ADF 支持各種數據連接器,包括本地數據源和基於雲的數據源。這使得您可以輕鬆地將來自各種來源的數據集成到數據管道中。
- 數據轉換:ADF 提供各種數據轉換活動,例如複製數據、轉換數據和運行腳本。這可以讓你到根據以下內容操縱和塑造您的數據到您的需求。
- 調度和監控:ADF 提供調度和監控功能,因此您可以自動執行數據管道並監控數據的狀態。這有助於您確保數據管道按預期運行並且數據始終是最新的。
- 集成運行時:ADF 提供集成運行時,負責執行管道中的活動。集成運行時分爲三種類型:Azure IR、自託管 IR 和 Azure-SSIS IR。這使您可以根據您的特定需求選擇正確的集成運行時。
- 安全功能:ADF 提供多種安全功能到保護您的數據,例如數據加密和訪問控制。這可以幫助您確保您的數據安全並且只能訪問到授權用戶。
3,Azure 數據工廠中的數據管道
ADF 中的管道是數據集成的構建塊,使您能夠到自動執行復雜的任務,例如數據移動、轉換和決策。管道由一項或多項活動組成,它們是 ADF 中的基本工作單元。有多種類型的活動可供選擇,每種活動都經過精心設計到執行特定任務。
1)數據移動:
使用複製數據活動到從一個移動數據地點 到其他。此活動支持廣泛的數據源和目標,包括本地數據源和基於雲的數據源。通過複製數據活動,您可以執行從源數據存儲複製數據等操作到目標數據存儲或從其中複製數據地點 到數據存儲中的另一個。
2)數據轉換:
ADF 提供了多種轉型活動,使您能夠到操縱和塑造您的數據。例如,您可以使用派生列活動到基於表達式、Lookup 活動創建新列到從另一個數據源檢索數據,以及聚合活動到彙總數據。ADF 還支持使用 Azure Databricks 或 Azure Functions 進行基於代碼的轉換,爲您提供靈活性到創建量身定製的自定義轉換到您的具體需求。
1,控制流:
管道可以包括控制流活動,使您能夠到根據條件執行操作。例如,您可以使用 If Condition 活動到根據表達式的結果或 For Each 活動執行不同的活動到對集合中的每個項目執行相同的一組活動。這些活動可以讓你到創建可以適應的複雜工作流程到改變數據和條件。
2,依賴關係:
管道可以包括依賴關係活動之間,它決定活動執行的順序。例如,您可以指定一個活動只能在另一個活動完成後啓動,或者多個活動應並行運行。這些依賴關係讓你到創建高效的工作流程,最大限度地減少延遲並最大限度地提高資源利用率。
3,監控和管理:
ADF 提供強大的監控和管理功能,使您能夠到監視管道的狀態、查看日誌並管理已處理的數據。您可以在 ADF 可視化界面中查看管道、活動和數據集的狀態,或使用 Azure 數據工廠 REST API 以編程方式檢索狀態信息。這可以讓你到快速識別任何問題或瓶頸並採取糾正措施到確保您的數據集成工作流程順利運行。
4,瞭解集成運行時 (IR)
集成運行時 (IR) 是 Azure 數據工廠 (ADF) 的基本組件,可幫助您到輕鬆執行和管理數據集成工作流程。IR 提供了一個安全、可擴展且受管理的環境,用於運行管道中指定的活動,例如數據移動和轉換任務。
讓我們更深入地研究 Integration Runtime 在 ADF 中的作用:
目的: IR 的主要目標是到爲執行數據集成活動提供安全、託管且可擴展的環境。通過抽象基礎設施和網絡複雜性,IR 使您能夠到只專注於構建數據集成邏輯,而不用擔心底層細節.
類型:它負責執行管道中的活動。IR 分爲三種類型:
- Azure IR:此 IR 用於基於雲的數據源和目標之間的數據集成。
- 自託管 IR:此 IR 用於本地和基於雲的數據源和目標之間的數據集成。
- Azure-SSIS IR:此 IR 用於需要託管環境來執行 SQL Server Integration Services (SSIS) 包的數據集成方案。
安全性:IR 非常重視安全性,自動處理網絡安全和數據加密問題。此外,IR 支持 Azure Active Directory (AAD) 身份驗證,使您能夠到使用 AAD 憑據安全地訪問數據源和目標。
可擴展性:IR設計到應對可擴展性挑戰,自動調整基礎設施和網絡資源到滿足您的數據集成任務的需求。例如,IR 可以在峯值負載期間自動增加集羣中的節點數量,並在負載下降時自動減少節點數量。
監控:IR提供實時監控和管理功能,使您到跟蹤數據集成操作的性能和狀態。您可以通過 ADF 可視化界面監視 IR、管道和活動,或使用 Azure 數據工廠 REST API 以編程方式檢索狀態信息。
總之,集成運行時是 Azure 數據工廠不可或缺的組件,爲執行數據集成工作流提供安全、可擴展和託管的環境。藉助 IR,您可以靈活、可擴展地執行數據集成操作,讓工作變得更加輕鬆到滿足您的數據集成場景的需求。
三,結尾
今天我們繼續介紹了 Azure Data Factory 的概念知識,集合前幾期實踐內容,能更好的瞭解 Azure Data Factory 常見的組件,更清晰的瞭解我們可以使用 Azure Data Factory 爲我們的項目做哪些貢獻了。