ETL工具比較

ETL工具比較

轉:http://baijiahao.baidu.com/s?id=1601248654320751991&wfr=spider&for=pc

提取,轉換和加載(ETL)工具使組織能夠在不同的數據系統中訪問,有意義且可用的數據。通常情況下,企業在瞭解試圖編寫代碼和構建內部解決方案的成本和複雜性時,首先會意識到對ETL工具的需求。

當選擇正確的ETL工具時,您有幾種選擇。您可以嘗試組裝開源ETL工具來提供解決方案。這種方法適用於某些情況,但公司經常發現自己需要更多功能/功能,更多靈活性和更多支持。

下一個選擇是與現任供應商合作:一種能夠很好地處理當今流行的數據源和數據流的解決方案。現任供應商提供一個大品牌或知名品牌的穩定性和舒適度。

第三類ETL工具是現代ETL平臺。這些通常是基於雲的解決方案,併爲ETL從現有數據源到雲數據倉庫的數據提供端到端支持。它們也是爲了支持日益增長的基於網絡的數據流列表而構建的。

對於這篇文章,我們將深入現有ETL工具的世界 - 通常的嫌疑犯,優點和缺點 - 然後快速瀏覽一下現代ETL平臺。

現任ETL工具概述

現有的ETL工具構成了ETL工具市場的大部分 - 這是合理的。他們的時間最長,很多都是由非常大的公司設計的(微軟,IBM等),所以預裝的客戶羣非常龐大。

其中一些工具由一套一起使用的工具組成,可以根據具體問題進行定製。由於許多公司將其數據存儲在傳統的單一數據庫和系統中,因此製造商可以提供工具來遷移該數據並支持現有的批處理方法。

流行的現任ETL工具

這不是一份完整的清單,但它確實涵蓋了主要產品。

IBM InfoSphere Information Server

IBM InfoSphere Information Server是一個ETL工具,是IBM Information Platforms Solutions套件和IBM InfoSphere的一部分。它使用圖形符號來構建數據集成解決方案,並提供各種版本(服務器版,企業版和MVS版)。

Informatica PowerCenter

Informatica PowerCenter是ETL產品套件的通用名稱,包括PowerCenter客戶端工具,服務器和存儲庫。

數據存儲在由客戶端工具和服務器訪問的存儲庫中。操作在服務器上執行,服務器連接到源和目標以獲取數據,應用所有轉換並將數據加載到目標系統中。

iWay軟件

Information Builders的iWay Integration Suite提供了應用程序和數據集成功能。客戶使用它們來管理結構化和非結構化信息。該套件包括iWay DataMigrator,iWay服務管理器和iWay通用適配器框架。

Microsoft SQL Server集成服務

Microsoft SQL Server Integration Services(SSIS)是構建高性能數據集成解決方案的平臺,包括用於數據倉庫的ETL包。

OpenText公司

該OpenText的集成中心是一個整合的平臺,讓組織中提取,提升,改造,整合,以及一個或多個存儲庫遷移數據和內容,任何新的目標的能力。

Oracle GoldenGate

Oracle GoldenGate是一個全面的軟件包,用於在異構IT環境中進行實時數據集成和複製。

普及軟件

Pervasive的Data Integrator平臺是一種企業數據集成軟件解決方案,使公司能夠在任何類型的數據源和應用程序之間建立連接。Data Integrator支持實時集成方案。

必能寶軟件

Pitney Bowes提供大量針對數據集成的工具和解決方案。Sagent Data Flow是一個靈活的整合引擎,整合來自不同來源的數據並提供一套全面的數據轉換工具,以增強其業務價值。

SAP Business Objects數據服務

以前稱爲Business Objects Data Integrator,SAP BusinessObjects Data Services(BODS)是用於數據集成,數據質量,數據分析和數據處理的ETL工具。它允許您整合和轉換可信的數據到數據倉庫系統以進行分析報告。

SAS數據管理

SAS Data Management建立在SAS平臺之上,是SAS進入ETL的工具市場。該平臺由大型套件(20多種)SAS工具和服務組成。

Sun Java複合應用程序平臺套件

Sun的ETL和數據集成工具是大型Java複合應用程序平臺套件(CAPS)的一部分。CAPS或Java CAPS是Oracle公司基於標準的企業服務總線軟件套件。Java CAPS有幾個組件可幫助整合現有應用程序並在面向服務的體系結構環境中提供新的業務服務。

SYBASE

Sybase ETL包括Sybase ETL Development和Sybase ETL Server。

Sybase ETL Development是用於創建和設計數據轉換項目和作業的GUI工具。該工具提供了一個完整的模擬和調試環境,旨在加速ETL轉換流程的開發。Sybase ETL Development包含一個ETL開發服務器,用於控制實際的處理,例如連接到數據庫和執行過程。

Sybase ETL Server是一種可伸縮和分佈式的網格引擎,它使用轉換流(使用Sybase ETL Development設計)連接到數據源並將數據提取並加載到數據目標。

Syncsort公司

SyncSort雲解決方案可訪問和整合來自各種來源的數據,並有助於將數據移至雲存儲庫。

現有ETL工具的侷限性

現有工具最大的侷限性在於它們被設計爲批量工作:收集一些數據,上傳數據,收集更多數據,上傳數據等。批量加載數據在某些情況下起作用; 但是,僅使用批次方法存在問題。

批處理數據轉換工具對於跨平臺數據源很難實現,特別是在涉及變更數據捕獲(CDC)的情況下。當批量數據上傳出現問題時,您需要跟蹤問題,排除故障並快速重新提交作業。這種錯誤處理是至關重要的,因爲如果數據倉庫中的數據超過了24小時API調用的分配數量,或者傳入的數據得到備份以及CDC信息的情況下丟失的數據可能是一個巨大的問題丟失或被覆蓋。

那麼越來越多的數據流和其他類型的數據源呢?它們不太適合設計和建立在批處理過程中的工具集,尤其是在今天需要儘快提供最新數據的情況下。

現代ETL工具概述

現代的ETL工具套件是以實時流數據處理和雲計算爲基礎構建的。這些最新的條目誕生了,能夠與先進的雲數據倉庫良好集成,並支持日益增多的數據源和數據流。

今天的趨勢繼續指向雲,而將IT和ETL移到雲只是有道理的。基於雲的ETL服務是自然而然的下一步。他們支持與他們的前輩相同的批處理模型,但他們正在將ETL帶到下一個階段,通常提供對實時數據,智能模式檢測等的支持。

對ETL過程的現代要求使批處理方法幾乎過時。隨着公司及其客戶要求最新的數據,每晚的財務或庫存更新的日子一去不復返了。跟上不斷增長的數據流列表的公司需要實時ETL處理。

隨着對實時數據訪問的需求的出現,體系結構發生了根本性的變化。今天的模型基於流處理和分佈式消息隊列,如Kafka。像Alooma和其他公司的現代方法將這些新技術結合起來,提供SaaS平臺和內部解決方案。作爲流的一部分,現代ETL平臺提供不同級別的轉換,從幾乎沒有轉換(相反,轉換髮生在數據倉庫中,加載後,AKA ELT)到通過代碼(Python,Java等)完全控制。

最後一塊難題是數據完整性。如果部分流程滯後或失敗會發生什麼?通過管道傳輸的數據會發生什麼?任何真正現代化的ETL平臺都需要內置強大的安全網絡來進行錯誤處理和報告。

流行的現代ETL平臺和工具

這裏列出了最常見的現代ETL平臺和工具。

Alooma

Alooma是爲雲構建的企業數據管道平臺。Alooma爲數據團隊提供了一個現代的,可擴展的基於雲的ETL解決方案,可以實時將來自任何數據源的數據彙集到任何數據倉庫中。

錯誤處理:處理,監控/報告,重新定義轉換:支持Python轉換的ETL

Confluent

Confluent是一個基於Apache Kafka的全面數據流平臺,能夠在數據流中發佈和訂閱以及存儲和處理數據。Confluent提供了其平臺的開源版本。

錯誤處理:僅監控轉換:ETL,Kafka Streams API

Fivetran

Fivetran是一款SaaS數據集成工具,可從不同的雲服務,數據庫和商業智能(BI)工具中提取數據,並將其加載到數據倉庫中。

錯誤處理:僅監控轉型:ELT,有限

FlyData

FlyData是一款SaaS數據遷移工具,可用於管理MySQL,PostgreSQL,MariaDB,Percona中的數據加載過程,並以CSV / TSV / JSON格式記錄到Amazon Redshift數據倉庫。

錯誤處理:是,緩衝轉型:ELT,有限

Matillion

Matillion提供專門爲Amazon Redshift,Google BigQuery和Snowflake構建的雲數據集成ETL工具。

錯誤處理:通過代碼支持,不是內置的轉換:ETL,圖形化構建器

SnapLogic

SnapLogic提供數據集成平臺即服務工具,用於連接雲數據源,SaaS應用程序和本地商業軟件應用程序。

錯誤處理:支持,但不是內置轉換:ETL,圖形化構建器

Stitch Data

Stitch是一款雲端優先開發者專用工具,用於快速移動數據。

錯誤處理:手動,記錄記錄在拒絕表中轉型:準ETL,有限

StreamSets

StreamSets是雲本地產品集合,用於控制數據漂移; 數據,數據源,數據基礎設施和數據處理方面的變化問題。

錯誤處理:是(錯誤記錄處理)轉換:ETL,代碼和GUI

Striim

Striim(發音爲“stream”)是一個實時的流媒體分析和數據集成平臺。

錯誤處理:僅監控轉換:ETL,內置和Java功能

Wrapping Up

當今對高級數據分析的需求需要現代的數據集成方法。無論您是希望整合來自數據庫,流媒體服務,文件還是其他來源的數據,選擇合適的工具集都至關重要。一個內置於雲中的現代化平臺可以爲您的企業提供所需的優勢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章