超詳細的六款主流ETL工具介紹及功能對比(etl工具的概念)
概述
etl(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程),對于企業(yè)或行業(yè)應用來說,我們經(jīng)常會遇到各種數(shù)據(jù)的處理,轉(zhuǎn)換,遷移,所以了解并掌握一種etl工具的使用,必不可少。最近用Kettle做數(shù)據(jù)處理比較多,所以也就介紹下這方面內(nèi)容,這里先對比下幾款主流的ETL工具。
1、DataPipeline
Data Pipeline是一家為企業(yè)用戶提供數(shù)據(jù)基礎架構(gòu)服務的科技公司,DataPipeline數(shù)據(jù)質(zhì)量平臺整合了數(shù)據(jù)質(zhì)量分析、質(zhì)量校驗、質(zhì)量監(jiān)控等多方面特性, 以保證數(shù)據(jù)質(zhì)量的完整性、一致性、準確性及唯一性,徹底解決數(shù)據(jù)孤島和數(shù)據(jù)定義進化的問題。
2、Kettle
Kettle是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數(shù)據(jù)抽取高效穩(wěn)定。Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數(shù)據(jù)放到一個壺里,然后以一種指定的格式流出。
Kettle家族目前包括4個產(chǎn)品:Spoon、Pan、CHEF、Kitchen。
SPOON 允許你通過圖形界面來設計ETL轉(zhuǎn)換過程(Transformation)。
PAN 允許你批量運行由Spoon設計的ETL轉(zhuǎn)換 (例如使用一個時間調(diào)度器)。Pan是一個后臺執(zhí)行的程序,沒有圖形界面。
CHEF 允許你創(chuàng)建任務(Job)。 任務通過允許每個轉(zhuǎn)換,任務,腳本等等,更有利于自動化更新數(shù)據(jù)倉庫的復雜工作。任務通過允許每個轉(zhuǎn)換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。
KITCHEN 允許你批量使用由Chef設計的任務 (例如使用一個時間調(diào)度器)。KITCHEN也是一個后臺運行的程序。
3、Talend
Talend,是一家專業(yè)的開源集成軟件公司,為企業(yè)提供開源的中間件解決方案,從而讓企業(yè)能夠在他們的應用,系統(tǒng)以及數(shù)據(jù)庫中贏取更大的價值。 在傳統(tǒng)軟件公司提供封閉、私有的解決方案的領(lǐng)域Talend系列軟件以開源的形式進行開發(fā)。Talend,可運行于 Hadoop 集群之間,直接生成 MapReduce 代碼供 Hadoop 運行,從而可以降低部署難度和成本,加快分析速度。而且 Talend 還支持可進行并發(fā)事務處理的Hadoop2.0。
4、Informatica
Informatica是全球領(lǐng)先的數(shù)據(jù)管理軟件提供商。在如下Gartner魔力象限位于領(lǐng)導者地位:數(shù)據(jù)集成工具魔力象限、數(shù)據(jù)質(zhì)量工具魔力象限 、元數(shù)據(jù)管理解決方案魔力象限 、主數(shù)據(jù)管理解決方案魔力象限 、企業(yè)級集成平臺即服務(EiPaaS)魔力象限。
Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 兩大產(chǎn)品,憑借其高性能、可充分擴展的平臺,可以解決幾乎所有數(shù)據(jù)集成項目和企業(yè)集成方案。
· Informatica PowerCenter用于訪問和集成幾乎任何業(yè)務系統(tǒng)、任何格式的數(shù)據(jù),它可以按任意速度在企業(yè)內(nèi)交付數(shù)據(jù),具有高性能、高可擴展性、高可用性的特點。Informatica PowerCenter包括4個不同版本,即:標準版,實時版,高級版,云計算版。同時,它還提供了多個可選的組件,以擴展Informatica PowerCenter的核心數(shù)據(jù)集成功能,這些組件包括:數(shù)據(jù)清洗和匹配、數(shù)據(jù)屏蔽、數(shù)據(jù)驗證、Teradata雙負載、企業(yè)網(wǎng)格、元數(shù)據(jù)交換、下推優(yōu)化(Pushdown Optimization)、團隊開發(fā)和非結(jié)構(gòu)化數(shù)據(jù)等。
· Informatica PowerExchange 是一系列的數(shù)據(jù)訪問產(chǎn)品,它確保 IT 機構(gòu)能夠根據(jù)需要隨時隨地訪問并在整個企業(yè)內(nèi)傳遞關(guān)鍵數(shù)據(jù)。憑該能力,IT機構(gòu)可以優(yōu)化有限的資源和數(shù)據(jù)的業(yè)務價值。Informatica PowerExchange支持多種不同的數(shù)據(jù)源和各類應用,包括企業(yè)應用程序、數(shù)據(jù)庫和數(shù)據(jù)倉庫、大型機、中型系統(tǒng)、消息傳遞系統(tǒng)和技術(shù)標準。
5、Datax
DataX 是阿里巴巴集團內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺,實現(xiàn)包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能。
開源地址:https://github.com/alibaba/DataX
6、Oracle Goldengate
GoldenGate軟件是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復制軟件。GoldenGate 能夠?qū)崿F(xiàn)大量交易數(shù)據(jù)的實時捕捉、變換和投遞,實現(xiàn)源數(shù)據(jù)庫與目標數(shù)據(jù)庫的數(shù)據(jù)同步,保持亞秒級的數(shù)據(jù)延遲。
源端通過抽取進程提取redo log或archive log日志內(nèi)容,通過pump進程(TCP/IP協(xié)議)發(fā)送到目標端,最后目標端的rep進程接收日志、解析并應用到目標端,進而完成數(shù)據(jù)同步。
7、ETL工具對比
整理成表格如下:
覺得有用的朋友多幫忙轉(zhuǎn)發(fā)哦!后面會分享更多devops和DBA方面的內(nèi)容,感興趣的朋友可以關(guān)注下~