kettle的輸入組件

1、kettle裏面的輸入,就是用來抽取數據或生成數據,是ETL操作的E。

2、CSV文件是一種帶有固定格式的文本文件。注意:獲取字段的時候可以調整自己的字段類型,格式,滿足自己的需求哦。

3、文本文件輸入,提取日誌信息的數據是開發常見的操作,日誌信息基本都是文本類型。

首先要獲取到要抽取的文本文件哦。

可以選擇自己的分隔符哦!

獲取字段,如下所示:

4、微軟的Excel目前有兩種後綴名的文件分別爲:xls和xlsx。注意:xls:2007年之前,xlsx:2007年之後。

可以選擇自己的Sheet頁。

獲取到Excel輸入的字段,可以手動調整字段類型。

5、多文件合併,數據往往也是以多個文件的形式出現,有的數據還會分散在多個子文件夾。所以合併數據也是開發中非常常見的操作。

6、XML 指可擴展標記語言(EXtensible Markup Language), XML 被設計用來傳輸和存儲數據。

  XPath即爲XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。XPath基於XML的樹狀結構,提供在數據結構樹中找尋節點的能力。

  XPath-語法,選取節點 XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿着路徑或者 step 來選取的。下面列出了最有用的路徑表達式:

   XPath,路徑表達式,示例,如下所示:

Get data from XML組件,具體使用如下所示:

獲取XML文檔的所有路徑,如果需要考慮命名空間,可以進行勾選,如下所示:

字段,這裏獲取字段,如果獲取不到你想要的結果,需要自己手動編寫名稱,XML路徑,切記,XML路徑是相對於自己最終獲取數據的路徑,節點、結果類型、類型等等自己可以自行選擇即可。

7、 生成記錄,數據倉庫中絕大多數的數據都是業務系統生成的動態數據,但是其中一部分維度數據不是動態的,比如:日期維度。靜態維度數據就可以提前生成。

8、JSON(JavaScript Object Notation, JS 對象簡譜) 是一種輕量級的數據交換格式。JSON核心概念:數組、對象、屬性。數組:[ ]、對象:{ }、屬性:key:value。

  JSONPath類似於XPath在xml文檔中的定位,JsonPath表達式通常是用來路徑檢索或設置Json的。其表達式可以接受“dot–notation”(點記法)和“bracket–notation”(括號記法)格式。

    1)、點記法:$.store.book[0].title。推薦點記法哦。
    2)、括號記法:$[‘store’][‘book’][0][‘title’]。

JSONPath-操作符,如下所示:

JSON Input圖元使用,如下所示:

字段,可以根據自己的需求,進行填寫字段。特別注意路徑的寫法和規範哦。

可以多次使用JSON Input,最終查詢出自己想要的字段即可。

第二個JSON Input獲取第一個JSON Input的Json值。

9、Kettle的表輸入,這裏,以Mysql爲例,將mysql的jar包放入到\pdi-ce-8.2.0.0-342\data-integration\lib目錄下面。

  數據庫驅動是不同數據庫開發商(比如oracle mysql等)爲了某一種開發語言環境(比如java)能夠實現統一的數據庫調用而開發的一個程序,他的作用相當於一個翻譯人員。

Kettle的表輸入,使用如下所示:

 

作者:別先生

博客園:https://www.cnblogs.com/biehongli/

如果您想及時得到個人撰寫文章以及著作的消息推送,可以掃描上方二維碼,關注個人公衆號哦。

 

發佈了434 篇原創文章 · 獲贊 33 · 訪問量 25萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章