Kettle中使用javascript組件解析HTML表格

原創

2020-06-23 22:52

KETTLE中的組件都試過了不能解析公司財務提供數據文件。按照網絡爬蟲思路利用htmlparser包解決了表格解析問題。

流程圖

腳本

JAVASCRIPT腳本如下：

/***解析HTML信息表格***/
trans_Status = SKIP_TRANSFORMATION;

var Parser= org.htmlparser.Parser;
var TagNameFilter = org.htmlparser.filters.TagNameFilter;
var HasAttributeFilter = org.htmlparser.filters.HasAttributeFilter;
var AndFilter = org.htmlparser.filters.AndFilter;
var NodeList = org.htmlparser.util.NodeList;

//從上級獲取html數據流
var parser = new Parser(FileContent); //FileContent爲輸入參數
var index = getInputRowMeta().size();
var filterTable = new AndFilter(new TagNameFilter("table"),new HasAttributeFilter("id","excel_table"));
var filterTr = new TagNameFilter("tr");
var filterTd = new TagNameFilter("td");

//取得表格NodeList
var tables = parser.parse(filterTable);
for( j=0;j<tables.size();j++){
    //取得行NodeList
var rows =tables.elementAt(j).getChildren();
   rows.keepAllNodesThatMatch(filterTr);
   for ( i = 0; i < rows.size(); i++) {
       var cells =rows.elementAt(i).getChildren();
       cells.keepAllNodesThatMatch(filterTd);
       //輸出行處理
var row = createRowCopy(getOutputRowMeta().size());
       row[0]="";//輸入行信息清空，不然每行都顯示原文內容
       for (k=0;k<cells.size();k++){
           row[index+k] = cells.elementAt(k).toPlainTextString();
}
       //輸出行
       putRow(row);
   }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

使用TypeScript創建高效HTTP代理請求

什麼是HTTP代理請求？首先，讓我們來了解一下什麼是HTTP代理請求。在網絡通信中，代理是一種充當中間人的服務器，它可以接收客戶端的請求並將其轉發給目標服務器，然後將目標服務器的響應返回給客戶端。而HTTP代理則是一種特殊的代理服務

2024-06-13 00:05:09

Puppeteer實戰案例：自動化抓取社交媒體上的媒體資源

在當今數字化時代，社交媒體已成爲人們獲取信息、分享生活和進行商業推廣的重要平臺。隨着社交媒體內容的爆炸性增長，自動化抓取社交媒體上的媒體資源變得尤爲重要。本文將介紹如何使用Puppeteer這一強大的自動化工具來實現這一目標。 1. P

2024-06-08 00:06:14

交互式流程圖組件DHTMLX Diagram v6.0 - 擁有更靈活的高度可定製功能

DHTMLX Diagram庫允許用幾行代碼構建JavaScript流程圖，通過自動佈局和實時編輯器，它可以更容易地將複雜數據可視化到一個整潔的層次結構中。 DHTMLX Diagram v6.0版本發佈，帶來了衆多令人興奮的新功能和改進，

2024-06-04 12:32:11

Symfony Panther在網絡數據採集中的應用

引言在當今數字化時代，網絡數據採集已成爲獲取信息的重要手段之一。Symfony Panther，作爲Symfony生態系統中的一個強大工具，爲開發者提供了一種簡單、高效的方式來模擬瀏覽器行爲，實現網絡數據的採集和自動化操作。本文將通過

2024-06-04 02:45:28

Symfony Panther在網絡數據採集中的應用

引言在當今數字化時代，網絡數據採集已成爲獲取信息的重要手段之一。Symfony Panther，作爲Symfony生態系統中的一個強大工具，爲開發者提供了一種簡單、高效的方式來模擬瀏覽器行爲，實現網絡數據的採集和自動化操作。本文將通過

2024-06-04 02:45:12

界面控件DevExtreme v23.2 - 可訪問性、性能增強

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合，使您可以利用現代Web開發堆棧（包括React，Angular，ASP.NET Core，jQuery，Knockout等）構建交互式的Web應用程序。從Ang

2024-06-03 12:21:39

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合*使您可以利用現代Web開發堆棧*包括React*Angular*ASP.NET Core*jQuery*Knockout等*構建交互式的Web應用程序。從Ang

2024-05-31 12:32:20

網頁爬蟲開發：使用Scala和PhantomJS訪問知乎

引言隨着大數據時代的到來，網頁爬蟲作爲一種高效的數據收集工具，被廣泛應用於互聯網數據抓取和信息抽取。而知乎是一個知識分享平臺，擁有大量的用戶生成內容。通過爬蟲獲取知乎數據，企業和研究人員可以進行深入的數據分析和市場研究，瞭解用戶的需求

2024-05-31 00:11:23

「盤點」JetBrains IDEs v2024.1新功能一覽，更智能的開發體驗！

JetBrains IDEs日前正式發佈了v2024.1版本，此版本中最大的亮點就是帶來了AI賦能的全行代碼補全，同時在最新的IDEs中重做了終端、擁有更強大的代碼編輯和導航功能、更智能的代碼分析和提示、更優化的性能、更豐富的插件和集成等。

2024-05-29 12:18:44

Objective-C爬蟲：實現動態網頁內容的抓取

在當今的互聯網時代，數據的獲取和分析變得日益重要。無論是進行市場研究、用戶行爲分析還是產品開發，獲取大量數據都是不可或缺的一環。然而，很多有價值的信息都隱藏在動態加載的網頁中，這些網頁通過JavaScript動態生成內容，傳統的爬蟲技術

2024-05-29 00:07:51

音頻鏈接抓取技術在Lua中的實現

前言隨着數字音樂的普及，越來越多的用戶選擇在線音樂平臺來享受音樂。網易雲音樂作爲國內領先的音樂服務平臺，不僅提供了豐富的音樂資源，還擁有獨特的社交屬性，吸引了大量的用戶。在衆多的音樂服務中，音頻鏈接的抓取技術成爲了一個重要的需求。無論

2024-05-28 00:07:25

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

響應式UI組件DevExtreme中文教程 - 工具欄的自適應模式

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合，使您可以利用現代Web開發堆棧（包括React，Angular，ASP.NET Core，jQuery，Knockout等）構建交互式的Web應用程序。從Ang

2024-05-27 12:19:43

使用JavaScript日曆小部件和DHTMLX Gantt的應用場景（三）

DHTMLX Suite UI 組件庫允許您更快地構建跨平臺、跨瀏覽器 Web 和移動應用程序。它包括一組豐富的即用式 HTML5 組件，這些組件可以輕鬆組合到單個應用程序界面中。 DHTMLX Gantt是用於跨瀏覽器和跨平臺應用程序的功

2024-05-27 12:19:39

由淺入深在實踐中玩轉Zabbix，解決剩下20%的監控需求！

本文整理自Zabbix中級認證專家李銘栓（滿分學員）在Zabbix Meetup廣州站的演講。掌握這幾種監控方式解決80%的監控問題，剩下的20%如何實現？這裏有答案！幾點經驗分享： 1

2024-05-24 22:33:53

24小時熱門文章

最新文章

最新評論文章