htmlparser抽取表格

原創

2018-08-25 10:23

[b][color=red]原創文章：轉載請註明出處[/color][/b]


try {
			Parser parser=new Parser("http://detail.zol.com.cn/260/259165/param.shtml");
//			NodeFilter nodeFilter=new HasAttributeFilter("","");
			HtmlPage htmlPage=new HtmlPage(parser);
			parser.visitAllNodesWith(htmlPage);
			TableTag tableTags[] =htmlPage.getTables();
			for(TableTag tableTag:tableTags){
				TableRow tableRows[]=tableTag.getRows();
				for(int i=0;i<tableRows.length;i++){
					System.out.println("----------------------");
					TableColumn tableColumns[]=tableRows[i].getColumns();
					for(int j=0;j<tableColumns.length;j++){
						System.out.println(tableColumns[j].toPlainTextString());
					}
				}
			}
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

這是提取表格內容的一個小例子。不用解釋了，能看懂的。呵呵

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

htmlparser抽取表格

linux(ubuntu) 之間互掛磁盤以及 linux掛載windows磁盤

java 線程個人總結

Heritrix源碼分析(十三) Heritrix的控制中心(大腦)CrawlController(二)

爬蟲基本原理及概念

mysql locked 解決方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結