前嗅ForeSpider腳本教程:鏈接過濾腳本

鏈接過濾腳本是地址和標題過濾中的腳本, 過濾類型必須選擇腳本過濾時過濾腳本才能生效,過濾腳本用於處理複雜的鏈接或標題過濾需求。

 

一.可用全局對象(只讀)

 

EXTRACT: 當前採集引擎[ 對象類型: extractor ]

DATADB: 當前連接的數據庫[ 對象類型: dataBase ]

RESULT: 當前結果集對象[ 對象類型: result ]

URL: 當前採集的鏈接對象[ 對象類型: url ]

URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]

DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]

DOM: 當前採集文檔的dom對象[ 對象類型: dom ]

ITEM: 當前鏈接dom樹的href標籤節點[ 對象類型: domItem ]

TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]

LINK:當前鏈接抽取對象[ 對象類型: tmplLink ]

VALUE:當前被過濾的字符串[ 對象類型: string ]

 

二.this對象

 

當前鏈接過濾[tmplFilter]對象。

 

三.腳本返回值

 

返回非0保留,否則過濾。

 

示例:

 

1.以下腳本過濾空白鏈接:

if(VALUE) 
return true;
else return false;

 

2.【標題過濾】以下腳本過濾標題的長度小於5個字符的鏈接:

if(VALUE.length>=5)
 return true;
 else return false;

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章