鏈接過濾腳本是地址和標題過濾中的腳本, 過濾類型必須選擇腳本過濾時過濾腳本才能生效,過濾腳本用於處理複雜的鏈接或標題過濾需求。
一.可用全局對象(只讀)
EXTRACT: 當前採集引擎[ 對象類型: extractor ]
DATADB: 當前連接的數據庫[ 對象類型: dataBase ]
RESULT: 當前結果集對象[ 對象類型: result ]
URL: 當前採集的鏈接對象[ 對象類型: url ]
URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]
DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]
DOM: 當前採集文檔的dom對象[ 對象類型: dom ]
ITEM: 當前鏈接dom樹的href標籤節點[ 對象類型: domItem ]
TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]
LINK:當前鏈接抽取對象[ 對象類型: tmplLink ]
VALUE:當前被過濾的字符串[ 對象類型: string ]
二.this對象
當前鏈接過濾[tmplFilter]對象。
三.腳本返回值
返回非0保留,否則過濾。
示例:
1.以下腳本過濾空白鏈接:
if(VALUE)
return true;
else return false;
2.【標題過濾】以下腳本過濾標題的長度小於5個字符的鏈接:
if(VALUE.length>=5)
return true;
else return false;