數據過濾腳本與數據抽取腳本並列的腳本,它的作用是對抽取的數據進行過濾。
注意:一旦有了數據過濾腳本則數據抽取腳本將失效,即“數據處理” 下拉菜單必須選擇“數據過濾腳本”。
一.可用全局對象(只讀)
EXTRACT:當前採集引擎[ 對象類型:extractor ]
DATADB:當前連接的數據庫[ 對象類型:dataBase ]
RESULT:當前結果集對象[ 對象類型:result ]
URL:當前採集的鏈接對象[ 對象類型:url ]
URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]
DOC:當前採集的文檔對象[ 對象類型:grabDoc ]
DOM:當前採集文檔的dom對象[ 對象類型:dom ]
ITEM:模板區域的dom樹節點(如果模板未選擇區域則爲dom樹的根節點)[ 對象類型:domItem ]
TMPL:當前文檔模板對象[ 對象類型:tmplTmpl ]
REC:當前記錄集對象[ 對象類型:record ]
二.this對象
當前數據記錄[record ]對象。
三.腳本返回值
返回true(非0)則保留記錄,不返回或者返回false(0)則丟棄記錄。
四.示例:
示例一:只保留正文內容長度爲1000~3000字符的記錄。
if(this.content.length>=1000 && this.content.length<=3000)
return true;
else return false;
示例二:以下腳本過濾掉字段content爲空的的記錄(即content字段必須有值)。
if(this.content)
return true;
else return false;