前嗅ForeSpider腳本教程:數據過濾腳本

數據過濾腳本與數據抽取腳本並列的腳本,它的作用是對抽取的數據進行過濾。

注意:一旦有了數據過濾腳本則數據抽取腳本將失效,即“數據處理” 下拉菜單必須選擇“數據過濾腳本”。

 

一.可用全局對象(只讀)
 

EXTRACT:當前採集引擎[ 對象類型:extractor ]

DATADB:當前連接的數據庫[ 對象類型:dataBase ]

RESULT:當前結果集對象[ 對象類型:result ]

URL:當前採集的鏈接對象[ 對象類型:url ]

URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]

DOC:當前採集的文檔對象[ 對象類型:grabDoc ]

DOM:當前採集文檔的dom對象[ 對象類型:dom ]

ITEM:模板區域的dom樹節點(如果模板未選擇區域則爲dom樹的根節點)[ 對象類型:domItem ]

TMPL:當前文檔模板對象[ 對象類型:tmplTmpl ]

REC:當前記錄集對象[ 對象類型:record ]

 

二.this對象

 

當前數據記錄[record ]對象。

 

三.腳本返回值

 

返回true(非0)則保留記錄,不返回或者返回false(0)則丟棄記錄。

 

四.示例:

 

示例一:只保留正文內容長度爲1000~3000字符的記錄。

if(this.content.length>=1000 && this.content.length<=3000)

return true; 

else return false;

 

示例二:以下腳本過濾掉字段content爲空的的記錄(即content字段必須有值)。

​​​​​​​if(this.content)

return true;

else return false;

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章