前嗅ForeSpider腳本教程:模板腳本

鏈接腳本是頻道的模板中的腳本。配置了模板腳本,模板的處理流程將被改變:

1.如果腳本未正確返回dom區域節點,則該模板的採集則完全由該腳本控制。

2.如果腳本返回了一個正確的dom區域節點,則該模板的所有流程(鏈接抽取或數據抽取)都以該區域節點爲基準,區域外的信息和數據將優先作爲垃圾數據處理。

 

一.可用全局對象(只讀)

 

EXTRACT: 當前採集引擎[ 對象類型: extractor ]

DATADB: 當前連接的數據庫[ 對象類型: dataBase ]

RESULT: 當前結果集對象[ 對象類型: result ]

URL: 當前採集的鏈接對象[ 對象類型: url ]

URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]

DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]

DOM: 當前採集文檔的dom對象[ 對象類型: dom ]

TMPL:當前結果集對象[ 對象類型: tmplTmpl ]:等價於this對象

 

二.this對象

 

當前模板 [tmplTmpl] 對象。

 

三.腳本返回值:
 

如果需要進行數據操作必須return 文檔區域(domItem對象);否則返回0。


示例:

以下腳本查找網頁(文檔)中的第一個表格對象,如果找到表格則從表格中提取鏈接或數據;否則不處理當前頁面:

return DOM.FindName("table");

 

如果想要特定的鏈接,比如關鍵詞搜索這樣的,就會用模板腳本,下面是每個模板腳本必有的代碼:

​​​​​​​url u;u.title = "";

u.urlname = "";

u.tmplid = 3;

u.entryid = CHANN.id;

RESULT.AddLink(u);

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章