前嗅ForeSpider脚本教程：模板脚本

原創

2019-03-26 18:47

链接脚本是频道的模板中的脚本。配置了模板脚本，模板的处理流程将被改变：

1.如果脚本未正确返回dom区域节点，则该模板的采集则完全由该脚本控制。

2.如果脚本返回了一个正确的dom区域节点，则该模板的所有流程（链接抽取或数据抽取）都以该区域节点为基准，区域外的信息和数据将优先作为垃圾数据处理。

一.可用全局对象（只读）

EXTRACT: 当前采集引擎[ 对象类型: extractor ]

DATADB: 当前连接的数据库[ 对象类型: dataBase ]

RESULT: 当前结果集对象[ 对象类型: result ]

URL: 当前采集的链接对象[ 对象类型: url ]

URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]

DOC: 当前采集的文档对象[ 对象类型: grabDoc ]

DOM: 当前采集文档的dom对象[ 对象类型: dom ]

TMPL:当前结果集对象[ 对象类型: tmplTmpl ]：等价于this对象

二.this对象

当前模板 [tmplTmpl] 对象。

三.脚本返回值:

如果需要进行数据操作必须return 文档区域（domItem对象）；否则返回0。

示例:

以下脚本查找网页（文档）中的第一个表格对象，如果找到表格则从表格中提取链接或数据；否则不处理当前页面：

return DOM.FindName("table");

如果想要特定的链接，比如关键词搜索这样的，就会用模板脚本，下面是每个模板脚本必有的代码：

url u;u.title = "";

u.urlname = "";

u.tmplid = 3;

u.entryid = CHANN.id;

RESULT.AddLink(u);

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

智慧家庭场景的推荐系统的发展历程和方向 | InfoQ《公开课》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

开源80万行代码，微众银行如何在小团队规模下炼出一套一站式大数据平台 | 卓越技术团队访谈录

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

RocketMQ Streams：将轻量级实时计算引擎融合进消息系统

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 10:29:04

数据也需要滴血认亲？

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"背景","attrs

2021-12-05 12:33:58

为什么Netflix“永不宕机”？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 15:48:52

RocketMQ 在金融企业技术中台的落地实践

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 10:53:56

数据让您与众不同

作爲數據分析領域的領導者，Google Cloud 一直致力於解決用戶最關注的問題，幫助用戶在數字化轉型的過程中更加有效的利用數據，最大化數據所帶來的價值，進而驅動業務的發展，包括打破數據孤島, 高效的實時和預測分析以及最大化數據洞察的應用

2021-11-23 11:18:54

开源云原生数据编排软件开发商Alluxio宣布完成5000万美元C轮融资

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:08:53

2021 GitHub年度报告：仅有 11% 的开发者想重返办公室办公；JavaScript依然最受欢迎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:03:52

Databricks与Snowflake创始人开撕：“未来十年数据仓库要么不存在要么大变样”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-18 18:03:58

通过优化S3读取来提高效率和减少运行时间

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"概述"}]},{"t

Bhalchandra Pandit

2021-11-11 10:23:52

基础软件创业 8 年，星环科技如何精准“踩点”？ | C位面对面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

DataOps指南：数据管理新时代来了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-08 10:58:53

谷歌自研芯片Tensor正式亮相：5nm，8核CPU，支持手机运行AI模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-20 15:53:52

从入职到放弃再到改革成功：我是如何从0到1建立数据团队的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Erik Bernhardsson

2021-10-09 08:18:53

24小時熱門文章

lightdb hash index的性能和限制

最新文章

最新評論文章