前嗅ForeSpider採集教程:採集【鏈接列表】的數據

案例:採集“人上人”官網首頁數據列表

人上人-最新資訊: http://www.gzrsr.com/news/

一. 網站內容

1. 網站截圖說明

本教程通過採集“人上人”首頁“最新資訊”欄目列表中的數據爲例,故鏈接入口爲:http://www.gzrsr.com/news/,如下圖:

【人上人官網-“聯繫我們”】

2. 採集結果截圖

【鏈接列表採集預覽】

一. 操作方法

1. 新建任務

按圖片數字所示,1-2-3完成新建任務的步驟

【新建任務】

Step1:點擊“採集配置”

Step2:點擊【任務列表】中的“+”,新建採集任務

Step3:在如圖的紅框中輸入採集地址和任務名稱(可自定義),完成後點擊“下一步”。

需要採集正文數據,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖,最後點擊“完成”即可。

【新建採集任務】

2. 確認選區

由於我們只需要採集鏈接列表的數據,故需要過濾掉其他無效數據,保留最終有效數據。這裏我們可以使用【確認選區】功能即可輕鬆篩查,操作如下圖所示:

Step1:點擊Shift+左鍵,將頁面中所有的“鏈接列表”選中。

Step2:點擊“確認選區”即可完成有效數據的篩選。

3. 鏈接列表 採集預覽

點擊“採集預覽”,左側下滑列表中選擇“鏈接列表”,最終呈現如下圖所示即可表示篩選正確。

【採集預覽】

4. 普通翻頁配置

按圖片數字所示,1-2-3完成新建任務的步驟

Step1:點擊左側“鏈接抽取-普通翻頁”

Step2:這時我們將網頁拉到最底部,Ctrl+左鍵 選擇“下一頁”確認選區

Step3:勾選“標題過濾”,過濾規則選擇“包含”並在輸入框中,手動輸入“下一頁”即可完成 普通翻頁的配置。

注意:記得隨時點擊右上角的“保存”,養成良好的操作習慣。

5. 普通翻頁-採集預覽

完成第4步驟後,點擊右上方“採集預覽”,最終呈現應如下圖:

左側下滑列表中選擇“全部有效鏈接”和“普通翻頁”如均出現【下一頁】則表示配置成功,進行下一步驟。

6. 添加【數據抽取】

完成鏈接列表和普通翻頁配置後,最後我們應抽取網頁中的列表數據,如下圖:

點擊左側“模板抽取配置”旁邊的“+”,配置數據抽取,操作如下:

最終如下:

7. 數據抽取建表

按圖片數字所示,1-2-3完成新建任務的步驟

如圖示點擊【數據建表】:

Step1:點擊“採集配置”

Step2:選擇“數據建表”

Step2:點擊“+”,新建表單並自定義名稱,這裏取“人上人數據”

根據所需內容,配置表單字段,此處配置了包括主鍵、標題、文章摘要等等。表單建立如下:

【創建主鍵】

字段名稱:id

採集內容 選擇“主鍵”,此處務必選“自增ID主鍵”。

PS:非鏈接內正文數據的“網頁主鍵”

數據類型 選擇“長數字”

字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”

最後點擊“確定”即可。

【創建字段1-標題】

字段名稱:tittle

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

數據長度 選擇 範圍50即可,最後點擊確定。(備註可隨意)

【創建字段2-摘要】

字段名稱:zhaiyao

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

數據長度 選擇 範圍100左右即可,最後點擊確定。(備註可隨意)

8. 創建關聯數據表

表單配置完畢後,需要進行數據關聯,操作如下:

選擇剛纔建立的“人上人數據”,點擊【創建】按鈕,即可生成對應的“關聯數據表”

創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。

注意:創建完成後,記得“勾選”

9. 數據建表 確認選區

ID字段務必保證是 “自增ID主鍵”,如果是“網頁主鍵”在紅框位置可選擇更改。

Tittle選區:

Step1:點擊左側“tittle”

Step2:Ctrl+左鍵選擇圖示2位置的標題

Step2:點擊圖示3位置的“確認選區”即可完成

Zhaiyao選區:

Step1:點擊左側“zhaiyao”

Step2:Ctrl+左鍵選擇圖示2位置的文字部分

Step2:點擊圖示3位置的“確認選區”即可完成

以上步驟完成後,點擊右上角的“保存”,即可完成數據建表的步驟。

三. 鏈接列表 數據預覽

完成所有步驟後,最後點擊右上方的“採集預覽”即可查看“最新資訊”的鏈接列表數據啦~。

最終如下圖所示,即可完成本次的操作了,你學會了嗎?

發佈了152 篇原創文章 · 獲贊 42 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章