前嗅ForeSpider採集教程：通過關鍵詞的【檢索列表】採集【檢索結果】

原創

2020-06-19 10:46

以百度搜索關鍵詞（http://www.baidu.com）爲例：

一. 網站結構

網站截圖說明

使用批量關鍵詞，從百度檢索列表依次進入檢索結果頁，採集結果頁裏的正文數據。

檢索列表頁

檢索結果頁

2. 採集結果截圖

檢索列表鏈接

檢索結果數據

二. 配置模板

新建任務

新建任務

點擊【下一步】，需要採集全部檢索結果，所以此處需要勾選【鏈接列表】和【普通翻頁】，如圖：

新建採集任務

2. 配置關鍵詞

配置關鍵詞

① 內置瀏覽器顯示搜索頁面後，按照提示：ctrl+左鍵單擊搜索框，點擊右下角【完成】。點擊右上角【保存】，保存任務配置。

保存關鍵詞配置

② 關鍵詞列表處，填寫關鍵詞，並點擊保存。

填寫關鍵詞

3. 採集預覽

看關鍵詞檢索的鏈接是否能夠出來，如果沒有出來，應該使用腳本採集；如果可以出來，則繼續操作。

4. 過濾鏈接列表

①用定位過濾鏈接，過濾關鍵詞檢索出的列表鏈接。

定位過濾列表鏈接

② 採集預覽，看是否過濾成功。

採集預覽出現鏈接均爲網頁中關鍵詞檢索列表中的鏈接，過濾成功。

採集預覽

5. 過濾翻頁鏈接

①用定位過濾鏈接，過濾翻頁鏈接。

定位過濾翻頁鏈接

② 採集預覽，看是否過濾成功

採集預覽出現鏈接均爲翻頁的鏈接，過濾成功。

採集預覽

6.關聯模板

通過關聯模板，可以設置該鏈接將要跳轉的下一層級頁面。通過模板之間的關聯，可以將網站各層級頁面關聯起來，在軟件中形成與瀏覽器相同的跳轉結構，從而完整地採集數據。

關聯模板

如果沒有創建模板02，可以自行創建模板。

新建模板

7. 填寫示例地址

模板二是爲了抽取正文數據，故勾選【抽取數據】，並填寫示例數據。

①選取任意一條檢索結果的網址，也就是模板一過濾得到的任意一條鏈接，作爲模板二的示例地址。

填寫示例地址

②點擊【下一步】，自動生成數據抽取。

如果沒有自動生成，則新建數據抽取。

新建數據抽取

8. 創建/選擇表單

表單創建後可以重複選擇使用，如果已有建好的表單，選擇對應數據表單即可。如果沒有，點擊創建表單。

創建表單

9.配置表單

根據所需內容，配置表單字段，此處配置了包括網頁標題、網頁地址、全部文本三個字段。=>（字段各屬性介紹）

方式一：快速建表。（點擊【創建表單】出現彈窗。）

配置表單

方式二：自由建表。（在【數據建表】界面。）

字段取值

10.字段取值

①f_id：主鍵字段，自動取值。=>（能夠自動取值的字段有哪些？）

②web_title：通過字段定位取值，按ctrl+單擊標題，確認選取。

字段取值

③web_link：自動獲取url地址。

web_link

11. 關聯數據表

先選擇對應表單，然後再創建關聯數據表，如圖所示。

創建關聯數據表

定義表名稱

勾選數據表

12. 模板預覽

通過預覽，可以瞭解配置是否能夠正確地採集到所需數據。

方式一：點擊【採集預覽】按鈕，可以從入口頁逐層預覽各個模板的數據。

點擊任意一條鏈接，看看是否可以得到和網頁對應的規整的數據。

方式二：右鍵後選擇【模板預覽】，可以單獨預覽某個模板的數據。

模板預覽

預覽結果

三.數據採集

1. 運行設置

運行設置處可以設置採集速度、採集策略、任務裝載等。

運行設置

1. 選擇採集任務

在【任務列表】中勾選需要採集的任務，可勾選多個任務，同時採集。

選擇採集任務

3. 開始採集

點擊【開始採集】，系統開始進行採集。剩餘任務數爲0時，系統自動停止採集。用戶也可以自己暫停任務或停止任務（停止任務會釋放任務，再次啓動時重新裝載任務）。

開始採集

4. 數據瀏覽

採集一段時間以後，點擊【數據瀏覽】，在數據列表中選中對應的數據表，即可瀏覽採集到的數據，點擊【刷新】按鈕可以同步顯示數據。

數據瀏覽

5. 導出數據

點擊【導出】按鈕，選擇導出文件格式後保存。

導出數據

導出數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyppeteer初次運行需要下載Chrome無法下載或者下載慢的解決方案

目前網上最多的其實都是自己手動下載，這裏說一下最簡單的、最方便的解決方案。這裏進行替換就好了，這裏是不需要修改源碼的。只要在我們引用之前設置下環境變量就好了。 import os DEFAULT_DOWNLOAD_HOST

2020-07-08 05:42:09

爬蟲入門--糗百

文章目錄1.爬蟲基本概念2.Requests 庫基本介紹3.Beautiful Soup 庫介紹本文目標：掌握爬蟲的基本概念 Requests 及 Beautiful Soup 兩個 Python 庫的基本使用通過以上知識完

2020-07-08 05:17:04

爬蟲知識梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

4.8實驗記錄（爬取so問答）

只爬取指定的類的div from bs4 import BeautifulSoup soup=BeautifulSoup(h,'html.parser') a=soup.find_all('div',class_="post-te

2020-07-08 06:12:59

阿里雲 MaxCompute 2020-11 月刊

【11月新功能發佈】1、MaxCompute支持以RAM角色身份訪問使用服務在雲賬號、RAM用戶基礎上，支持以RAM角色身份訪問服務，滿足跨雲服務的安全數據交換以及與企業已有身份系統實現SSO對接訪問需求。適用客戶已自建身份系統需要以R

2020-12-03 09:55:49

皮包批發與AI夢想收割術

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！編者按：本文來自微信公衆號“放大燈”（ID:guokr233），作者：大綿羊、肖滁，編輯：一萌、Danny、普通醬，36氪經授權發佈。 20

雲棲號資訊小哥

2020-07-27 11:40:52

當冰箱能幫我自動訂購食材…物聯網正在“喫掉”支付

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！你好，這是我在【物女心經】專欄寫的第188篇文章。曾經有句名言說“軟件正在吞噬世界”，如今正在發生的是“物聯網正在喫掉支付”，後面這句不是

雲棲號資訊小哥

2020-07-21 16:58:50

西門子發佈創新解決方案，賦能數字化轉型

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！在2020 西門子工業論壇上，西門子推出五款全新數字化產品和解決方案，涵蓋數據採集、可視化管理、“數字化雙胞胎”創建和預測性維護等各個方面，

雲棲號資訊小哥

2020-07-21 16:58:50

走出PPT，智能製造如何真正落地?

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！自18世紀第一次工業革命以來，工業已經走過機械化、電氣自動化、數字化三個階段。如今，幾乎所有日常生活方式背後都離不開工業的力量。不過，在

雲棲號資訊小編

2020-07-20 12:04:49

走出PPT，智能製造如何真正落地？

自18世紀第一次工業革命以來，工業已經走過機械化、電氣自動化、數字化三個階段。如今，幾乎所有日常生活方式背後都離不開工業的力量。不過，在“效率就是生命”的現代語境裏，留給工業的提升空間還很多，世界各國也都發布過工業轉型計劃，且思路大同小

雲棲號資訊小編

2020-07-17 11:19:47

24小時熱門文章

最新文章

最新評論文章