前嗅ForeSpider採集教程:通過關鍵詞的【檢索列表】採集【檢索結果】

 

 

以百度搜索關鍵詞(http://www.baidu.com)爲例:

一. 網站結構

  1. 網站截圖說明

使用批量關鍵詞,從百度檢索列表依次進入檢索結果頁,採集結果頁裏的正文數據。

檢索列表頁

 

檢索結果頁

 

2. 採集結果截圖

檢索列表鏈接

 

檢索結果數據

 

二. 配置模板

  1. 新建任務

新建任務

 

點擊【下一步】,需要採集全部檢索結果,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖:

新建採集任務

 

2. 配置關鍵詞

配置關鍵詞

 

① 內置瀏覽器顯示搜索頁面後,按照提示:ctrl+左鍵單擊搜索框,點擊右下角【完成】。點擊右上角【保存】,保存任務配置。

保存關鍵詞配置

 

② 關鍵詞列表處,填寫關鍵詞,並點擊保存。

填寫關鍵詞

 

3. 採集預覽

看關鍵詞檢索的鏈接是否能夠出來,如果沒有出來,應該使用腳本採集;如果可以出來,則繼續操作。

 

4. 過濾鏈接列表

①用定位過濾鏈接,過濾關鍵詞檢索出的列表鏈接。

定位過濾列表鏈接

 

② 採集預覽,看是否過濾成功。

採集預覽出現鏈接均爲網頁中關鍵詞檢索列表中的鏈接,過濾成功。

採集預覽

 

5. 過濾翻頁鏈接

①用定位過濾鏈接,過濾翻頁鏈接。

定位過濾翻頁鏈接

 

② 採集預覽,看是否過濾成功

採集預覽出現鏈接均爲翻頁的鏈接,過濾成功。

採集預覽

 

6.關聯模板

通過關聯模板,可以設置該鏈接將要跳轉的下一層級頁面。通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟件中形成與瀏覽器相同的跳轉結構,從而完整地採集數據。

關聯模板

 

如果沒有創建模板02,可以自行創建模板。

新建模板

 

7. 填寫示例地址

模板二是爲了抽取正文數據,故勾選【抽取數據】,並填寫示例數據。

①選取任意一條檢索結果的網址,也就是模板一過濾得到的任意一條鏈接,作爲模板二的示例地址。

填寫示例地址

 

②點擊【下一步】,自動生成數據抽取。

如果沒有自動生成,則新建數據抽取。

新建數據抽取

 

8. 創建/選擇表單

表單創建後可以重複選擇使用,如果已有建好的表單,選擇對應數據表單即可。如果沒有,點擊創建表單。

創建表單

 

9.配置表單

根據所需內容,配置表單字段,此處配置了包括網頁標題、網頁地址、全部文本三個字段。=>(字段各屬性介紹)

方式一:快速建表。(點擊【創建表單】出現彈窗。)

配置表單

 

方式二:自由建表。(在【數據建表】界面。)

字段取值

 

 

10.字段取值

①f_id:主鍵字段,自動取值。=>(能夠自動取值的字段有哪些?)

②web_title:通過字段定位取值,按ctrl+單擊標題,確認選取。

字段取值

 

③web_link:自動獲取url地址。

web_link

 

11. 關聯數據表

先選擇對應表單,然後再創建關聯數據表,如圖所示。

創建關聯數據表

 

定義表名稱

 

勾選數據表

 

 

12. 模板預覽

通過預覽,可以瞭解配置是否能夠正確地採集到所需數據。

方式一:點擊【採集預覽】按鈕,可以從入口頁逐層預覽各個模板的數據。

點擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據。

 

方式二:右鍵後選擇【模板預覽】,可以單獨預覽某個模板的數據。

模板預覽

 

預覽結果

 

三.數據採集

1. 運行設置

運行設置處可以設置採集速度、採集策略、任務裝載等。

運行設置

 

1. 選擇採集任務

在【任務列表】中勾選需要採集的任務,可勾選多個任務,同時採集。

選擇採集任務

 

3. 開始採集

點擊【開始採集】,系統開始進行採集。剩餘任務數爲0時,系統自動停止採集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務,再次啓動時重新裝載任務)。

開始採集

 

4. 數據瀏覽

採集一段時間以後,點擊【數據瀏覽】,在數據列表中選中對應的數據表,即可瀏覽採集到的數據,點擊【刷新】按鈕可以同步顯示數據。

數據瀏覽

 

5. 導出數據

點擊【導出】按鈕,選擇導出文件格式後保存。

導出數據

 

導出數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章