前嗅ForeSpider數據採集教程:採集東方財富網鏈接列表

案例:採集【東方財富網】首頁新聞列表中的新聞

 

一. 網站內容

1. 網站截圖說明

本教程以採集“東方財富網”首頁新聞列表中的新聞(正文數據)爲例,故鏈接入口應官方網址(http://www.eastmoney.com/),如下圖。

 

東方財富官網

 

 

2. 採集結果截圖

鏈接列表採集預覽

 

 

二. 操作方法

1. 新建任務

按圖片數字所示,1-2-3完成新建任務的步驟

新建任務

 

 

Step1:點擊“採集配置”

Step2:點擊【任務列表】中的“+”,新建採集任務

Step3:在如圖的紅框中輸入採集地址和任務名稱(可自定義),完成後點擊“下一步”。

 

需要採集正文數據,所以此處需要勾選【鏈接列表】,如圖,最後點擊“完成”即可。

新建採集任務

 

 

2. 鏈接抽取配置

Step1:內置瀏覽器顯示搜索頁面後,按照提示:ctrl+左鍵單擊文章標題。

Step2:點擊【智能過濾】按鈕,這時右側的地址過濾會顯示出相應的代碼。

Step3:最後點擊右上角的【採集預覽】查看是有內容,如下圖:

 

 

 

3. 數據抽取

在【新建任務】中輸入的網址只是我們想採集的預覽頁面,具體採集的正文內容(數據)需要進入詳情頁面。

按照圖示數據操作:

Step1:雙擊左側紅框位置,可自定義名稱。

Step2:勾選【抽取數據】將對應的層級鏈接複製粘貼到【示例地址】中,最後點擊“下一步”即可完成。

 

4. 配置表單

如圖示點擊【數據建表】:

Step1:點擊“採集配置”

Step2:選擇“數據建表”

Step2:點擊“+”,新建表單並自定義名稱,這裏取“東方財富”

根據所需內容,配置表單字段,此處配置了包括主鍵、標題、作者、發佈時間、文章內容等等。表單建立如下:

創建主鍵

 

主鍵務必第一個創建,其含義爲該表單所屬ID

字段名稱:hkey

採集內容 選擇“主鍵”

數據類型 選擇“長數字”

字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”

最後點擊“確定”即可。

 

創建字段1-標題

字段名稱:tittle

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)

 

創建字段2-作者

字段名稱:author

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)

 

創建字段3-發佈時間

字段名稱:get_time(注意:一定是下劃線)

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)

 

創建字段4-正文

字段名稱:content

採集內容 選擇“選區內可見文本”

數據類型 選擇“字符串”

注意,由於正文內容很多無法用字符串來估量,故這裏選擇“高級類型”-“長文本<64k”

 

表單配置字段自定義即可,如有多需求 可按上述同樣操作即可。最終呈現如下圖:

 

5. 關聯數據表

表單配置完畢後,需要進行數據關聯,操作如下:

 

選擇所需的表單,點擊【創建】按鈕。

創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。

 

6. 模板預覽

通過預覽,可以瞭解配置是否能夠正確地採集到所需正文數據。鼠標右鍵後選擇【鏈接列表】,可以單獨預覽某個鏈接的數據。

鏈接預覽

 

預覽結果

 

7. 確認選區

操作如下圖所示:

Step1:在左側“東方財富”下屬字段中點擊“tittle”

Step2:找到標題(圖中數字2所示)並ctrl+左鍵點擊選中該選區

Step3:最後點擊“確認選區”即可

 

Step1:在左側“東方財富”下屬字段中點擊“author”

Step2:找到文章作者(圖中數字2所示)並ctrl+左鍵點擊選中該選區

Step3:最後點擊“確認選區”即可

 

Step1:在左側“東方財富”下屬字段中點擊“get_time”

Step2:找到文章作者(圖中數字2所示)並ctrl+左鍵點擊選中該選區

Step3:最後點擊“確認選區”即可

 

Step1:在左側“東方財富”下屬字段中點擊“content”

Step2:找到文章作者(圖中數字2所示)並shift+左鍵點擊選中該選區

Step3:最後點擊“確認選區”即可

注意:主鍵無需確認選區,操作過程中要隨時點擊“保存”,養成良好習慣。

 

三. 採集數據

1. 運行設置

運行設置處可以設置採集速度、採集策略、任務裝載等。

 

2. 選擇採集任務

操作如下圖數字所示:

Step1:選擇【數據採集】

Step2:在【任務列表】中勾選需要採集的任務,可勾選多個任務,同時採集。

Step3:點擊“連接數據庫”選擇“打開”,此步驟不可避免,因爲採集需要和數據庫進行關聯。

 

注意:採集開始前,務必保證“裝載記錄”是空的。可點擊圖示進行刪除:

 

3. 開始採集

點擊【開始採集】,系統開始進行採集。剩餘任務數爲0時,系統自動停止採集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務,再次啓動時重新裝載任務)。

 

4.數據瀏覽

採集一段時間以後,點擊【數據瀏覽】,在數據列表中選中對應的數據表,即可瀏覽採集到的數據,點擊【刷新】按鈕可以同步顯示數據。

 

5.導出數據

點擊【導出】按鈕,選擇導出文件格式後保存。

導出數據

 

導出數據

發佈了152 篇原創文章 · 獲贊 42 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章