案例:採集【東方財富網】首頁新聞列表中的新聞
一. 網站內容
1. 網站截圖說明
本教程以採集“東方財富網”首頁新聞列表中的新聞(正文數據)爲例,故鏈接入口應官方網址(http://www.eastmoney.com/),如下圖。
東方財富官網
2. 採集結果截圖
鏈接列表採集預覽
二. 操作方法
1. 新建任務
按圖片數字所示,1-2-3完成新建任務的步驟
新建任務
Step1:點擊“採集配置”
Step2:點擊【任務列表】中的“+”,新建採集任務
Step3:在如圖的紅框中輸入採集地址和任務名稱(可自定義),完成後點擊“下一步”。
需要採集正文數據,所以此處需要勾選【鏈接列表】,如圖,最後點擊“完成”即可。
新建採集任務
2. 鏈接抽取配置
Step1:內置瀏覽器顯示搜索頁面後,按照提示:ctrl+左鍵單擊文章標題。
Step2:點擊【智能過濾】按鈕,這時右側的地址過濾會顯示出相應的代碼。
Step3:最後點擊右上角的【採集預覽】查看是有內容,如下圖:
3. 數據抽取
在【新建任務】中輸入的網址只是我們想採集的預覽頁面,具體採集的正文內容(數據)需要進入詳情頁面。
按照圖示數據操作:
Step1:雙擊左側紅框位置,可自定義名稱。
Step2:勾選【抽取數據】將對應的層級鏈接複製粘貼到【示例地址】中,最後點擊“下一步”即可完成。
4. 配置表單
如圖示點擊【數據建表】:
Step1:點擊“採集配置”
Step2:選擇“數據建表”
Step2:點擊“+”,新建表單並自定義名稱,這裏取“東方財富”
根據所需內容,配置表單字段,此處配置了包括主鍵、標題、作者、發佈時間、文章內容等等。表單建立如下:
創建主鍵
主鍵務必第一個創建,其含義爲該表單所屬ID
字段名稱:hkey
採集內容 選擇“主鍵”
數據類型 選擇“長數字”
字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”
最後點擊“確定”即可。
創建字段1-標題
字段名稱:tittle
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)
創建字段2-作者
字段名稱:author
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)
創建字段3-發佈時間
字段名稱:get_time(注意:一定是下劃線)
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 範圍10-20即可,最後點擊確定。(備註可隨意)
創建字段4-正文
字段名稱:content
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
注意,由於正文內容很多無法用字符串來估量,故這裏選擇“高級類型”-“長文本<64k”
表單配置字段自定義即可,如有多需求 可按上述同樣操作即可。最終呈現如下圖:
5. 關聯數據表
表單配置完畢後,需要進行數據關聯,操作如下:
選擇所需的表單,點擊【創建】按鈕。
創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。
6. 模板預覽
通過預覽,可以瞭解配置是否能夠正確地採集到所需正文數據。鼠標右鍵後選擇【鏈接列表】,可以單獨預覽某個鏈接的數據。
鏈接預覽
預覽結果
7. 確認選區
操作如下圖所示:
Step1:在左側“東方財富”下屬字段中點擊“tittle”
Step2:找到標題(圖中數字2所示)並ctrl+左鍵點擊選中該選區
Step3:最後點擊“確認選區”即可
Step1:在左側“東方財富”下屬字段中點擊“author”
Step2:找到文章作者(圖中數字2所示)並ctrl+左鍵點擊選中該選區
Step3:最後點擊“確認選區”即可
Step1:在左側“東方財富”下屬字段中點擊“get_time”
Step2:找到文章作者(圖中數字2所示)並ctrl+左鍵點擊選中該選區
Step3:最後點擊“確認選區”即可
Step1:在左側“東方財富”下屬字段中點擊“content”
Step2:找到文章作者(圖中數字2所示)並shift+左鍵點擊選中該選區
Step3:最後點擊“確認選區”即可
注意:主鍵無需確認選區,操作過程中要隨時點擊“保存”,養成良好習慣。
三. 採集數據
1. 運行設置
運行設置處可以設置採集速度、採集策略、任務裝載等。
2. 選擇採集任務
操作如下圖數字所示:
Step1:選擇【數據採集】
Step2:在【任務列表】中勾選需要採集的任務,可勾選多個任務,同時採集。
Step3:點擊“連接數據庫”選擇“打開”,此步驟不可避免,因爲採集需要和數據庫進行關聯。
注意:採集開始前,務必保證“裝載記錄”是空的。可點擊圖示進行刪除:
3. 開始採集
點擊【開始採集】,系統開始進行採集。剩餘任務數爲0時,系統自動停止採集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務,再次啓動時重新裝載任務)。
4.數據瀏覽
採集一段時間以後,點擊【數據瀏覽】,在數據列表中選中對應的數據表,即可瀏覽採集到的數據,點擊【刷新】按鈕可以同步顯示數據。
5.導出數據
點擊【導出】按鈕,選擇導出文件格式後保存。
導出數據
導出數據