案例:採集“人上人”官網首頁數據列表
人上人-最新資訊: http://www.gzrsr.com/news/
一. 網站內容
1. 網站截圖說明
本教程通過採集“人上人”首頁“最新資訊”欄目列表中的數據爲例,故鏈接入口爲:http://www.gzrsr.com/news/,如下圖:
【人上人官網-“聯繫我們”】
2. 採集結果截圖
【鏈接列表採集預覽】
一. 操作方法
1. 新建任務
按圖片數字所示,1-2-3完成新建任務的步驟
【新建任務】
Step1:點擊“採集配置”
Step2:點擊【任務列表】中的“+”,新建採集任務
Step3:在如圖的紅框中輸入採集地址和任務名稱(可自定義),完成後點擊“下一步”。
需要採集正文數據,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖,最後點擊“完成”即可。
【新建採集任務】
2. 確認選區
由於我們只需要採集鏈接列表的數據,故需要過濾掉其他無效數據,保留最終有效數據。這裏我們可以使用【確認選區】功能即可輕鬆篩查,操作如下圖所示:
Step1:點擊Shift+左鍵,將頁面中所有的“鏈接列表”選中。
Step2:點擊“確認選區”即可完成有效數據的篩選。
3. 鏈接列表 採集預覽
點擊“採集預覽”,左側下滑列表中選擇“鏈接列表”,最終呈現如下圖所示即可表示篩選正確。
【採集預覽】
4. 普通翻頁配置
按圖片數字所示,1-2-3完成新建任務的步驟
Step1:點擊左側“鏈接抽取-普通翻頁”
Step2:這時我們將網頁拉到最底部,Ctrl+左鍵 選擇“下一頁”確認選區
Step3:勾選“標題過濾”,過濾規則選擇“包含”並在輸入框中,手動輸入“下一頁”即可完成 普通翻頁的配置。
注意:記得隨時點擊右上角的“保存”,養成良好的操作習慣。
5. 普通翻頁-採集預覽
完成第4步驟後,點擊右上方“採集預覽”,最終呈現應如下圖:
左側下滑列表中選擇“全部有效鏈接”和“普通翻頁”如均出現【下一頁】則表示配置成功,進行下一步驟。
6. 添加【數據抽取】
完成鏈接列表和普通翻頁配置後,最後我們應抽取網頁中的列表數據,如下圖:
點擊左側“模板抽取配置”旁邊的“+”,配置數據抽取,操作如下:
最終如下:
7. 數據抽取建表
按圖片數字所示,1-2-3完成新建任務的步驟
如圖示點擊【數據建表】:
Step1:點擊“採集配置”
Step2:選擇“數據建表”
Step2:點擊“+”,新建表單並自定義名稱,這裏取“人上人數據”
根據所需內容,配置表單字段,此處配置了包括主鍵、標題、文章摘要等等。表單建立如下:
【創建主鍵】
字段名稱:id
採集內容 選擇“主鍵”,此處務必選“自增ID主鍵”。
PS:非鏈接內正文數據的“網頁主鍵”
數據類型 選擇“長數字”
字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”
最後點擊“確定”即可。
【創建字段1-標題】
字段名稱:tittle
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 範圍50即可,最後點擊確定。(備註可隨意)
【創建字段2-摘要】
字段名稱:zhaiyao
採集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 範圍100左右即可,最後點擊確定。(備註可隨意)
8. 創建關聯數據表
表單配置完畢後,需要進行數據關聯,操作如下:
選擇剛纔建立的“人上人數據”,點擊【創建】按鈕,即可生成對應的“關聯數據表”
創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。
注意:創建完成後,記得“勾選”
9. 數據建表 確認選區
ID字段務必保證是 “自增ID主鍵”,如果是“網頁主鍵”在紅框位置可選擇更改。
Tittle選區:
Step1:點擊左側“tittle”
Step2:Ctrl+左鍵選擇圖示2位置的標題
Step2:點擊圖示3位置的“確認選區”即可完成
Zhaiyao選區:
Step1:點擊左側“zhaiyao”
Step2:Ctrl+左鍵選擇圖示2位置的文字部分
Step2:點擊圖示3位置的“確認選區”即可完成
以上步驟完成後,點擊右上角的“保存”,即可完成數據建表的步驟。
三. 鏈接列表 數據預覽
完成所有步驟後,最後點擊右上方的“採集預覽”即可查看“最新資訊”的鏈接列表數據啦~。
最終如下圖所示,即可完成本次的操作了,你學會了嗎?