如何採集關鍵詞檢索結果,今天前嗅大數據就以古詩文網爲例爲大家演示,話不多說一起看看吧。
一. 網站內容
1. 網站截圖說明
本教程通過“古詩文網”官網來採集所需“關鍵詞”的正文數據,本教程以關鍵詞“鵝鵝鵝”爲例,故鏈接入口爲:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85
Step1:在官網輸入關鍵詞“鵝鵝鵝”,如圖所示:
Step2:複製該頁面的鏈接,作爲本次採集地址。
一. 操作方法
1. 新建任務
按圖片數字所示,1-2-3完成新建任務的步驟
Step1:點擊“採集配置”,點擊【任務列表】中的“+”,新建採集任務。
Step2:在圖示2位置中輸入,對應“鵝鵝鵝”關鍵詞下的網頁地址。
Step3:勾選“關鍵詞采集”,此步驟不可省略否則無法獲取我們所需的數據,完成後點擊“下一步”。
需要採集正文數據,所以此處需要勾選【抽取鏈接】和“網頁內所有鏈接”、【抽取數據】,點擊完成即可。
【新建採集任務】
2. 關鍵詞配置
按圖片數字所示,1-2-3完成新建任務的步驟
Step1:點擊圖1所示左側點擊“新建任務”。
Step2:按照圖2所示,點擊右下角的“關鍵詞”。
Step3:按照圖3所示,在關鍵詞列表中輸入“鵝鵝鵝”。
注:在操作過程中要記得隨時點擊“保存”,隨時保存進度。
Step1:點擊圖1所示左側點擊“鏈接抽取:網頁全部鏈接”。
Step2:按照圖2所示,Ctrl+左鍵 點擊搜索框,目的是建立搜索選區,方便關鍵詞的採集。
Step3:按照圖3所示,點擊“確認選區”。
3. 數據建表
按圖片數字所示,1-2-3完成數據建表的操作
如圖示點擊【數據建表】:
Step1:點擊“採集配置”
Step2:選擇“數據建表”
Step2:點擊“+”,新建表單並自定義名稱,這裏取“李白”
根據所需內容,配置表單字段,此處配置了包括主鍵、詩詞標題、詩句、作者。表單建立如下:
【創建主鍵】
字段名稱:id
採集內容 選擇“主鍵”,此處選“網頁主鍵”。
數據類型 選擇“長數字”
字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”
最後點擊“確定”即可。
【創建字段1-標題】
字段名稱:tittle
採集內容 選擇“選區內可見文本”
數據類型 選擇“長數字”
備註可隨意寫,比如:標題
【創建字段2-作者】
字段名稱:author
採集內容 選擇“選區內可見文本”
數據類型 選擇“長數字”
備註可隨意寫,比如:作者
【創建字段3-詩句內容】
字段名稱:content
採集內容 選擇“選區內可見文本”
數據類型 選擇“長數字”
備註可隨意寫,比如:詩句
最終數據表配置如下圖即可:
4. 創建關聯數據表
表單配置完畢後,需要進行數據關聯,操作如下:
選擇剛纔建立的“人上人數據”,點擊【創建】按鈕,即可生成對應的“關聯數據表”。
創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。
注意:創建完成後,記得“勾選”
5. 數據建表 確認選區
Step1:點擊圖1所示左側點擊“數據抽取:李白”。
Step2:按照圖2所示,在“數據表單”下滑列表中選擇剛纔創建的表單“李白”進行匹配。
Tittle選區選取:
Step1:點擊左側“tittle”
Step2:Ctrl+左鍵選擇圖示2位置的標題
Step3:點擊圖示3位置的“確認選區”即可完成
author選區選取:
Step1:點擊左側“author”
Step2:Ctrl+左鍵選擇圖示2位置的作者
Step3:點擊圖示3位置的“確認選區”即可完成
一. 關鍵詞 檢索結果預覽
右鍵圖示紅框位置(頁面左側)的“默認模板:01”,選擇“模板預覽”,即可進行檢索結果查詢,如下圖所示: