前嗅forespider---關鍵詞采集【檢索結果】

如何採集關鍵詞檢索結果,今天前嗅大數據就以古詩文網爲例爲大家演示,話不多說一起看看吧。

一. 網站內容

1. 網站截圖說明

本教程通過“古詩文網”官網來採集所需“關鍵詞”的正文數據,本教程以關鍵詞“鵝鵝鵝”爲例,故鏈接入口爲:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85

 

Step1:在官網輸入關鍵詞“鵝鵝鵝”,如圖所示:

 

Step2:複製該頁面的鏈接,作爲本次採集地址。

 

一. 操作方法

1. 新建任務

按圖片數字所示,1-2-3完成新建任務的步驟

 

Step1:點擊“採集配置”,點擊【任務列表】中的“+”,新建採集任務。

Step2:在圖示2位置中輸入,對應“鵝鵝鵝”關鍵詞下的網頁地址。

Step3:勾選“關鍵詞采集”,此步驟不可省略否則無法獲取我們所需的數據,完成後點擊“下一步”。

 

需要採集正文數據,所以此處需要勾選【抽取鏈接】和“網頁內所有鏈接”、【抽取數據】,點擊完成即可。

【新建採集任務】

 

2. 關鍵詞配置

按圖片數字所示,1-2-3完成新建任務的步驟

 

Step1:點擊圖1所示左側點擊“新建任務”。

Step2:按照圖2所示,點擊右下角的“關鍵詞”。

Step3:按照圖3所示,在關鍵詞列表中輸入“鵝鵝鵝”。

 

注:在操作過程中要記得隨時點擊“保存”,隨時保存進度。

Step1:點擊圖1所示左側點擊“鏈接抽取:網頁全部鏈接”。

Step2:按照圖2所示,Ctrl+左鍵 點擊搜索框,目的是建立搜索選區,方便關鍵詞的採集。

Step3:按照圖3所示,點擊“確認選區”。

 

3. 數據建表

按圖片數字所示,1-2-3完成數據建表的操作

如圖示點擊【數據建表】:

Step1:點擊“採集配置”

Step2:選擇“數據建表”

Step2:點擊“+”,新建表單並自定義名稱,這裏取“李白”

 

 

根據所需內容,配置表單字段,此處配置了包括主鍵、詩詞標題、詩句、作者。表單建立如下:

【創建主鍵】

 

字段名稱:id

採集內容 選擇“主鍵”,此處選“網頁主鍵”。

數據類型 選擇“長數字”

字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”

最後點擊“確定”即可。

【創建字段1-標題】

 

字段名稱:tittle

採集內容 選擇“選區內可見文本”

數據類型 選擇“長數字”

備註可隨意寫,比如:標題

 

 

【創建字段2-作者】

 

字段名稱:author

採集內容 選擇“選區內可見文本”

數據類型 選擇“長數字”

備註可隨意寫,比如:作者

 

【創建字段3-詩句內容】

 

字段名稱:content

採集內容 選擇“選區內可見文本”

數據類型 選擇“長數字”

備註可隨意寫,比如:詩句

最終數據表配置如下圖即可:

 

4. 創建關聯數據表

表單配置完畢後,需要進行數據關聯,操作如下:

 

選擇剛纔建立的“人上人數據”,點擊【創建】按鈕,即可生成對應的“關聯數據表”。

創建表名稱可隨意填寫,需注意 僅可使用“全英文”,最後點擊 確定 即可完成。

 

 

注意:創建完成後,記得“勾選”

 

5. 數據建表 確認選區

 

Step1:點擊圖1所示左側點擊“數據抽取:李白”。

Step2:按照圖2所示,在“數據表單”下滑列表中選擇剛纔創建的表單“李白”進行匹配。

 

Tittle選區選取:

Step1:點擊左側“tittle”

Step2:Ctrl+左鍵選擇圖示2位置的標題

Step3:點擊圖示3位置的“確認選區”即可完成

 

author選區選取:

Step1:點擊左側“author”

Step2:Ctrl+左鍵選擇圖示2位置的作者

Step3:點擊圖示3位置的“確認選區”即可完成

 

一. 關鍵詞 檢索結果預覽

 

右鍵圖示紅框位置(頁面左側)的“默認模板:01”,選擇“模板預覽”,即可進行檢索結果查詢,如下圖所示:

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章