抓取靜態頁面的信息

公管學院的專業書單

任務要求:
抓取上述書單的信息,製作成xls文檔。
過程分析:
由於只是抓取靜態頁面的信息,不需要模擬登陸網站,任務被簡化——每一個頁面生成一個以專業名稱爲文檔名的xls文檔。
第一步、在開發者工具中分析頁面源碼,找到我們需要的書籍信息的位置。
第二步、截取對應信息,一部分str1作爲文檔名,一部分str2作爲文檔內容。
第三步、新建一個xls文檔,將str2存入文檔,將文檔名改爲str1。
實際操作:
第一步:
1、文檔名所在源碼
文檔名所在源碼
2、文檔內容所在源碼
文檔內容所在源碼
第二步:
1、通過截取函數,將對應信息從頁面源碼中截取出來。
截取內容代碼
2、將截取的文檔內容中我們需要的內容提取出來
截取內容提取代碼
第三步、新建xls文檔,將需要內容存入文檔,並改文檔名
寫入文檔部分代碼
PS:在重命名文檔時,有一個轉碼過程,不然重命名的文檔名會出現亂碼。因爲Windows不支持utf-8格式,只支持gb2312格式。

結果展示:

結果展示圖片

後期改進一
鑑於一個一個的複製URL太麻煩了,我使用文件和循環來一次進行。
第一步:將所有URL存入Excel文檔
代碼圖片如下:
文件代碼
循環部分:
循環產生

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章