任務要求:
抓取上述書單的信息,製作成xls文檔。
過程分析:
由於只是抓取靜態頁面的信息,不需要模擬登陸網站,任務被簡化——每一個頁面生成一個以專業名稱爲文檔名的xls文檔。
第一步、在開發者工具中分析頁面源碼,找到我們需要的書籍信息的位置。
第二步、截取對應信息,一部分str1作爲文檔名,一部分str2作爲文檔內容。
第三步、新建一個xls文檔,將str2存入文檔,將文檔名改爲str1。
實際操作:
第一步:
1、文檔名所在源碼
2、文檔內容所在源碼
第二步:
1、通過截取函數,將對應信息從頁面源碼中截取出來。
2、將截取的文檔內容中我們需要的內容提取出來
第三步、新建xls文檔,將需要內容存入文檔,並改文檔名
PS:在重命名文檔時,有一個轉碼過程,不然重命名的文檔名會出現亂碼。因爲Windows不支持utf-8格式,只支持gb2312格式。
結果展示:
後期改進一:
鑑於一個一個的複製URL太麻煩了,我使用文件和循環來一次進行。
第一步:將所有URL存入Excel文檔
代碼圖片如下:
循環部分: