爬蟲實踐1:獲取mooc主頁課程

爬取中國mooc主頁課程名單

1、首先訪問中國mooc的主頁,是這個樣子
在這裏插入圖片描述
2、打開開發者模式,圖中紅色部分就是想要爬取的一級分類。
在這裏插入圖片描述
在“國家精品”右鍵選擇“檢查”,找到所在標籤,發現是一個span標籤,並且class=‘f-thide’

3、在xpath插件窗中輸入//span[@class=‘f-thide’],得到正確結果,因此這是正確的xpath路徑。

4、確定網址,url=https://www.icourse163.org/
導入模塊urllib.request,獲取url的html

import urllib.request as ur
html = ur.urlopen(url).read().decode()
##如果decode(),則讀出的內容是2進制,在ascii內的字母符號可以識別,ascii之外的漢字等會逐個字節讀取。decode()默認以utf-8進行讀取。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章