爬取中國mooc主頁課程名單
1、首先訪問中國mooc的主頁,是這個樣子
2、打開開發者模式,圖中紅色部分就是想要爬取的一級分類。
在“國家精品”右鍵選擇“檢查”,找到所在標籤,發現是一個span標籤,並且class=‘f-thide’
3、在xpath插件窗中輸入//span[@class=‘f-thide’],得到正確結果,因此這是正確的xpath路徑。
4、確定網址,url=https://www.icourse163.org/
導入模塊urllib.request,獲取url的html
import urllib.request as ur
html = ur.urlopen(url).read().decode()
##如果decode(),則讀出的內容是2進制,在ascii內的字母符號可以識別,ascii之外的漢字等會逐個字節讀取。decode()默認以utf-8進行讀取。