簡單爬蟲:下載超星慕課上的PPT

因爲本學期需要在超星上一門課,但是可能是網站的疏忽,無法下載mooc的ppt。於是花了一會兒時間想辦法下載了下來。
(課件只用於本人學習用途)

  1. 找到PPT在html的位置+圖片鏈接。這一步自己去找吧,如圖:
    在這裏插入圖片描述
  2. 易知圖片鏈接形式爲:https://s3.ananas.chaoxing.com/doc/d4/e4/fb/55bb99a61e0b6a721b18841bb35adeb5/thumb/1.png
  3. 用python 的 requests模塊 下載,源碼:
import os
from urllib.parse import urlparse 
from bs4 import BeautifulSoup
import requests


for i in range(1, 60):
    url = requests.get('http://s3.ananas.chaoxing.com/doc/d4/e4/fb/55bb99a61e0b6a721b18841bb35adeb5/thumb/' + str(i) + '.png')
    filepath = 'smthy/cyzcyzcyz/' + 'cyz' + str(i) + '.png'
    print(url) 
    img = url.content
    with open(filepath,'wb') as f:
            f.write(img)


有效的只有幾句:
request.get(url)
img=url.content
f.write(img)

大家理解意思就好
主要時間花在了找html代碼的img的url上面

有時間再更新一下把本次課程的全部課件一次性下載下來的方法。
-----更新----
加一個把所有圖片導出爲pdf的方法:

  1. 將你的所有圖片選中,點擊右鍵,找到打印
  2. 點擊打印
  3. 選擇紙張及其他選擇
  4. over
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章