python爬蟲登錄豆瓣(一)

使用 第三方庫 requests
通過使用 chrome 瀏覽器抓包,可以得到這個請求,將其中的 headers 和 data 提交。最後輸出到 douban.html 的文件中,即可查看登錄的界面。這次請求是第一次登錄,所有界面爲提示修改個人信息。
豆瓣抓包

import requests

url = "https://accounts.douban.com/login"
# 將賬號和密碼改爲自己的帳號和密碼
data = {"source": "None", \
        "redir": "https://www.douban.com",\
         "form_email": "帳號", \
         "form_password": "密碼",\
         "login": "登錄"}
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36",\
            "Accept": "text/html,application/xhtml+xml, application/xml;q=0.9",\
            "Host": "accounts.douban.com", \
            "Referer": "https://accounts.douban.com/login"}
r = requests.post(url, data=data, headers=headers)
with open("douban_login.html", "w") as f:
    print(r.text.encode("utf-8"), file=f)
    # 將網頁源代碼轉化爲 utf-8 輸出 

也可根據相同的原理使用程序修改個人信息。
最後有一個小問題,網頁源代碼 meta 標籤顯示編碼方式爲 utf-8,最後也將字符轉化爲 utf-8 輸出,但保存在本地之後再用瀏覽器打開卻是亂碼,將編碼方式改爲 bg2312 之後就能正常觀看,不知道什麼原因,求指教 (^o^)/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章