python爬虫登录豆瓣(一)

使用 第三方库 requests
通过使用 chrome 浏览器抓包,可以得到这个请求,将其中的 headers 和 data 提交。最后输出到 douban.html 的文件中,即可查看登录的界面。这次请求是第一次登录,所有界面为提示修改个人信息。
豆瓣抓包

import requests

url = "https://accounts.douban.com/login"
# 将账号和密码改为自己的帐号和密码
data = {"source": "None", \
        "redir": "https://www.douban.com",\
         "form_email": "帐号", \
         "form_password": "密码",\
         "login": "登录"}
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36",\
            "Accept": "text/html,application/xhtml+xml, application/xml;q=0.9",\
            "Host": "accounts.douban.com", \
            "Referer": "https://accounts.douban.com/login"}
r = requests.post(url, data=data, headers=headers)
with open("douban_login.html", "w") as f:
    print(r.text.encode("utf-8"), file=f)
    # 将网页源代码转化为 utf-8 输出 

也可根据相同的原理使用程序修改个人信息。
最后有一个小问题,网页源代码 meta 标签显示编码方式为 utf-8,最后也将字符转化为 utf-8 输出,但保存在本地之后再用浏览器打开却是乱码,将编码方式改为 bg2312 之后就能正常观看,不知道什么原因,求指教 (^o^)/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章