pycharm中控制檯運行後出現亂碼。需要文件>>設置>>編輯器>>文件編碼
爬取網頁
#-*-coding:utf-8-*- import requests #中文編碼 UTF-8 import sys reload(sys) sys.setdefaultencoding('utf-8') #模擬瀏覽器 hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'} url = '' #爬取鏈接 html = requests.get('url',headers = hea) print html.text print '開始爬取內容。。。'
模擬登陸爬蟲, #帶有cookie
關鍵是如何獲取cookie
ps.cookie遇到每次登陸都變化要注意變化點,往往變化的地方是隨機碼
方法一:通過抓包神器——Fiddler
方法2:
直接用IE審查元素
#-*-coding:utf-8-*- import requests import re cook = {'Cookie':' '} url = ' ' html = requests.get(url, cookies = cook).content print html