Python爬蟲初探


pycharm中控制檯運行後出現亂碼。需要文件>>設置>>編輯器>>文件編碼

wKiom1YOiVnyPmlQAAGpMdeT9eU557.jpg


爬取網頁

#-*-coding:utf-8-*-
import requests

#中文編碼 UTF-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#模擬瀏覽器
hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

url = ''  #爬取鏈接
html = requests.get('url',headers = hea)

print html.text
print '開始爬取內容。。。'


模擬登陸爬蟲,  #帶有cookie

關鍵是如何獲取cookie

ps.cookie遇到每次登陸都變化要注意變化點,往往變化的地方是隨機碼


方法一:通過抓包神器——Fiddler

wKiom1YOiyiwkmIxAAWE1QvHKIw485.jpg

wKioL1YOizigmSK-AAU9UJUl6C0192.jpg

方法2:

直接用IE審查元素

wKioL1YOi-GTV2QGAAJr6VIN_5g852.jpg

#-*-coding:utf-8-*-
import requests
import re

cook = {'Cookie':' '} 
url = ' '
html = requests.get(url, cookies = cook).content
print html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章