爬蟲的時候遇到了urlencode,urldecode的問題,用下面函數,可以把 漢字 urlencode
def my_urlencode(str):
key = str;
mass = {}
mass["key"] = key
params = urlencode(mass)
return params
使用fiddler可以對瀏覽器進行抓包分析,獲得get,post的信息。
在爬寫字樓時候,遇到了404錯誤,換代理也無法解決,檢查後設置上cookie,使問題得到解決,cookie設置方法如下:
import cookielib
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener )
其實用 urllib 也可以完成這項內容。