案例爬取（其二）:Error:11004、狀態碼200但是返回None——自己坑自己的步驟

第二步：進行具體正文的提取，此時不止出現前面的代理問題：Error:10060,還時長出現Error:11004,和返回None

簡直一臉懵逼，他媽的又全是英文，還不僅python錯誤，連window的各種錯誤都出來了！！！！！！！！！！！！！！！！！！！！

各種查找都沒有找到解決方法！！！

各種嘗試中發現當我一個一個輸入url時，成功了！！！！
但是進行遍歷提取時卻是狀態碼200 和返回None!!!

難道要一個一個的自行傳遞url，一遍一遍的運行，絕對不可能！！！

真香！！一個一個的傳遞url,最終到第3個，實在受不了，於是開始再次檢查。
多方查找，既然狀態碼200正常，那麼就只能是後面的內容有問題了，結果沒有發現。

沒有辦法的我就只能向前找，結果錯誤竟然在前面，200的狀態碼，錯誤竟然在前面！！！

奇怪的問題來了：

兩個url進行判斷爲不相等，一開始還以爲是數據結構不一致，結果加了str()沒有用，加上‘’也沒有用。
最後查看txt文檔時終於想起來，原來是在寫入txt時爲了好看，進行了換行，因而提取的url中也會存在換行符！！！

2020年4月28日：
對於個人需求的數據來說，有時覺得爬蟲十分雞肋，因爲爬取數據就是希望使用大量數據，但是基本上都會碰到ip限制，但是購買ip就要花錢，相當於就是在買數據，爲什麼不省下學習時間來直接購買要的數據，價格相差也不大甚至更低，或許收穫就是學了知識，但是知識本身就是夠用就行並不完全是爲了學習而學習。

2020年5月1日：
每次到第40000頁後都是沒有內容，其header爲
{‘Server’: ‘nginx/1.6.0’, ‘Date’: ‘Fri, 01 May 2020 02:02:56 GMT’, ‘Content-Length’: ‘0’, ‘Connection’: ‘close’, ‘Set-Cookie’: ‘JSESSIONID=A5EA74140CEDF8C271412C6D3BC21E30; Domain=.fae.cn; Path=/; HttpOnly’, ‘Content-Language’: ‘en-GB’}

可見’Content-Length’: '0’即沒有內容，可能是我爬取有問題？
但是網頁中直接跳轉尾頁時也沒有內容，或者網站宣傳的100萬份裁判文書是假的？？？？？？

尾頁跳轉內容：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

案例爬取（其二）:Error:11004、狀態碼200但是返回None——自己坑自己的步驟

中國裁判文書下載：selenium路線

Pandas合併excel文件錯位現象的解決

remove方法缺陷補全：續《列表數據清洗遇到問題的記錄——set用法和remove方法的缺陷》

Appium安裝環境配置中的一些問題

selenium彈窗之windows下載文件彈窗點擊方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結