案例爬取(其二):Error:11004、狀態碼200但是返回None——自己坑自己的步驟

第二步:進行具體正文的提取,此時不止出現前面的代理問題:Error:10060,還時長出現Error:11004,和返回None

簡直一臉懵逼,他媽的又全是英文,還不僅python錯誤,連window的各種錯誤都出來了!!!!!!!!!!!!!!!!!!!!


在這裏插入圖片描述

各種查找都沒有找到解決方法!!!

各種嘗試中發現當我一個一個輸入url時,成功了!!!!
但是進行遍歷提取時卻是狀態碼200 和返回None!!!

難道要一個一個的自行傳遞url,一遍一遍的運行,絕對不可能!!!

真香!!一個一個的傳遞url,最終到第3個,實在受不了,於是開始再次檢查。
多方查找,既然狀態碼200正常,那麼就只能是後面的內容有問題了,結果沒有發現。

沒有辦法的我就只能向前找,結果錯誤竟然在前面,200的狀態碼,錯誤竟然在前面!!!

奇怪的問題來了:
在這裏插入圖片描述
在這裏插入圖片描述
兩個url進行判斷爲不相等,一開始還以爲是數據結構不一致,結果加了str()沒有用,加上‘’也沒有用。
最後查看txt文檔時終於想起來,原來是在寫入txt時爲了好看,進行了換行,因而提取的url中也會存在換行符!!!

2020年4月28日:
對於個人需求的數據來說,有時覺得爬蟲十分雞肋,因爲爬取數據就是希望使用大量數據,但是基本上都會碰到ip限制,但是購買ip就要花錢,相當於就是在買數據,爲什麼不省下學習時間來直接購買要的數據,價格相差也不大甚至更低,或許收穫就是學了知識,但是知識本身就是夠用就行並不完全是爲了學習而學習。

2020年5月1日:
每次到第40000頁後都是沒有內容,其header爲
{‘Server’: ‘nginx/1.6.0’, ‘Date’: ‘Fri, 01 May 2020 02:02:56 GMT’, ‘Content-Length’: ‘0’, ‘Connection’: ‘close’, ‘Set-Cookie’: ‘JSESSIONID=A5EA74140CEDF8C271412C6D3BC21E30; Domain=.fae.cn; Path=/; HttpOnly’, ‘Content-Language’: ‘en-GB’}

可見’Content-Length’: '0’即沒有內容,可能是我爬取有問題?
但是網頁中直接跳轉尾頁時也沒有內容,或者網站宣傳的100萬份裁判文書是假的??????

尾頁跳轉內容:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章