python網絡爬蟲-2019年我破解企業工商數據+商標網+建築招標網數據-爬蟲技術分享

python網絡爬蟲-2019年我破解企業工商數據+商標網+建築招標網數據-爬蟲技術分享

最近在深入研究人工智能“深度學習”TensorFlow技術,採用AI技術做數據爬蟲和數據挖掘的工作,AI技術主要是建立爬蟲的模型、深度訓練機器人、樣本數據驗證模型、最後我們的機器人就可以像我們千軍萬馬的真人在做爬蟲的工作了,解決了爬蟲界遇到的各種驗證碼、封IP、加密的問題,可以說2019年是大數據的發起年,很多朋友都找我幫忙通過我的爬蟲技術解決數據源的問題,我們知道不管是做人工智能還是做大數據前提就是需要有數據,所以大數據是目前非常火的行業,也是很多有眼光的人進軍大數據創業的原因!

二、工商網-企業數據-python數據挖掘技術分享(全國企業工商數據46個緯度的挖掘技術)

因爲一直研究深度爬蟲前沿技術,最近有幾個創業的朋友找我幫忙建立企業大數據庫和政策庫大數據,因爲我前段時間剛剛幫朋友完成了“天謀查和企謀查”企業庫數據的分佈式爬蟲系統的研發,解決了封IP技術和驗證碼破解、vip模擬登陸爬數據問題,其中企業工商數據我當時挖掘的數據緯度包含46個數據緯度,每一個緯度就是一個數據表。
利用爬蟲技術,實現那麼多企業數據的網絡數據挖掘,需要足夠多的服務器和大數據搜索引擎架構,首先我對企業進行了按城市維度進行分庫,全國每個城市都建立一個自己的數據庫,然後自己利用Python爬蟲技術+企業詞庫+代理IP池+分佈式多進程的技術架構開發了一套“企業大數據深度挖掘系統”。我們目前比較流行的數據挖掘技術的開發語言就是python,因爲python擁有非常完整的各種庫可以直接使用,比如: 圖像識別庫、requests庫等等。

2.1 工商企業大數據面臨的問題:
其實我破解爬取天某查、企某查這些網站做企業大數據深度挖掘系統的研發的時候需要解決以下三個問題:
1 破解驗證碼 完成vip自動登錄 採集到完整的vip數據
2 數據的結構化和數據清洗,把數據清洗到數據庫
3 數據的批量分佈式、多進程、 多任務的爬取 解決全量爬取速度問題
2.2問題解決方案分享:
因爲像天某查、企某查這種網站,如果不是vip會員登陸 ,手機號碼和郵箱這些比較重要的數據我們是看不到的,都是需要用vip登陸才能看到,所以要拿到完整的數據就需要破解vip登陸,拿到vip的完整數據,一旦把vip破解了就像闖入無人空曠的平原想拿什麼數據就拿什麼數據了。下面的問題就是如何解決全量爬取數據問題,那麼多企業數據我想一個月全部完成可以嗎?從技術角度是100%可以的,只要我們把程序架構做成分佈式+多進程+多任務就可以實現想爬多少就爬多少,但是有一個問題就是我們的需要服務器需要足夠多哦,否則你一臺電腦開100個進程也沒有用速度也就是那麼一點了。分佈式就是爬蟲程序部署放到10臺電腦去,如果你實在沒有電腦就到網吧去,把爬蟲端在網吧電腦去行幾天估計全部爬完了,這樣快速解決全量爬取的問題。所以我當時在開發企業工商大數據深度挖掘系統的時候系統架構我分爲了 爬蟲端+數據庫+代理IP池+cookies池+企業詞庫+數據管理後臺,等一整套的數據挖掘、數據清洗、數據存儲、數據管理的解決方案。
(歡迎對爬蟲技術和大數據挖掘感興趣朋友加我qq:2779571288)

三、商標網-Python爬蟲破解技術分享:
因爲一直從事數據深度挖掘、網絡深度爬蟲的技術研究,從幫電商公司做過淘寶店鋪商品的一鍵搬家,把淘寶商品通過爬蟲技術一鍵複製到您的網站去,到通過AI圖像識別技術做競品分析、再導通過網絡爬蟲技術做幫朋友做的輿情監控、再到企業工商大數據的深度挖掘、商標網的大數據挖掘等等幾乎國內核心的比較大的網站反爬機制都摸清了一遍,再衆多網絡深度挖掘技術的過程中,不同的網站纔有不同的反爬技術,比如天某查 纔有的是vip登陸+驗證碼技術,再比如淘寶採用的是封IP的反爬技術,不登錄也可以搜索到商品數據,但是那麼多網站中度商標網是最難爬取的一個,說起商標網難爬並不代表它的反爬技術有多牛,其實商標網的反爬技術還沒有天某查的牛,主要是商標網犧牲了用戶體驗來攔截爬蟲大量爬取它數據,商標網的反爬技術包含下面2部分:
3.1 商標網-採取的url訪問跟蹤加密技術:

商標網犧牲了用戶體驗,每次對商標註冊號查詢必須先進入搜索頁面然後搜索註冊號去爬取,如果你直不經過主頁和列表頁就直接訪問詳細頁面是直接被封的,也就是這個詳細頁的URL是經過首頁的訪問cookie+列表頁cookie+過期時間的跟蹤加密處理的,所以要爬取它的數據不得不從這個模擬搜索註冊號然後模擬點擊進入詳細頁然後爬取詳細頁和商標流程頁面的數據,這樣我們一樣是爬取得到數據,只是爬取速度有點慢,因爲我們必須需要遵循它現在進入搜索頁去模擬搜索註冊號然後再模擬點擊進入詳細頁,這樣速度就慢很多。
3.2 商標網-採取了封IP反爬技術:
商標網除了跟蹤訪問路徑url外,還採取了封IP技術,也就是當你不斷的去模擬搜索註冊號或者模擬搜索公司得到詳細頁數據的時候,它會監控您的IP,如果發現您的IP操作太頻繁直接把您IP拉黑封掉,你再也打開不了商標網站了。需要過一天或者一段時間纔給您重新放出來。所以解決這個封IP很簡單,我當時做商標網大數據深度挖掘系統的架構的時候,系統架構上包含了: 爬蟲端+代理IP池+模擬AI人工智能技術+多進程 解決它的反爬問題以及爬取速度的問題。下面給大家解釋一下代理IP池:
代理IP池:也許您會問這個代理IP池是做什麼,又是怎麼實現的呢?我們在爬網站的時候,需要用代理ip不能用我們自己電腦的IP去爬,原因是在你電腦直接運行代碼那麼爬蟲的IP就是你電腦的IP ,如果一直頻繁的去採集對方的網站,那麼對方會檢測到您的IP直接把您的IP列入黑名單導致你以後在也採集不了了。所以我所有的批量採集爬蟲都採用代理IP去爬的,python怎麼採用代理IP呢?其實很簡單就那麼一行代碼就解決:
 resp = requests.get(url, headers=self.headers, timeout=20, proxies=proxy)
我們調用的是 requests的get方法 裏面有url、和headers以及 , proxies代理IP設置的參數。
url:就是我們採集的目標網站地址
headers:就是我們模擬訪問對方網站時候需要模擬的頭參數(這個參數怎麼來呢,其實很簡單,直接用火狐打開對方網站 查看網絡裏面有和請求頭 那些參數複製過來即可)
 Proxies:就是我們的設置我們的代理IP,代理IP是什麼意思呢?代理服務器的工作機制很象我們生活中常常提及的代理商,假設你的機器爲A機,你想獲得的數據由B機提供,代理服務器爲C機,那麼具體的連接過程是這樣的。 首先,A它與C機建立連接把請求發給C,C機接收到A機的數據請求後馬上與B機建立連接,下載A機所請求的B機上的數據到本地,再將此數據發送至A機,完成代理任務。這樣下載對方網站的數據的是代理服務器,而這個代理服務器IP是隨機變動,對方就抓不到是誰一直採集他的數據了。那這個代理ip我們清楚了,這個ip代理池又是什麼呢?我們運行我們的python程序的時候,每秒發一個http請求去爬對方網站一次,請求一次需要一個IP,那麼這個ip怎麼來呢?我們可以網上購買第三方那種ip接口,比如:每10秒中會返回1個IP給我們用,如果我們每次爬數據都先要調取代理IP接口得到IP了再去爬對方網站 那麼這個效率和代碼質量就低了,因爲人家是10秒中才一個IP,您的程序速度和效率就直接卡在因爲代理IP接口控制問題了,所以這個時候您需要改進代理IP代碼架構,首先每10秒中讀取代理IP接口得到的IP 緩存到reis去,並且設置60秒過期,那麼這個redis就會形成一個代理IP池了,您的程序代碼爬對方網站時候直接從redis讀取IP去爬,這樣速度就快了,程序架構就優化了。

(歡迎對爬蟲技術和大數據挖掘感興趣朋友加我qq:2779571288)

採集速度太頻繁了,會被封IP問題 怎麼解決

當我們發出去的http請求到天謀查網站的時候,正常情況下返回200狀態,說明請求合法被接受,而且會看到返回的數據,但是天謀查有自己的一套反爬機制算法,如果檢查到同一個IP來不斷的採集他網站的數據,那麼他會被這個IP列入異常黑名單,您再去採集它網站數據的時候,那麼就永遠被攔截了。怎麼解決這個問題呢,其實很簡單,沒有錯用代理IP去訪問,每一次請求的時候都採用代理IP方式去請求,而且這個代理IP是隨機變動的,每次請求都不同,所以用這個代理IP技術解決了被封的問題。

自己搭建代理池ip

做爬蟲技術都知道,代理IP的質量決定了爬蟲的效率,要想爬快一點,必須選擇質量好,高匿名、不重複、時間長的IP,在選擇代理IP的時候,市場價格好的搭理IP一般是6000/月,所以當時爲了避免這個費用成本,就自己搭建了自己IP代理池,利用技術優勢節省了一大截成本。

爬天某查是怎麼知道我們使用代理IP的呢?

想知道代理IP的問題,我先要理解清楚 代理IP裏的“透明”“匿名”“高匿”分別是指什麼:
透明代理IP::就是我們用這個代理IP去採集天眼查的時候,不會隱藏我們自己的IP,我們的IP一種是暴漏透明的,那麼天某查會很快識別到同一個客戶端IP重複訪問採集它的網站數據,就會把這個IP拉入黑名單做個標記,下次你在去採集的時候直接被封了。
普通匿名代理IP:能隱藏我們客戶機的真實IP,但是有一個壞處就是但會改變我們的請求信息,天某查有可能會認爲我們使用了代理。不過使用此種代理時,雖然被訪問的網站不能知道你的ip地址,但仍然可以知道你在使用代理,當然某些能夠偵測ip的網頁仍然可以查到你的ip,所以這種IP是不適合去採集天眼查的數據的。
高匿名代理IP: 這種IP是不會改變客戶機的請求,這樣在服務器看來就像有個真正的客戶用瀏覽器在訪問它,這時客戶的真實IP是隱藏的,服務器端(天眼查)不會認爲我們使用了代理,我們在採集天眼查的應該選用這種高匿名的IP,那麼哪裏去找這種代理IP呢,下面的小結將會給大家介紹。
想要解決繞過天眼查驗證碼爬數據的問題,首先我們要分析是在什麼情況下才會出現驗證碼,天眼查是通過以下兩種方式進行識別我們是否瀏覽器訪問還是爬蟲訪問:
怎麼知道天某查封了我們的IP呢?
您去爬天某查的時候,如果您的IP被封或者不正常,天某查就會返回登錄頁面,出現登錄界面就說明您的ip被封了,或者被監控到異常了。所以我們在爬數據的時候,用正則匹配一下是否有註冊登錄的界面html標籤字符,如果出現登錄界面馬上重新換一個IP重新請求,就一直執行循環直到換到正常的可用的IP爲止即可。
爲什麼採用代理IP後還是被封了?
我們做爬蟲的時候不能使用自己電腦的IP去循環採集天某查網站否則會直接封IP,或者出現驗證碼,要解決這個問題其實很簡單就是採用動態的代理IP,但是呢很多人用代理IP還是出現會封,其實原因是您用的這個代理IP質量不行,或者你用的是那種、免費的代理IP。使用代理IP還是被封會有以下原因:
(1) 您的代理IP失效時間太短,還沒成完一個http請求就失效了,導致永遠被封或者無效
(2) 您的代理IP網絡不到達不通導致
(3) 你的代理IP不是高匿名的,直接被識別出來
(4) 您的代理IP已經被其他人用過爬天某查了,早被列入黑名單,導致你永遠IP被封。
(5) 你是不是老是一直用幾個代理IP循環去爬?正確做法是每個請求都隨機換不同IP,所以您需要網上選那種不限制數量的代理IP,而不是固定幾個IP。
4、爬天某查應該選用什麼樣的代理IP?
建議您的代理IP應該滿足以下要求:
(1) 、高匿名,普通匿名不行,一定是高匿名
(2) 、有效期時間長,至少2分鐘之內是有效的
(3) 、不重複,至少在30天內不重複的IP
、不限量,每天IP的數據不限制,隨機改變。

時間有限,先分享到這裏,我得寫代碼去..........

(歡迎對爬蟲技術和大數據挖掘感興趣朋友加我qq:2779571288)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章