原创 爬蟲 解決網頁ip限制
方法一: user agent 僞裝和輪換 使用代理 ip 和輪換 cookies 的處理,有的網站對登陸用戶政策寬鬆些 方法二: 儘可能的模擬用戶行爲: UserAgent經常換一換 訪問時間間隔設長一點,訪問時間設置爲隨機數;
原创 python裏的celery 詳解
給大家分享一篇講解celery好博客 https://blog.csdn.net/freeking101/article/details/74707619
原创 python 之 如何使用一些工具和方法來提高代碼的運行速度
1.數據結構一定要選對 假如有百萬個數據進行排序,如果選擇列表,排序可能需要8分鐘,而選用字典,只用了十幾秒就能搞定。 2.多用python中封裝好的模塊庫 比如numpy,matplotlib,pandas這三個。mat
原创 python selenium 根據文字定位
1、全部文字 python:browser.find_element_by_xpath("//*[text()='花唄套現']").click() 2、部分文字 python:browser.find_element_by_xpath("
原创 Django - celery 詳解
一篇非常好的文章分享給大家 https://www.cnblogs.com/znicy/p/5626040.html
原创 url去重
常見URL過濾方法 1 直接查詢比較 假設要存儲url A,在入庫前首先查詢url庫中是否存在 A,如果存在,則不入庫,否則入庫。 這種方法準確性高,但是一旦數據量變大,佔用的存儲空間也變大,同時,由於要查庫,數據一多,查詢時間變長,
原创 npm/cnpm 淘寶鏡像
npm 1.臨時使用 npm --registry https://registry.npm.taobao.org install express 2.持久使用 npm config set registry https://reg
原创 八仙過海之解決跨域
1.使用jsonp 2.nginx轉發
原创 mitmproxy做代理,實現淘寶登陸
mitmproxy:就是用於 MITM 的 proxy,MITM 即中間人攻擊(Man-in-the-middle attack)。用於中間人攻擊的代理首先會向正常的代理一樣轉發請求,保障服務端與客戶端的通信,其次,會適時的查、記錄其
原创 正則匹配漢字文字
匹配漢字文字: [\u4e00-\u9fa5] 匹配非漢字字符: [^\u4e00-\u9fa5] 匹配雙字節字符(漢字、中文標點符號等): [^\x00-\xff] import re str=''' 漢字文字 1234567890
原创 asdf
asdfasdfasfd
原创 sdfgs
sdfsdfsdf
原创 阿斯頓發
阿斯頓發生多番
原创 hjtg
jhvi
原创 sdf
sdfg