原创 爬蟲 解決網頁ip限制

方法一: user agent 僞裝和輪換  使用代理 ip 和輪換  cookies 的處理,有的網站對登陸用戶政策寬鬆些 方法二: 儘可能的模擬用戶行爲:  UserAgent經常換一換  訪問時間間隔設長一點,訪問時間設置爲隨機數;

原创 python裏的celery 詳解

給大家分享一篇講解celery好博客 https://blog.csdn.net/freeking101/article/details/74707619

原创 python 之 如何使用一些工具和方法來提高代碼的運行速度

1.數據結構一定要選對 假如有百萬個數據進行排序,如果選擇列表,排序可能需要8分鐘,而選用字典,只用了十幾秒就能搞定。 2.多用python中封裝好的模塊庫 比如numpy,matplotlib,pandas這三個。mat

原创 python selenium 根據文字定位

1、全部文字 python:browser.find_element_by_xpath("//*[text()='花唄套現']").click() 2、部分文字 python:browser.find_element_by_xpath("

原创 Django - celery 詳解

一篇非常好的文章分享給大家 https://www.cnblogs.com/znicy/p/5626040.html

原创 url去重

常見URL過濾方法 1 直接查詢比較 假設要存儲url A,在入庫前首先查詢url庫中是否存在 A,如果存在,則不入庫,否則入庫。 這種方法準確性高,但是一旦數據量變大,佔用的存儲空間也變大,同時,由於要查庫,數據一多,查詢時間變長,

原创 npm/cnpm 淘寶鏡像

npm 1.臨時使用 npm --registry https://registry.npm.taobao.org install express 2.持久使用 npm config set registry https://reg

原创 八仙過海之解決跨域

1.使用jsonp 2.nginx轉發

原创 mitmproxy做代理,實現淘寶登陸

mitmproxy:就是用於 MITM 的 proxy,MITM 即中間人攻擊(Man-in-the-middle attack)。用於中間人攻擊的代理首先會向正常的代理一樣轉發請求,保障服務端與客戶端的通信,其次,會適時的查、記錄其

原创 正則匹配漢字文字

匹配漢字文字: [\u4e00-\u9fa5] 匹配非漢字字符: [^\u4e00-\u9fa5] 匹配雙字節字符(漢字、中文標點符號等): [^\x00-\xff] import re str=''' 漢字文字 1234567890

原创 asdf

asdfasdfasfd

原创 sdfgs

sdfsdfsdf

原创 阿斯頓發

阿斯頓發生多番

原创 hjtg

jhvi

原创 sdf

sdfg