原创 cookie中的utma,utmb,utmc,utmz

轉載自:http://blog.sina.com.cn/s/blog_546abd9f0101b30g.html     Google Analytics設置了5個不同的cookie,_utma, _utmb, _utmc, _utmz和

原创 爬蟲與反爬之藝龍反爬(code值的生成,下,算法篇)

開局一張圖,其它全靠編。 這裏可以看到此abcdefg方法總共有四步構成,1:判斷參數dynamicScrip是否爲空,2使用hijklmn方法處理字符串dynamicScrip(hijklmn方法下面就有,可以使用拿來原則),3.ev

原创 爬蟲與反爬之藝龍反爬(code值的生成,上,參數篇)

最近發現該網站的code值生成方式是改了又改(一週一改?簡直是爬蟲勸退),難道是因爲網絡上的爬蟲請求量增大了還是怎麼回事!! 本文只提供學術研究。 肉文來了:         此處針對詳情頁來研究,     通過debug可已找生成co

原创 由python實現的單向鏈表來看python的基礎概念(賦值,垃圾回收)

之前只是對了解一些基礎算法的概念,而並沒有真正用代碼取去實現過,所以準備在這段時間內把這些算法實現以下,第一個是單向鏈表,然而通過一個鏈表又讓我想到了python的其它東西(相輔相成)。注:這裏就不談鏈表的概念了,只是說一說隨着我腦洞大開

原创 JS加解密,python 實現,滿滿的都是幹活(乾貨)

之所以寫這篇文章是因爲之前在做一些爬蟲項目的時候遇到在url或者header頭中的加密參數,每次請求都需要變換,如果用chromdriver來解析的話耗費資源比較高,且耗時長,而剛接觸 js 逆向的時候真的是頭皮發麻,另外這裏不談哪個網站

原创 利用Python多線程限制 http 真實請求時間或限制函數最大執行時間的裝飾器

  這段時間在製作一個爬蟲的時候發現了一個比較神奇的事情 python requests 包發起請求的時候設置 timeout 參數 竟然不起作用? what 你要弄啥幺蛾子嘞,  後來各種找原因終於在別人的提醒下又看了下 request

原创 密碼傳紙條算法訓練 -- python 實現

今天幫朋友解了一個很有意思的問題 -- 傳紙條,(要求用python實現)題目如下: 李雷和韓梅梅坐前後排,上課想說話怕被老師發現,所以改爲傳小紙條。爲了不被老師發現他們紙條上說的是啥,他們約定了如下方法傳遞信息: 將26個英文字母(全爲

原创 通過Python利用ADSL服務器和tinyproxy構建數據自己的動態代理IP池,用django+redis做web服務 (優化版)

代理池初始版:https://blog.csdn.net/MeteorCountry/article/details/82085238 上一篇文章中所搭建的代理池在使用過程中出現了點小問題,代理池中莫名的多出了一些無效代理,檢查日誌後返現