原创 反爬之字體圖片反爬

在前端中,字體圖標具有 輕量,靈活,兼容性好等優點,但是沒想到有公司拿他做反爬手段。例如抖音。 下面看下他怎麼做的。 我們直接打開頁面,在我劃箭頭的數字地方,抖音都應用了字體圖標反爬。 接下來打開調試控制檯,找到相應的css。

原创 opencv截幀後獲取圖片流

使用opencv截幀後。 拿到ndarray的frame對象直接frame.tobytes()是不行的,直接寫入文件或上傳到其它地方打不開。需要賦予原始frame一種格式才行。 # frame 是ndarray對象,這裏是把原始n

原创 doc批量轉成docx(doc batch convert docx)

隨便新建個word打開. 使用Alt+F11打開內置vba 點擊上方插入—> 模塊 在新窗口中粘貼複製如下代碼 Sub ConvertDocToDocx() 'Updated by ExtendOffice 2018112

原创 逆向js之解析響應加密信息

       前些時候,看到有人在羣裏發了一個網站,說是返回的data參數是加密信息, 無法解析data保存相關信息。 想到好久沒寫文章了,於是乎就去看了一下, 準備那這個當素材。        首先打開網站是這樣的(網站地址: ht

原创 爬蟲應對反爬之css反爬

最近看到一個網站有css反爬,感覺比較有意思,這裏就順手破解一下,純做技術分享 首先打開它的站點,感覺是個很low又沒有任何反爬的站點,它長這樣: 很單純的列表頁,此頁面無任何反爬,直接分析拿到詳情頁的地址即可。有意思的來了… 任意

原创 html文本保存爲chm文檔,並建立索引

上節講解了如何抓取微信公衆號文章,這節就來搞搞怎樣保存,方便自己以後查閱。 這裏我選擇了chm。 有三個原因:     1.chm可以建立索引,查閱文章比較方便     2. chm暫時沒發現有啥存儲問題,例如圖片不顯示     3.

原创 Python爬取微信公衆號文章

本篇文章使用到的技術: mitmdump + 電腦版微信     首先來說下需求,需求很簡單(-_-!!), 就是爬指定微信公衆號的所有文章並保存爲pdf。     看到這個需求的時候正好我用電腦登陸着微信,就想着先用電腦抓一下包看可

原创 美拍小視頻爬取

分享一下逆向js的經驗 進入美拍任意一個視頻頁面,通過F12控制檯 通過點擊順序到js中,全局搜索mp4,可以找到一下代碼 這裏發現比較可疑,打個斷點,重新刷新頁面,斷點到此處,然後點擊下一步 斷點來到6114行,把鼠標放到

原创 airflow 修改中國時區(改airflow源碼)

airflow默認使用utc時間,在中國時區需要用+8小時就是本地時間, 下面把airflow全面修改爲中國時區,帶大家改airflow源碼 博主使用airflow版本是1.10.0,其它版本大同小異,參照修改即可 1. 先講使用

原创 針對文章內容進行去重

  最近公司項目抓取新聞板塊內容,但是多個網站之間,重複新聞的概率很高(因爲大多數新聞網站的內容都是互相爬取的),所以我自己想了一個針對內容的去重方法。   大概思路是: 取文章當中最長的3句話(當然這個值可以自己隨意指定),默認只

原创 pandas處理mongodb數據

使用pandas處理mongodb數據,轉儲爲csv import pymongo import pandas as pd client = pymongo.MongoClient('192.168.116.215') cur = cl

原创 windows部署SpiderKeeper(爬蟲監控)

博主部署SpiderKeeper環境是windows, 相信用Linux的同學部署起來也沒有任何問題. 第一步:   mkvirtualenv 創建虛擬環境   Linux虛擬環境配置   Windows虛擬環境配置 第二步: w

原创 爬蟲常用的小工具(谷歌插件)

爲了方便爬蟲代碼的快速編寫,及業務功能實現,現分享三個我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY裏可直接寫XPATH規則,定位到的數據會直接在右邊的黑框框裏顯示出來,非常直觀。 2.

原创 navicat11破解工具PatchNavicat

此破解工具不能破解navicat 12版本,navicat11可以破解。 百度雲地址:https://pan.baidu.com/s/1qZMxDBe 密碼:65by 如失效,請在下方評論,我看到會更新鏈接。

原创 安裝Twisted報錯:Microsoft Visual C++ 14.0 is required

安裝Twisted報錯如下: 解決方法:   1.進入http://landinghub.visualstudio.com/visual-cpp-build-tools頁面    2.點擊下載即可   3.一路n