原创 必知必會——selenuim/pyppeteer模擬登陸防檢測破解(非js注入那種,js注入現在也不能絕對有效解決)(這個是需要下載的)

前言 對於使用模擬登陸等操作來爬蟲的手段,已經很容易被檢測了,網上很多教程是說在網站所有js代碼執行之前來執行下面幾個js代碼來到達效果: js1 = '''() =>{Object.defineProperties(naviga

原创 一分鐘學會——永久設置pip指定國內鏡像源(含Windows和Linux)

前言 首先來看一下Python臨時指定安裝的鏡像源: 命令格式: sudo pip3 install 包名 -i 鏡像源url eg: sudo pip3 install redis -i http://pypi.douban.

原创 自動掃描當前項目,生成python依賴清單

Python項目生成requirements.txt文件之pipreqs的使用 使用pipreqs,這個工具的好處是可以通過對項目目錄的掃描,發現使用了哪些庫,生成依賴清單。 1、先安裝這個庫: pip install pipre

原创 CSS字體反爬實戰,10分鐘就能學會

前言 本次來解鎖新姿勢——CSS字體反爬。 在解決這個字體反爬的路上,當我以爲解決這個反爬手段的時候, 最後驗證總的答案的時候,被打臉了!!! 又被默默設埋伏了,踩了一個坑,巨大的,爲何悲傷辣麼大 <(-︿-)> 不將html源碼

原创 運維必備:ganglia集羣監控服務端及客戶端配置實戰

0x01、前言 Ganglia是UC Berkeley發起的一個開源集羣監視項目,設計用於測量數以千計的節點。Ganglia的核心包含gmond、gmetad以及一個Web前端。主要是用來監控系統性能,如:cpu 、mem、硬盤

原创 woff字體反爬實戰,10分鐘就能學會

聲明:本帖子僅是用於學習用途,請勿與用於惡意破壞別人網站,本人不承擔法律責任。 來繼續學爬蟲呀! 前言 簡單描述一下這種手段,html源碼的數字跟頁面展示的數字是不一致的!當時就一臉黑人問號,嗯??? 經過分析,當前這種字體反爬機

原创 最詳細nagios配置說明及注意事項

0x00、前言 至於安裝這裏不再講述,直接講述配置出現的小坑、大坑及神坑!!(好了,我也不知道下面提到的算不算神坑) 0x01、依賴環境 先講述一下這裏需要的依賴是:nagios、ganglia、apache、Python2.7(

原创 ubuntu系統下載路徑(可以收藏免得以後再找)

Tips:這裏只是記錄一下找鏡像資源的文檔,嘻嘻(^__^) …… 由於官網服務器在國外,下載速度奇慢,所以我們可以利用阿里雲鏡像下載ubuntu ubuntu 14.04: http://mirrors.aliyun.com/u

原创 從pdf提取圖片,有兩個庫可以提取fitz(要install pymupdf)、pdfminer(install pdfminer3k)

前言:下面的代碼有註釋,下面的也是參考別人的,但是忘記來源了,因爲時間隔太久了,哪位小夥伴看到了,可以提一下鏈接 方法一,這個測試是有用的,fitz(要install pymupdf) #!/usr/bin/python3 # -

原创 常用的Git命令含義,媽媽再也不用操作出錯了!

Git 常用命令如下: git init      在本地新建一個repo,進入一個項目目錄,執行git init,會初始化一個repo,並在當前文件夾下創建一個.git文件夾.   git clone      獲取一個url對應的遠程

原创 安裝坑:elasticsearch-rtf、elasticsearch-head、jdk8以上、nodejs(npm)

下面來講述一下,我在做爬蟲搜索引擎的時候,使用elasticsearch搜索引擎遇到的坑,安裝elasticsearch-rtf、elasticsearch-head,及其啓動遇到的問題,希望能夠幫到你 1. GitHub搜索elasti

原创 python最好用的第三方庫安裝網址

如果你python使用pip安裝庫文件不成功的話,你可以嘗試一下下面的網址。 裏面文件太多,你可以ctrl+f來搜索你需要的文件,謝謝! https://www.lfd.uci.edu/~gohlke/pythonlibs/#genshi

原创 前程無憂51job爬蟲

實習上班第一天就被告知要爬取招聘網站,然後就開始尋找規律,先爬取前程無憂的,請多看看url的變化,有按公司的搜索、有按職位的搜索;頁碼也是有規律的變化 開發環境:python3、pycharm 鏈接: https://pan.baidu.

原创 python爬蟲aiohttp異步請求,高效率

0. 前言 本文翻譯自aiohttp的官方文檔,如有紕漏,歡迎指出。 aiohttp分爲服務器端和客戶端,本文只介紹客戶端。 另外我已經對 aiohttp 和 asyncio進行了封裝,可以參考我的 github 地址: https://

原创 Redis開發與運維(付磊)電子書高清完整帶標籤版

Redis開發與運維(付磊).zip 鏈接: https://pan.baidu.com/s/1LD55_bf-aNjiO8R7V6rkFw 密碼: dwm2