原创 第五章 正則:通喫一切字符串處理

簡介 正則表達式,又稱規則表達式,通常被用來檢索、替換那些符合某個模式(規則)的文本。 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來

原创 win10 tensorflow2.2 安裝踩坑總結

學習新技術有兩座大山,一座是配置環境,另一座是調試bug 最近想了解一下新版的tensorflow,於是乎就打算配置一下環境跑幾個模型玩玩,誰知道竟然是這麼坎坷。 安裝tensorflow2.2 版本 cpu和gpu版的時候 直

原创 第十二章 Scrapy中間件與圖片管道

簡介 中間件是Scrapy裏面的一個核心概念。使用中間件可以在爬蟲的請求發起之前或者請求返回之後對數據進行定製化修改,從而開發出適應不同情況的爬蟲。 在Scrapy中有兩種中間件:下載器中間件(Downloader Middle

原创 第九章 爬蟲基礎總結

前八章是把爬蟲的一些基礎知識過了一邊,但是內容也很有限。這些搞定了,應該自己玩玩應該夠了,或者當個實習生也差不多。 前八章的主要思路就是: 先認知爬蟲這門技術,瞭解作用流程(任何技術最開始都不需要深扣細節,先從宏觀上進行把握)

原创 第十一章 Scrapy入門:多線程+異步

簡介 Scrapy 框架 Scrapy是用純Python實現一個爲了爬取網站數據、提取結構性數據而編寫的應用框架。 用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片。 (提高請求效率) Sc

原创 第七章 抓包工具fiddler的使用:曲線救國

簡介 Fiddler是什麼? 1.一種Web調試工具。 2.可以記錄所有客戶端和服務器的http和https請求。 3.允許監視、設置斷點、修改輸入輸出數據。 官方文檔:http://docs.telerik.com/fiddl

原创 第八章 網易神器airtest:app版的selenium

簡介 想開發網頁爬蟲,發現被反爬了?想對 App 抓包,發現數據被加密了?不要擔心,使用 Airtest 開發 App 爬蟲,只要人眼能看到,你就能抓到,最快只需要2分鐘,兼容 Unity3D、Cocos2dx-*、Androi

原创 第十章 aiohttp:加速加速

簡介 asyncio實現了TCP、UDP、SSL等協議,aiohttp則是基於asyncio實現的異步請求HTTP框架。可以用於爬蟲三部曲的第一步,替換之前的requests請求,進行請求加速,後邊解析存儲還是不變。 中文文檔地

原创 第六章 selenium自動化測試工具:天下工具爲我所用

簡介 Selenium是一個Web的自動化測試工具,類型像我們玩遊戲用的按鍵精靈,它支持所有主流的瀏覽器(包括PhantomJS這些無界面的瀏覽器)。 Selenium 可以根據我們的指令,讓瀏覽器自動加載頁面,獲取需要的數據,

原创 第四章 bs4與css選擇器

簡介 BeautifulSoup 是一個HTML/XML的解析器,主要用於解析和提取HTML/XML 數據。 它基於HTML DOM的,會載入整個文檔,解析整個DOM樹,因此時間和內存開銷都會大很多,所以性能要低於lxml。

原创 第三章 lxml與xpath:體力活

環境 Python 3.6.5 Pycharm Professional 2017.1 需要預備的知識 第二章內容 簡介 當你通過一些模擬請求手段,並且有幸突破了反爬,拿到了包含正確數據的請求結果,而且結果的格式是html,那麼

原创 第五章 正則:通吃一切字符串處理

簡介 正則表達式,又稱規則表達式,通常被用來檢索、替換那些符合某個模式(規則)的文本。 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來

原创 第二章 Requests庫的使用:變相的cc攻擊

環境 Python 3.6.5 Pycharm Professional 2017.1 需要預備的知識 python基礎語法 瞭解基礎的web網頁結構知識 瞭解http協議 熟悉瀏覽器開發者工具使用 爬蟲所需的基礎的web網頁結

原创 python入門的一些基礎練習題

編寫一個程序,查找在2000到3200之間所有可以被7整除但不是5的倍數的數字。所獲得的數字應以逗號分隔的順序打印在一行上。 有1、2、3、4個數字,能組成多少個互不相同且無重複數字的三位數?都是多少? 一個整數,它加

原创 python如何自學 python學習方向與路線

python如何自學 python學習方向與路線 分情況討論 如果是985,211大佬或者搞過其他語言的(學過HTML的不算!),不需要學,一看就會。 完全沒接觸過編程的話,那就是另外一回事了。 自學的話,目的不一樣難度等級也相