原创 Python爬蟲學習記錄——9.爬蟲工程化及Scrapy框架初窺

文章目錄Python適合做爬蟲的原因爬蟲的知識體系Scrapy框架簡介Scrapy的工作流程 Python適合做爬蟲的原因 語言本身簡單,適合敏捷開發 有比較完善的工具鏈 足夠靈活,以應對各種突然狀況 爬蟲的知識體系 前端相

原创 Python爬蟲學習記錄——11.Scrapy選擇器的用法

文章目錄四大選擇器CSS選擇器Xpath選擇器正則表達式pyquery選擇器 四大選擇器 當我們抓取網頁時,最常見任務就是從HTML源碼中提取數據,可是怎麼提取數據呢?當然就是用選擇器了. Scrapy 提取數據有自己的一套機制。

原创 Python爬蟲學習記錄——10.Scrapy安裝及基本使用

文章目錄Scrapy的安裝Scrapy爬蟲的使用第一個Scrapy項目Scrapy常用命令行命令Scrapy項目文件的結構及用途 Scrapy的安裝 這裏僅介紹Windows系統下的安裝流程 方法一: 命令行執行pip ins

原创 Python爬蟲學習記錄——8.使用自動化神器Selenium爬取動態網頁

文章目錄Selenium實戰 Selenium 什麼是Selenium Selenium 是一個用於瀏覽器自動化測試的框架,可以用來爬取任何網頁上看到的數據。 Selenium的下載與安裝 安裝:在終端輸入 pip in

原创 Python爬蟲學習記錄——5.使用pandas保存豆瓣短評數據

文章目錄保存數據的方法使用open函數保存數據使用pandas保存數據實戰 保存數據的方法 open函數保存 pandas包保存(重點) csv模塊保存 numpy包保存 使用open函數保存數據 open函數用法 使用

原创 Python爬蟲學習記錄——7.數據入庫之MongoDB

文章目錄MongoDB實戰 MongoDB 什麼是MongoDB MongoDB是一個高性能,開源,無模式的文檔型數據庫 MongoDB 將數據存儲爲一個文檔,數據結構由鍵值(key=>value)對組成 MongoDB相

原创 Python爬蟲學習記錄——6.瀏覽器抓包及headers設置

文章目錄爬蟲的一般思路分析具體網頁請求實戰 爬蟲的一般思路 抓取網頁、分析請求 解析網頁、尋找數據 儲存數據、多頁處理 本節博客主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。 分析具體網頁請求 觀察以下網址翻頁後

原创 Python學習記錄——8.列表生成式,迭代器,生成器,裝飾器

文章目錄1.列表生成式2.迭代器3.生成器4.裝飾器 1.列表生成式 列表生成式即List Comprehensions,是Python內置的非常簡單卻強大的可以用來創建list的生成式。 舉個例子,要生成list [1, 2,

原创 Python學習記錄——3.條件判斷與條件嵌套

文章目錄1.條件判斷2.if嵌套3.如何寫嵌套代碼4.總結5.練習5.1 尋找寶石5.2 美國隊長的工資 1.條件判斷 在Python宇宙,條件判斷語句總共有三種表現形式,先從最簡單的單向判斷:if開始說起: 單向判斷:if

原创 Python學習記錄——12.文件處理

1.文件處理 讀寫文件是最常見的IO操作。Python內置了讀寫文件的函數,用法和C是兼容的。 讀寫文件前,先必須瞭解一下,在磁盤上讀寫文件的功能都是由操作系統提供的,現代操作系統不允許普通的程序直接操作磁盤,所以,讀寫文件就是請

原创 Python學習記錄——1.print()函數與變量

文章目錄1.print()函數2.變量和賦值3.總結4.練習4.1 打印皮卡丘4.2 聽見無臉男的聲音 1.print()函數 示例如下: import time print ('在'+time.strftime("%Y-%m-%

原创 Python爬蟲學習記錄——2.初識Python爬蟲

文章目錄環境搭建創建一個簡單實例爬蟲的步驟 環境搭建 Python版本:Python 3.7 操作系統:Windows 7 IDE:PyCharm 瀏覽器:Google Chrome 創建一個簡單實例 爬蟲的第一步,是需要獲取

原创 Python學習記錄——2.數據類型與轉換

文章目錄1.數據類型2.數據的應用3.數據轉換4.總結5.練習5.1 程序員的一人飲酒醉5.2 非酋的吐槽 1.數據類型 在Python裏,最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float)。 字符

原创 Scala學習記錄——4.Scala中的函數

文章目錄1.函數2.過程3.用空括號定義函數4.使用表達式塊調用函數5.遞歸函數6.嵌套函數7.用命名參數調用函數8.有默認值的參數9.Vararg參數10.參數組11.類型參數12.方法和操作符13.編寫可讀的函數14.練習 1

原创 Python學習記錄——10.面向對象編程

文章目錄1.面向對象前導2.類的創建3.類的繼承4.類屬性與方法 1.面向對象前導 Python從設計之初就已經是一門面向對象的語言,正因爲如此,在Python中創建一個類和對象是很容易的。 接下來先來簡單的瞭解下面向對象的一些基