原创 離散數學——FIRST集,FOLLOW集和SELECT集的通俗求法

離散數學——FIRST集,FOLLOW集和SELECT集的通俗求法 FIRST集合 添加終結符以及空字 若X∈ε,則ε∈FIRST(X) 若X=a…,若a∈VT,則a∈FIRST(X); 添加非終結符——後加前,first集

原创 編譯原理之確定有限自動機的最小化

最小化確定有限自動機 最小化下圖的有限自動機DFA。 概念補充(不懂沒關係,直接示範) DFA化簡定義:找一個狀態數比原來得確定有限自動機狀態數少得確定有限自動機,但是表示得語言和原來的確定有限自動機相同 狀態等價: 狀態s

原创 python爬蟲之scrapy框架(對比之下,一切通俗易懂)

python爬蟲之scrapy框架(對比之下,一切通俗易懂) 首先回顧一下常見的爬蟲的路線方法 首先,調用requests庫,根據url網址,獲取對應的網頁的html信息 然後,對爬取回來的html信息進行信息的搜索和採集 最後

原创 python爬蟲之Scrapy爬取股票信息的示例

python爬蟲之Scrapy的使用步驟 首先講講教程的例子,還是以百度股票爲例子進行講解 Scrapy的使用步驟 建立工程和Spider模版 編寫Spider 編寫ITEM Pipelines 前請回顧 首先回顧一下爬

原创 編譯原理之將正則表達式變爲有窮自動機

編譯原理之將正則表達式變爲有窮自動機 從正則表達式變爲NFA 首先先看看簡單的基本的正則表達式是如何對應的相關的NFA的 字母表中的符號a對應的NFA r = r1r2對應的NFA r = r1|r2對應的NF

原创 python爬蟲之股票數據定向爬取

python爬蟲之股票數據定向爬取 功能描述 目標:獲取上交所和深交所所有股票的名稱和交易的信息 輸出:保存到文件中 技術路線:requests-bs4-re 前期分析 選取原則:股票的信息靜態存在HTML頁面中,非js代碼

原创 python爬蟲實例之慢速VOA網站的文章爬取(第二次實戰,還是有意義的)

python爬蟲實例之慢速VOA網站的文章爬取 程序的需求分析 爬取前兩頁所有文章的名字 將文章的名字按照需要輸出在控制檯 同時將每一篇文章保存在對應的以文章名爲題的文檔中 前期分析 首先來看看你的網頁的概況,網址是:ht

原创 計算機網絡之HTTP報文

計算機網絡之HTTP報文 HTTP請求報文——來自用戶一封簡訊 請求報文是由客戶向服務器發送的,請求的服務器服務的。既然是請求的短信,那就一定包含一些基本的信息 GET /somedir/page.html HTTP/1.1

原创 python爬蟲實戰之圖靈社區圖書信息的爬取(找了久,才找到一個比較好爬取的網站)

python爬蟲實戰之圖靈社區圖書信息的爬取 程序的描述 目標 獲取圖靈社區(https://www.ituring.com.cn/book)中40本圖書的書名 將獲取的信息以列表的形式輸出到屏幕上,並加上相關的序號 描述

原创 python爬蟲實例之淘寶商品比價定向爬取(雖然網站已經改變,不能爬取,但是,我還是分析了一下)

python爬蟲實例之淘寶商品比價定向爬取 這次就模仿之前做的總結進行初次嘗試 目標:獲取淘寶搜索頁面的信息,提取其中的商品名稱和價格 理解: 獲取淘寶的搜索接口 淘寶頁面的翻頁處理 技術路線:requests——re

原创 python爬蟲之正則表達式和re庫的使用(如果我都懂了,那你看這個也一定可以懂)

python爬蟲之正則表達式和re庫的使用 正則表達式 啥是正則表達式 用來簡潔表達一組字符串的表達式,簡而言之就是找字符串的規律,用簡短的表達式來替代字符串 正則表達式 = 具有相應特徵的字符串 如下圖,顯而易見的

原创 第一個爬蟲程序之定向爬取中國大學排名(收穫良多,不僅僅是寫個程序,更是編程的步驟方法)

第一個爬蟲程序之定向爬取中國大學排名(收穫良多,不僅僅是寫個程序,更是編程的想法) 名稱:定向爬取——中國大學排名定向爬取 首先,爬之前,看看你要定向爬取的網站和數據是什麼類型的? 打開你要爬取網站,看看信息是否是直接寫在htm

原创 python爬蟲之html界面的信息表達形式(內容豐富,包含信息標記的組織形式,絕對是你聽得懂的)

python爬蟲之網頁信息表達形式 爬到的html頁面中信息那麼多,你又不是那麼專業,怎麼獲取到你想要的信息? 先普及一些關於html頁面中信息的組成,下面是我截取的百度的網頁源碼組成部分,除了url是藍色的,明顯的有三種顏色不

原创 python爬蟲的BeautifulSoup的使用方法(自己精簡的,只留下了實用的)

BeatutifulSoup 先從標籤說起 標籤又叫Tag,是書寫前端網頁的語言標記。下圖是你看到的網頁,背後是無數的標籤構成的,每一個標籤規定不同的屬性,如確定文字大小位置等。 組成:以 < p class = “t

原创 python爬蟲網站接口的使用——將網頁上的輸入內容的接口轉移到對應的爬蟲中(通過爬蟲查詢相關網頁的信息)

python爬蟲網站接口的使用 網站任何輸入的對話框,都對應着相關的接口 找到接口對應的關鍵字,就可以使用爬蟲輸入關鍵字進行操作了 通過ip38網站實現爬蟲查詢ip歸屬地 登陸相關的網址,隨便查詢一個項目,通過網址變化,獲取