原创 python爬蟲 定位和選擇網頁內容的幾種方式比較 正則表達式\libxml、bs4、lxml和xpath、css選擇器

1. 首先摘抄一下之前的教程內容,確定一下這些概念之間的邏輯關係,如果看過就可以略去     A. 爬蟲定位網頁信息的步方法分爲兩種:匹配文本、建樹搜索;下面我們按照這兩類方  法,具體介紹一下各個工具: 兩類工具 第一類:匹配文本

原创 爬蟲系列教程零:怎麼學習爬蟲

我接觸爬蟲已經快兩年了,但是一直沒有寫下一個系統的爬蟲的筆記,最近在上web搜索的課程,又一次用到了爬蟲,所以寫下這系列文章。我寫這個系列的目的主要是鞏固自己的知識,梳理知識的體系,所以思路上的內容比較多,有時間也會補一些代碼進行

原创 爬蟲系列教程三:requests詳解

前言: 我從這部分內容開始逐步根據官方文檔介紹教程二中提到的一些庫; 爬蟲的基礎是與網頁建立聯繫,而我們可以通過get和post兩種方式來建立連接,而我們可以通過引入urllib庫[在python3的環境下導入的是urllib;

原创 爬蟲系列教程一:學習爬蟲前需要看的基本術語和知識

在學習定位網頁信息的之前,我們首先需要了解一下各個術語(這部分有很多是網頁的知識,寫爬蟲需要對網頁有較爲深刻的認識,所以我羅列了很多知識點,掛一漏萬,歡迎大家補充;當然急着寫爬蟲的讀者可以略去不讀,日後回看): SGML/HTM

原创 爬蟲系列教程二:如何獲取網頁信息並定位信息所處位置

在爬蟲中如何獲取並定位網頁的信息 由於我們獲取網頁的類型的不同,我們希望爬取的信息的定位方法也有很大差別,但總體來說我們想要爬取的網頁可以分爲靜態和動態,下面講述在不同的情況下如何爬取這些信息; 網頁的不同類型 根據獲取網頁的方

原创 C++的學習筆記

寫在前面:計算機語言學習過程規劃:1.通讀相關入門書籍;2.細讀一本經典教材,總結:語法,實際應用,易錯點(知識點);3.學會編程:代碼的規範性,代碼的健壯性,代碼的優雅性;4.繼續深入鑽研,保持學習的狀態,主要學習優秀的思路,以及新鮮的