網絡爬蟲筆記--02

原創

2020-04-24 12:33

這是一篇學習筆記，看了一點嵩天教授的Python網絡爬蟲與信息提取課程，又看了datawhale給的代碼例子，把學習要點列在這裏

2.1 Beautiful Soup庫入門

學習beautifulsoup基礎知識。
使用beautifulsoup解析HTML頁面。
- Beautiful Soup 是一個HTML/XML 的解析器，主要用於解析和提取 HTML/XML 數據。
- 它基於HTML DOM 的，會載入整個文檔，解析整個DOM樹，因此時間和內存開銷都會大很多，所以性能要低於lxml。
- BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支持CSS選擇器、Python標準庫中的HTML解析器，也支持 lxml 的 XML解析器。
- 雖然說BeautifulSoup4 簡單容易比較上手，但是匹配效率還是遠遠不如正則以及xpath的，一般不推薦使用，推薦正則的使用。

第一步：pip install beautifulsoup4 ，萬事開頭難，先安裝 beautifulsoup4，安裝成功後就完成了第一步。
第二步：導入from bs4 import BeautifulSoup
第三步：創建 Beautiful Soup對象 soup = BeautifulSoup(html，'html.parser')

2.1.1 Beautiful Soup庫的基本元素

Beautiful Soup庫的理解： Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫，對應一個HTML/XML文檔的全部內容
BeautifulSoup類的基本元素:
- Tag 標籤，最基本的信息組織單元，分別用<>和</>標明開頭和結尾；
- Name 標籤的名字，<p>…</p>的名字是'p'，格式：<tag>.name;
- Attributes 標籤的屬性，字典形式組織，格式：<tag>.attrs;
- NavigableString 標籤內非屬性字符串，<>…</>中字符串，格式：<tag>.string;
- Comment 標籤內字符串的註釋部分，一種特殊的Comment類型;

2.1.2 基於bs4庫的HTML內容遍歷方法

HTML基本格式:<>…</>構成了所屬關係，形成了標籤的樹形結構

標籤樹的下行遍歷
- .contents 子節點的列表，將<tag>所有兒子節點存入列表
- .children 子節點的迭代類型，與.contents類似，用於循環遍歷兒子節點
- .descendants 子孫節點的迭代類型，包含所有子孫節點，用於循環遍歷
標籤樹的上行遍
- .parent 節點的父親標籤
- .parents 節點先輩標籤的迭代類型，用於循環遍歷先輩節點
標籤樹的平行遍歷
- .next_sibling 返回按照HTML文本順序的下一個平行節點標籤
- .previous_sibling 返回按照HTML文本順序的上一個平行節點標籤
- .next_siblings 迭代類型，返回按照HTML文本順序的後續所有平行節點標籤
- .previous_siblings 迭代類型，返回按照HTML文本順序的前續所有平行節點標籤

2.1.3 基於bs4庫的HTML內容的查找方法

<>.find_all(name, attrs, recursive, string, **kwargs)
- 參數：
- ∙ name : 對標籤名稱的檢索字符串
- ∙ attrs: 對標籤屬性值的檢索字符串，可標註屬性檢索
- ∙ recursive: 是否對子孫全部檢索，默認True
- ∙ string: <>…</>中字符串區域的檢索字符串
  - 簡寫：
  - <tag>(..) 等價於 <tag>.find_all(..)
  - soup(..) 等價於 soup.find_all(..)
擴展方法：
- <>.find() 搜索且只返回一個結果，同.find_all()參數
- <>.find_parents() 在先輩節點中搜索，返回列表類型，同.find_all()參數
- <>.find_parent() 在先輩節點中返回一個結果，同.find()參數
- <>.find_next_siblings() 在後續平行節點中搜索，返回列表類型，同.find_all()參數
- <>.find_next_sibling() 在後續平行節點中返回一個結果，同.find()參數
- <>.find_previous_siblings() 在前序平行節點中搜索，返回列表類型，同.find_all()參數
- <>.find_previous_sibling() 在前序平行節點中返回一個結果，同.find()參數

2.1.4 實戰：中國大學排名定向爬取

爬取url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
爬取思路：
1. 從網絡上獲取大學排名網頁內容
2. 提取網頁內容中信息到合適的數據結構（二維數組）-排名，學校名稱，總分
3. 利用數據結構展示並輸出結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyppeteer初次運行需要下載Chrome無法下載或者下載慢的解決方案

目前網上最多的其實都是自己手動下載，這裏說一下最簡單的、最方便的解決方案。這裏進行替換就好了，這裏是不需要修改源碼的。只要在我們引用之前設置下環境變量就好了。 import os DEFAULT_DOWNLOAD_HOST

2020-07-08 05:42:09

爬蟲入門--糗百

文章目錄1.爬蟲基本概念2.Requests 庫基本介紹3.Beautiful Soup 庫介紹本文目標：掌握爬蟲的基本概念 Requests 及 Beautiful Soup 兩個 Python 庫的基本使用通過以上知識完

2020-07-08 05:17:04

爬蟲知識梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

4.8實驗記錄（爬取so問答）

只爬取指定的類的div from bs4 import BeautifulSoup soup=BeautifulSoup(h,'html.parser') a=soup.find_all('div',class_="post-te

2020-07-08 06:12:59

爬蟲MOOC 第二週入門

首先下載Beautiful Soup 4，然後解壓安裝，記得安裝代碼是 python setup.py install 這裏要說明一點！！！很重要，我吃了一個多小時的虧。我把文件命名爲 bs4.py 這時候如果要from bs4 im

2020-07-08 03:09:02

Wireshark抓包工具介紹

在編寫爬蟲抓取app數據的時候，往往需要通過抓包工具對app進行抓包分析，例如：Fiddler、Charles等，但是在偶爾的情況下，你會發現通過這些工具抓包抓取失敗，一啓用抓包工具，就會顯示網絡錯誤。爲什麼會這樣了？我個人

刘延林 | 梦陆

2020-07-08 02:38:37

Python根據地名獲取經緯度

以下是通過訪問高德地圖接口獲取指定地名的經緯度信息代碼： import requests import re import json '''獲取地址座標''' def get_get_location_m(name): url

刘延林 | 梦陆

2020-07-08 02:38:27

【python】解決網頁gb2312編碼中文亂碼問題

在寫爬蟲的時候，有時候會遇到非utf-8的網頁，可能會造成中文亂碼問題，比如說遇到的是gb2312的編碼。直接打印中文就會變成亂碼 1.查看網頁編碼 document.characterSet 2.正確解碼網頁使用的是gb23

冰冷的希望

2020-07-08 01:22:12

Scrapy 架構分析(一)

Scrapy（/ˈskreɪpi/) 是一個Python編寫的開源網絡爬蟲框架。它是一個被設計用於爬取網絡數據、提取結構性數據的程序框架。使用Scrapy框架可以很方便地爬取網站。一、Scrapy入門菜鳥教程Scrapy入門

2020-07-08 00:37:36

菜鳥爬蟲——獲取安居客二手房信息

以安居客二手房爲例前言瞭解爬蟲爬蟲目錄結構爬蟲主體代碼items.py反反爬蟲策略運行爬蟲前言因爲需要一些二手房數據，菜鳥開啓了爬蟲之路！不過需要注意的是，在爬取數據時，要遵守《中華人民共和國網絡安全法》以及《規範互聯網信息服

2020-07-08 00:33:51

24小時熱門文章

最新文章

最新評論文章