Python爬蟲——bs4、xpath基本語法

原創

王里木目心

2020-07-02 20:11

數據解析原理

標籤定位
提取標籤、標籤屬性中存儲的數據值

bs4數據解析的原理：

實例化一個BeautifulSoup對象，並且將頁面源碼數據加載到該對象中
通過調用BeautifulSoup對象中相關的屬性或者方法進行標籤定位和數據提取

環境安裝：

pip install bs4
pip install lxml

如何實例化BeautifulSoup對象：

from bs4 import BeautifulSoup

1.將本地的html文檔中的數據加載到該對象中

fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')

2.將互聯網上獲取的頁面源碼加載到該對象中

page_text = response.text
soup = BeatifulSoup(page_text,'lxml')

提供的用於數據解析的方法和屬性：

soup.tagName:返回的是文檔中第一次出現的tagName對應的標籤
soup.find():

find(‘tagName’):等同於soup.div
屬性定位
soup.find(‘div’,class_/id/attr=‘song’)
soup.find_all(‘tagName’):返回符合要求的所有標籤（列表）
select：
select(‘某種選擇器（id，class，標籤…選擇器）’),返回的是一個列表。
層級選擇器：
soup.select(’.tang > ul > li > a’)：>表示的是一個層級
oup.select(’.tang > ul a’)：空格表示的多個層級
獲取標籤之間的文本數據：
soup.a.text/string/get_text()
text/get_text():可以獲取某一個標籤中所有的文本內容
string：只可以獲取該標籤下面直系的文本內容
獲取標籤中屬性值：
soup.a[‘href’]

xpath解析：最常用且最便捷高效的一種解析方式。

xpath解析原理：

實例化一個etree的對象，且需要將被解析的頁面源碼數據加載到該對象中。
調用etree對象中的xpath方法結合着xpath表達式實現標籤的定位和內容的捕獲。

環境的安裝：

 pip install lxml

如何實例化一個etree對象:

from lxml import etree

將本地的html文檔中的源碼數據加載到etree對象中：

etree.parse(filePath)

可以將從互聯網上獲取的源碼數據加載到該對象中

  etree.HTML('page_text')

xpath用法:

/:表示的是從根節點開始定位。表示的是一個層級。
//:表示的是多個層級。可以表示從任意位置開始定位。
屬性定位：//div[@class=‘song’] tag[@attrName=“attrValue”]
索引定位：//div[@class=“song”]/p[3] 索引是從1開始的。
取文本：
/text() 獲取的是標籤中直系的文本內容
//text() 標籤中非直系的文本內容（所有的文本內容）
取屬性：
/@attrName

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python爬蟲】基本原理和框架

開發者工具介紹參考：https://blog.csdn.net/m0_37724356/article/details/79884006 右擊網頁-檢查，或者F12，打開網頁開發者工具 get方式將請求的參數包含在url裏面

2020-07-08 10:40:50

【Python 爬蟲】使用友盟API獲取數據

一、需求每天需要從友盟網站獲取若干應用如下信息二、實現-分解 1）獲取api祕鑰 #獲取api祕鑰 def authorize(user, pasw): url = 'http://api.umeng.com/aut

2020-07-08 10:40:48

【Python 爬蟲】使用新榜API獲取數據

一、需求每日獲取新榜網站收藏的微信公衆號對應的【點贊數、排名、頭條閱讀數】二、實現-分解 1）獲取新榜api 打開並登錄新榜網站-數據服務-數據API 點擊試用即可，到達控制檯，你的賬號就獲得API密鑰，以及2000unit額

2020-07-08 10:40:48

Python爬蟲精簡步驟 HTML基礎（上）

開門見山，HTML的學習可分爲三個層次。讀懂，修改，編寫。讀懂：只有讀懂了HTML，才能看得懂網頁結構，纔有可能運用Python的其他模塊去解析數據和提取數據。想寫爬蟲程序一定要先學好HTML基礎。修改：在讀懂HTML文檔的

2020-07-07 11:50:32

一個簡單的校園網登錄程序 || 爬蟲+tkinter

僅用於登錄中國礦業大學校園網可以自動記錄用戶名和密碼,省去二次填寫的麻煩效果代碼 import tkinter as tk import requests import re import tkinte

2020-07-07 06:57:17

Java知識點——Stream流

Stream 1. Stream流 1.1. Stream流引入 Stream流完全不是I/O流，按照流水線處理方式來考慮代碼中的思想。 JDK1.8 之後，我們擁有了Lambda表達式，讓代碼的中心偏向解決實際問題，直到重點

青柠小鱼码字猴

2020-07-08 03:45:43

freemarker導出word文檔，word文檔中的xml解析

段落字體： <w:t>：字符串，文字內容，如： <w:t>這是文字</w:t> 如： <w:t xml:space="preserve"> </w:t> <#-- xml:space="preserve"從字面上理解

2020-07-07 18:09:04

格式化輸入輸出處理16進制的問題

編程學習，代碼現行。所以先來分析一段代碼： #include<stdio.h> long long a,b; int main() { while(scanf("%llx%llx",&a,&b)!=EOF) {

Wildcatastrophe

2020-07-07 13:16:39

HDU 1569 find the safest road

這道題用Floyd和dijkstra均可以解出。將各條路徑的成績值維護一下即可，也可以對各條路上的權值取對數，這樣所有的路都變成了負值。找乘積的最大值，也就是找負值的最大值即可，貼出第一種方法的AC代碼： #include<i

Wildcatastrophe

2020-07-07 13:16:38

模擬電路全系列複習題惡補知識點

@Author: cpu_code @Date: 2020-06-21 23:49:08 @LastEditTime: 2020-06-25 13:52:29 @FilePath: \md\模電\模電覆習題.md @Gitee

2020-07-07 08:09:56

面試問題1.0

SpringMVC的執行過程 1、用戶發送請求至前端控制器DispatcherServlet。 2、 DispatcherServlet收到請求調用HandlerMapping處理器映射器。 3、處理器映射器找到具體的處理器(

2020-07-07 01:13:02

mysql四種事務隔離級別（整理）

Read Uncommitted（讀取未提交內容）解讀：事務B可以讀取事務A 未提交內容。結果：導致髒讀舉例：事務A開啓事務： set SESSION TRANSACTION ISOLATION LEVEL read UNCO

2020-07-06 16:45:44

MySql,Oracle,SqlServer的獲取鏈接

/** * 連接超時時間，使用配置，默認30s */ private int connectTimeout = 30000; /** * socket超時時間，使用配置，默認30s */ private int socketT

2020-07-06 16:45:44

lambda表達式（二）集合操作

目錄案列一、數組排序：數組批量設值：案例二、集合操作（List）初始化一個集合過濾排序： Map映射： Match匹配： Count計數： Reduce約束：方案一：使用collect方法方案二：方案三：變成數組方案

2020-07-06 16:45:44

使用Kettle編寫抽取數據

目錄環境工程搭建引入kettle的jar包引入輔助包 3. 添加mysql連接jar包 4. 添加lombok包創建數據庫和表代碼分析初始話kettle環境定義數據庫信息 3. mysql處理 4. 生成表

2020-07-06 16:45:44

24小時熱門文章

最新文章

最新評論文章