python爬蟲筆記02--xpath

原創

2019-03-26 04:42

1、語法

表達式	語法
nodename	選取此節點的所有子節點
/	從根節點選取
//	任意子孫節點，不考慮位置
.	當前節點
. .	當前節點的父節點
@	選取屬性
*	匹配任何節點
contains(@屬性,”包含的內容”)	模糊查詢
text()	取文本內容

2、使用案例

<bookstore>
	<book>
		  <title class="tit alive" lang="eng">Harry Potter</title>
		  <price>29.99</price>
	</book>
	<book>
		  <title class="tit" lang="eng">Learning XML</title>
		  <price>39.95</price>
	</book>
</bookstore>

表達式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。（xpath索引從1開始）
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[position() < 3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名爲 lang 的屬性的 title 元素。
//title[@class=‘tit’]	選取所有class屬性值爲tit的 title 元素，(第一個不會被選中，因爲class值爲“tit alive”)
//title[contains(@class,“tit”)]	選取class屬性值包含“tit”的title元素，兩個title都會被選中
/bookstore/book[price>35.00]	選取 bookstore 元素下的所有 book 元素，且其中的 price 元素的值須大於 35.00。
//title/text()	選取所有title元素的文本內容
//title/@lang	選取所有title元素的lang屬性

3、在python中使用xpath

# 1.導包
from lxml import etree as le
# 2.準備好str類型的文本對象
html = '......'
# 3.把str對象加載成xpath對象
html_x = le.HTML(html)
# 4.使用xpath表達式，ret的結果爲列表
ret = html_x.xpath('xpath表達式')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬取CSDN文章評論

最近在學習Python爬蟲，但沒有什麼完整的學習路線，就通過一些比較簡單的小實例來積累經驗，畢竟是爲了畢設而已。上次爬取了京東的商品評論（京東），這次來試着爬取CSDN的文章評論。以前爬取過CSDN文章的

2020-06-27 07:27:56

Python爬取京東商品評論（二）

上一篇博客中簡單實現了京東商品評論的爬蟲（Python爬取京東商品評論），由於這個爬蟲是我畢設的一部分，所以我需要對這個程序做一些補充，上一篇的程序中有許多不足的地方，下面我逐個解決。 1、首先是評論頁數的

2020-06-27 07:27:46

Python爬取京東商品評論

京東商城的頁面不是靜態頁面，其評論信息存放於json文件中，由ajax控制，所以我們在瀏覽器上看到的網頁源代碼和用Python爬下來的是不一樣的，所以我們真正要爬取的是評論數據所存放的json文件。首先打

2020-06-27 07:27:46

Python爬取豆瓣電影短評

豆瓣是比較難爬取的網站之一，主要因爲豆瓣默認如果不登錄賬號的話只能爬取10頁的評論。所以我就帶着cookie去爬取，而且設置了一個用戶代理池，儘可能的僞裝成瀏覽器。然而當我爬了三四次，一共幾十頁評論之後的第二天，我的豆瓣賬

2020-06-27 07:27:46

Python爬取NBA每日比賽比分

自從學會了爬蟲的基本用法之後，一些網頁上的基本信息都可以很容易的爬取下來。今天練習爬取了騰訊NBA官網上的每日賽程的比分，就是這個：這個網站的信息同樣是存儲在json文件中，在其HTML靜態文件中找不到

2020-06-27 07:27:46

#導出Python爬蟲工程所用的庫

使用cmd進入爬蟲工程所在文件夾，輸入指令 " pip freeze > 指定文件名.txt",按回車鍵即可在文件夾中生成所需庫的txt文件 pip freeze > requirements.text 安裝完之後，以後若需要在服

2020-06-21 09:12:08

Python爬蟲爬取糖堆網指定圖片

import urllib.parse import threading import requests import os # 設置最大線程鎖 thread_lock = threading.BoundedSemaphore(va

2020-06-21 08:31:04

# PyCharm 常用快捷鍵

編輯代碼的時候經常的要換下一行，但是光標沒有在行末，可以用這個命令直接換行：Shift+Enter 行註釋/取消行註釋： Ctrl+/ 塊註釋：Ctrl+Shift+/ 編碼過程中快速複製當前行，大大提升編碼效率：Crtl+D 自動縮進

2020-06-21 08:31:04

# 關於爬蟲常見HTTP基礎原理

請求方法（1）GET和POST請求方法有如下區別： GET請求中的參數包含在URL裏面，數據可以在URL中看到。而POST請求的URl不會包含這些數據，數據都是通過表單形式傳輸的，會包含在請求體中； GET請求提交的數據最多隻

2020-06-21 08:31:04

Python 爬取QQ音樂個人單曲排行榜

分析網頁成分，歌曲信息都存在圖中所示xhr中詳細代碼實現如下： import os import threading import jieba import numpy import html import requests i

2020-06-21 08:31:04

# 爬蟲requests的高級操作

requests高級操作目錄 1.cookie的處理 2.代理操作 3.驗證碼識別 4.模擬登陸一、cookie cookie是存儲在客戶端的一組鍵值對 cookie是由服務器端創建 cookie應用的簡單實例：免密登陸

2020-06-21 08:31:04

# scrapy框架基本使用

scrapy框架基本使用創建工程 scrapy startproject proName 進入工程目錄 cd proName 創建爬蟲文件 scrapy genspider spiderName www.xxx.com

2020-06-21 08:31:04

Python爬蟲實戰練習（疫情數據獲取）

一、國內疫情數據的爬取1.1 獲取響應1.2 使用xpath解析數據1.2.1 分析xpath解析的數據1.2.2 再一次分析數據1.3 json轉化xpath數據類型1.4 逐個獲取我們需要的數據，並保存至Excel中1.4.

2020-06-16 12:00:50

Python爬蟲之正則的基礎應用

1. 正則表達式基礎2. 正則表達式實戰2.1 實戰任務2.2 實戰準備2.3 校花網實戰 1. 正則表達式基礎正則基礎入門學習筆記，補充：貪婪模式：.* 非貪婪(惰性)模式：.*? 2. 正則表達式實戰 2.1 實

2020-06-13 23:20:45

Python爬蟲之Urllib的基礎運用

2020-06-02 16:57:02

24小時熱門文章

最新文章

最新評論文章