Python3爬蟲教程:PyQuery詳解!

Python3爬蟲教程:PyQuery詳解!

PyQuery 簡介

PyQuery 用於對 XML 文檔進行操作,比如:查詢 XML 文檔中的某個元素,獲取某個元素的屬性等。它的 API 和前端著名框架 jQuery 相似,名字的由來也是基於此。(官方介紹:pyquery: a jquery-like library for python)

安裝

<pre >$ pip3 install pyquery

</pre>

加載 XML 文檔

pyquery 提供了三種 XML 加載方式:

從字符串中加載;
從 url 加載;
從文件加載;
這裏,我們一般使用 Requests 獲取網絡資源數據,接着,使用 pyquery 從字符串中加載數據。

這樣做的理由是,Requests 作爲一個專門的網絡庫,有較強的定製能力。

簡單看下示例代碼:

Python3爬蟲教程:PyQuery詳解!

查詢元素
Python3爬蟲教程:PyQuery詳解!

查詢元素的核心點是 CSS 選擇器(CSS Selector),大家可以通過搜索引擎查找相關資料。

Tip

PyQuery 支持手動選擇解析器(parser),如下:

<pre >pq('<html><body><p>toto</p></body></html>', parser='xml')

</pre>

parse 的取值是:

xml
html
html5
soup
html_fragments
默認使用的是 lxml 的 xml 解析器,一般不需要手動選擇。這裏只是作爲一個小知識點提及。

結語

最後,如果你跟我一樣都喜歡python,想成爲一名優秀的程序員,也在學習python的道路上奔跑,歡迎你加入python qun:839383765 每天都會分享最新業內資料,分享python免費課程,共同交流學習,讓學習變(編)成(程)一種習慣!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章