網絡爬蟲（六）

原創

2019-05-12 14:31

xpath解析原理

實例化etree對象，將頁面源碼傳給該對象。
用生成的etree對象，調用xpath方法和xpath表達式進行定位、獲取數據。

環境安裝

pip install lxml

基本用法

from lxml import etree

將本地文本傳給etree對象：etree.parse(filepath)
將頁面源碼傳給etree對象：etree.parse(page-text)
表達式用法：etree-obje.xpaht('xpath表達式‘），xpath表達式是解析的重點,先上代碼。

from lxml import etree
......……
tree=etree.parse('test.html')
r=tree.xpath('/html/head/title') #取得title元素對象。

xpath表達式

/：爲分隔符，意義是第一個“/”爲根節點，其他的“/”表示一個層級。
//:表示多個層級，如tree.xpath('//titlt'),tree.xpath('/html//title').
屬性定位：如tree.xpath('//div[@class="classname"] ')
索引定位：如tree.xpath('//div[@class="classname"] /p[3]'),注意索引是從１開始的。
取文本：/text()取直系文本。如tree.xpath('//div[@class="classname"]/text() ')
//text()取標籤下全部文本，如tree.xpath('//div[@class="classname"]//text() ')
取屬性：/@tattrName,如tree.xpath('//div[@class="classname"]//a/@href ')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python15行代碼實現免費發送手機短信，推送消息

實現的功能：通過代碼定時給手機推送短信，短信內容可以自定義文字，當然你也可以去別的網站爬取每日心靈雞湯，天氣預報或其它信息進行推送。關於爬取數據可以參考：Python40行代碼實現天氣預報和每日雞湯推送本文主要講如何實現發送短

小清华的小哥哥

2020-07-07 23:16:08

解決報錯Process finished with exit code -1073741571 (0xC00000FD),修改棧大小

運行程序時程序意外終止，並返回提示： Process finished with exit code -1073741571 (0xC00000FD) 導致的原因是StackOverflow（棧區溢出）在一般情況下，　不同平臺默

小清华的小哥哥

2020-07-07 23:16:08

Python繪製一箭穿雙心動畫代碼

老規矩，先上運行效果，gif動圖：代碼超簡單，直接調用turtle庫中的各種畫圖函數： # 一箭穿心動畫代碼 import time import turtle # 需安裝turtle庫 turtle.color('bla

小清华的小哥哥

2020-07-07 23:15:57

Jupyter Notebook的初始路徑設置

第一種方法就是直接設置快捷方式的起始位置，找到Jupyter Notebook的快捷方式。直接右鍵Jupyter Notebook的屬性找到起始位置這個選項，修改成你想要的路徑，例如：G：\pythoncode 第二種方法找

2020-07-06 16:32:43

linux查看cpu、內存消耗

linux查看cpu、內存消耗CPU佔用最多的前3個進程：內存消耗最多的前3個進程： CPU佔用最多的前3個進程：按cpu佔用排序 // CPU佔用最多的前3個進程 ps auxw|head -1;ps auxw|sort -r

诗人的情人

2020-07-02 23:18:57

python來進行社團劃分

利用python來進行社團劃分，使用的是社團劃分裏面的GN算法。程序代碼如下 # -*- coding: utf-8 -*- """ Created on Sat Sep 14 18:01:27 2019 @author: A

2020-06-30 02:54:19

python求解接近中心性

求解網絡科學裏面的接近中心性 import matplotlib.pyplot as plt import networkx as nx import operator def get_closeness_centrality(

2020-06-30 02:54:19

python求度分佈的程序

使用python求度分佈的程序 # -*- coding: utf-8 -*- """ Created on Sun Jun 16 20:13:42 2019 @author: Administrator """ """ 這

2020-06-30 02:54:19

python的本地包下載地址

python的本地包下載地址 python本地包下載地址

2020-06-30 02:54:19

使用python來構造有向隨機網絡

使用python來構造有向隨機網絡 # -*- coding: utf-8 -*- """ @author: Administrator """ """ 隨機網絡是由一些節點通過隨機連接而組成的一種複雜網絡。隨機網絡有兩種

2020-06-30 02:54:19

python3實現查詢mysql生成excel並下載

#******************************接口調用部分************************************* def post(self, *args): sql = "select * fr

风儿吹花儿美

2020-06-22 20:33:22

Python exec 內置語句

描述exec 執行儲存在字符串或文件中的 Python 語句，相比於 eval，exec可以執行更復雜的 Python 代碼。語法以下是 exec 的語法:exec(object[, globals[, locals]])參數object

2020-06-22 07:57:13

python in實現

>>> from math import sqrt >>> scope={} >>> exec('sqrt=1',scope) >>> sqrt(9) 3.0 >>> scope['sqrt'] 1 >>>

2020-06-22 07:57:13

python中斷言的用法

assert 語句，在需要確保程序中的某個條件一定爲真才能讓程序運行的話就非常有用>>> age = 10>>> assert 0 < age < 10Traceback (most recent call last): File "<

2020-06-22 07:57:13

快速入門（完整）：Python實例100個（基於最新Python3.7版本）+ 源代碼

前言雪花兒要學Python，於是魚丸兒根據另一個CSDN老哥整理的完整版Python經典入門100例，加上了自己之前學習時的源代碼，整理了一下，也方便日後同學們的代碼取用。原文地址：快速入門（完整）：Python實例100個（

Python开发者_Ainley

2020-06-22 05:06:22

24小時熱門文章

最新文章

最新評論文章