之前以爲了解python就可以直接爬網站了,原來還要了解HTML,XML的基本協議,在瞭解基礎以後,在瞭解下xpath的基礎上,再使用正則表達式(python下的re包提供支持)提取一定格式的信息(比如說url),就比較容易處理網頁了。
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一個接口。
幾個簡單的例子:
/html/head/title: 選擇HTML文檔<head>元素下面的<title> 標籤。
/html/head/title/text(): 選擇前面提到的<title> 元素下面的文本內容
//td: 選擇所有 <td> 元素
//div[@class="mine"]: 選擇所有包含 class="mine" 屬性的div 標籤元素
基本的路徑意義:
表達式 | 描述 |
---|---|
nodename | 選取此節點的所有子節點。 |
/ | 從根節點選取。 |
// | 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 |
. | 選取當前節點。 |
.. | 選取當前節點的父節點。 |
@ | 選取屬性。 |