1首先需要調用lxml 和lxml.html模塊
2做成doc文件: 兩種方法:doc = lxml.html.fromstring(page) doc=soupparser.fromstring(page)
3解析 首先分清節點。取text例如:直接調用xpath即可:doc.xpath('//books/title/text()')是books節點下的title的文本內容。還有就是取標籤:doc.xpath('//title/@lang')取得title下的屬性爲lang的標籤的內容
4另附xpath基本語法:http://www.w3school.com.cn/xpath/xpath_syntax.asp