datawhale爬蟲(xpath爬取丁香網評論)

1.xpath基礎學習
前面我們介紹了 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家對 BeautifulSoup 使用不太習慣的話,可以嘗試下 Xpath。
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素,並且 XQuery 和 XPointer 都構建於 XPath 表達之上。
給出相關官方鏈接
http://www.w3school.com.cn/xpath/index.asp

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

xpath基礎學習就到這裏,我們採用實例(丁香網評論爬取來實現功能)
2.丁香網評論爬取(xpath)
給出代碼

import  requests
from lxml import etree
url='http://www.dxy.cn/bbs/thread/626626#626626'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}
x= requests.get(url, headers=headers, timeout=3)
x.encoding=x.apparent_encoding
wb_data=x.text
html = etree.HTML(wb_data)#源碼分析
data=[]
new_data=[]
result_txt = html.xpath('//td[@class="postbody"]/text()')#找到所需要的數據
print(result_txt)
result_name=html.xpath('//div[@class="auth"]/a/text()')
print(result_name)
for i in range(0,4):
    data.append(result_name[i]+"###"+result_txt[i])
for i in data:
    x=i.replace("\n","").replace("\t","").replace(" ","")
    new_data.append(x)
print(new_data)



數據保存如圖
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章