newspaper爬蟲在python3.7的一些問題

newspaper框架是python的新聞爬蟲框架,這個框架我個人感覺是python爬蟲框架中製作難度最低的,它就是根據新聞網頁多數關鍵詞固定進行抓取,比如作者一般都用authors,標題都用title等,它是利用這些詞固定進行新聞抓取。
我在使用過程中主要有2個問題
1。python3.7版本和newspaper.build()這個方法兼容性不太好,會出現運行卡住不輸出的問題

import newspaper

sina=newspaper.build("https://news.sina.com.cn/gov/xlxw/2020-02-07/doc-iimxxste9531083.shtml")
sina.download()
print(sina.title)
print(sina.text[:150])
print(sina.doc)
print(sina.authors)
print(sina.html)

代碼很簡單,但是python3.7版本使用會卡住不運行,這個問題大家可以直接修改源代碼解決或者使用newspaper.Article代替build,反正效果是一樣的

第二個問題是有的時候抓取無結果

import newspaper

sina=newspaper.Article("https://news.sina.com.cn/gov/xlxw/2020-02-07/doc-iimxxste9531083.shtml")
sina.download()
print(sina.title)
print(sina.text[:150])
print(sina.doc)
print(sina.authors)
print(sina.html)

在這裏插入圖片描述
我們只抓取到了html,別的什麼都沒抓取到,這種情況很簡單,網頁的規則和newspaper框架抓取規則不相同唄,解決方案的話,建議不使用newspaper框架或者修改下newspaper的抓取詞,這個操作的話就要研究下源代碼了,不過實話說1,newspaper的源代碼並不複雜,2,與其研究源代碼還不如自己專門寫一個快

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章