newspaper爬虫在python3.7的一些问题

newspaper框架是python的新闻爬虫框架,这个框架我个人感觉是python爬虫框架中制作难度最低的,它就是根据新闻网页多数关键词固定进行抓取,比如作者一般都用authors,标题都用title等,它是利用这些词固定进行新闻抓取。
我在使用过程中主要有2个问题
1。python3.7版本和newspaper.build()这个方法兼容性不太好,会出现运行卡住不输出的问题

import newspaper

sina=newspaper.build("https://news.sina.com.cn/gov/xlxw/2020-02-07/doc-iimxxste9531083.shtml")
sina.download()
print(sina.title)
print(sina.text[:150])
print(sina.doc)
print(sina.authors)
print(sina.html)

代码很简单,但是python3.7版本使用会卡住不运行,这个问题大家可以直接修改源代码解决或者使用newspaper.Article代替build,反正效果是一样的

第二个问题是有的时候抓取无结果

import newspaper

sina=newspaper.Article("https://news.sina.com.cn/gov/xlxw/2020-02-07/doc-iimxxste9531083.shtml")
sina.download()
print(sina.title)
print(sina.text[:150])
print(sina.doc)
print(sina.authors)
print(sina.html)

在这里插入图片描述
我们只抓取到了html,别的什么都没抓取到,这种情况很简单,网页的规则和newspaper框架抓取规则不相同呗,解决方案的话,建议不使用newspaper框架或者修改下newspaper的抓取词,这个操作的话就要研究下源代码了,不过实话说1,newspaper的源代码并不复杂,2,与其研究源代码还不如自己专门写一个快

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章