Python爬蟲,用第三方庫解決下載網頁中文本的問題

Python爬蟲,用第三方庫解決下載網頁中文本的問題

還在辛辛苦苦的查找網頁規律,寫正則或者其他方式去匹配文本內容嗎?還在糾結怎麼去除小說網站的其他字符嗎?

先來看看下面2張圖,都是某小說網站的小說內容

Python爬蟲,用第三方庫解決下載網頁中文本的問題

Python爬蟲,用第三方庫解決下載網頁中文本的問題

怎麼樣,是不是很簡潔!這就是今天給大家介紹的庫,newspaper庫!

newspaper

python3.x安裝: pip install newspaper3k

python2.7安裝: pip install newspaper

簡單的給大家說說它的功能:

首先是獲取網頁所有url的功能,我們以sina新聞爲例子,寫代碼如下:

python直播學習羣542110741

看,這就把新浪新聞主頁的所有url鏈接抓到了,是不是很快捷!(當然結果還是需要各種篩選)

提取網頁所有文本內容,這次我們隨便找個新聞來試試!

Python爬蟲,用第三方庫解決下載網頁中文本的問題

是不是很方便~!!而且這個對小說網站依然有效(還記得開始的圖嗎?)!!大家可以去試試。

當然,這個庫還有其他很多的功能,這裏就不一一說明了,大家可以自行去摸索哦!

最後

這是一個非常不錯的庫,適合用來寫爬蟲,如有不懂的地方我在評論區等着你,關注一下,與你共享更多有用的知識。大家加油!

參考來源:https://github.com/codelucas/newspaper

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章