還在辛辛苦苦的查找網頁規律,寫正則或者其他方式去匹配文本內容嗎?還在糾結怎麼去除小說網站的其他字符嗎?
先來看看下面2張圖,都是某小說網站的小說內容
怎麼樣,是不是很簡潔!這就是今天給大家介紹的庫,newspaper庫!
newspaper
python3.x安裝: pip install newspaper3k
python2.7安裝: pip install newspaper
簡單的給大家說說它的功能:
首先是獲取網頁所有url的功能,我們以sina新聞爲例子,寫代碼如下:
看,這就把新浪新聞主頁的所有url鏈接抓到了,是不是很快捷!(當然結果還是需要各種篩選)
提取網頁所有文本內容,這次我們隨便找個新聞來試試!
是不是很方便~!!而且這個對小說網站依然有效(還記得開始的圖嗎?)!!大家可以去試試。
當然,這個庫還有其他很多的功能,這裏就不一一說明了,大家可以自行去摸索哦!
最後
這是一個非常不錯的庫,適合用來寫爬蟲,如有不懂的地方我在評論區等着你,關注一下,與你共享更多有用的知識。大家加油!