一、背景
在輿情繫統中,通常會有一個網絡新聞爬蟲子系統,準實時的採集互聯網上的媒體新聞數據,以供上層聚類事件分析。這類新聞數據的組成元素包括:
- 標題
- 發佈時間
- 來源及其URL鏈接地址
- 正文文本內容
- 正文圖片信息(圖片位置、圖片的URL路徑等)
- 其他
二、libnpce組件
新聞文章正文抽取News Passage Content Extractor (NPCE),是爲抽取HTML中的文章正文而設計的。該組件提供給予so動態鏈接庫的調用接口和給予RESTful服務調用的接口形式。並支持python調用接口。
詳細介紹可參考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/
三、組件演示
打開頁面:
https://gitee.com/inrgihc/libnpce/releases/v1.0
下載httpd_npce_py-v1.0-bin.tar.gz文件,在centos環境下解壓,然後執行:
cd httpd_npce_py/
./startup.sh
命令啓動服務,打開瀏覽器訪問服務器上的服務:http://XXX.XXX.XXX.XXX:7645
在頁面中的URL欄中粘貼一個新聞頁面的URL地址,然後點擊右側的“抽取”按鈕查看效果,我的截圖如下:
抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml
三、性能測試
經本人工作期間,將libnpce與計算所的constor組件(閉源)進行比較測試,性能相當,並應用在公司底層的爬蟲模塊中進行實時正文抽取。