一個網站新聞頁通用的正文抽取組件libnpce

原創

2020-02-21 18:21

一、背景

在輿情繫統中，通常會有一個網絡新聞爬蟲子系統，準實時的採集互聯網上的媒體新聞數據，以供上層聚類事件分析。這類新聞數據的組成元素包括：

二、libnpce組件

新聞文章正文抽取News Passage Content Extractor (NPCE)，是爲抽取HTML中的文章正文而設計的。該組件提供給予so動態鏈接庫的調用接口和給予RESTful服務調用的接口形式。並支持python調用接口。

打開頁面：

下載httpd_npce_py-v1.0-bin.tar.gz文件，在centos環境下解壓，然後執行：

cd httpd_npce_py/
./startup.sh

命令啓動服務，打開瀏覽器訪問服務器上的服務：http://XXX.XXX.XXX.XXX:7645

在頁面中的URL欄中粘貼一個新聞頁面的URL地址，然後點擊右側的“抽取”按鈕查看效果，我的截圖如下：

經本人工作期間，將libnpce與計算所的constor組件（閉源）進行比較測試，性能相當，並應用在公司底層的爬蟲模塊中進行實時正文抽取。

發佈了42 篇原創文章 · 獲贊 2 · 訪問量 8萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.