一個網站新聞頁通用的正文抽取組件libnpce

一、背景

    在輿情繫統中,通常會有一個網絡新聞爬蟲子系統,準實時的採集互聯網上的媒體新聞數據,以供上層聚類事件分析。這類新聞數據的組成元素包括:

  • 標題
  • 發佈時間
  • 來源及其URL鏈接地址
  • 正文文本內容
  • 正文圖片信息(圖片位置、圖片的URL路徑等)
  • 其他

二、libnpce組件

    新聞文章正文抽取News Passage Content Extractor (NPCE),是爲抽取HTML中的文章正文而設計的。該組件提供給予so動態鏈接庫的調用接口和給予RESTful服務調用的接口形式。並支持python調用接口。

   詳細介紹可參考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

 

三、組件演示

打開頁面:

   https://gitee.com/inrgihc/libnpce/releases/v1.0

下載httpd_npce_py-v1.0-bin.tar.gz文件,在centos環境下解壓,然後執行:

cd httpd_npce_py/
./startup.sh

命令啓動服務,打開瀏覽器訪問服務器上的服務:http://XXX.XXX.XXX.XXX:7645

在頁面中的URL欄中粘貼一個新聞頁面的URL地址,然後點擊右側的“抽取”按鈕查看效果,我的截圖如下:

抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、性能測試

    經本人工作期間,將libnpce與計算所的constor組件(閉源)進行比較測試,性能相當,並應用在公司底層的爬蟲模塊中進行實時正文抽取。

 

 

發佈了42 篇原創文章 · 獲贊 2 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章