個人主頁信息提取器

本文共731個字,預計閱讀時間需要3分鐘。

簡介

從研究人員的主頁(HTML)中提取信息,並將信息自動分爲三類(您可以添加更多的類)。支持中英文頁面。

可以分成的類別:

  • publication
  • education
  • honor

詳細

從互聯網文本數據中提取並分類學術行爲的流程如下圖所示,整個過程是線性的。在正式提取學術行爲之前,首先人工標註互聯網中少量的學術行爲,生成訓練集後,採用fastText進行訓練生成模型並保存。
在這裏插入圖片描述
接下來通過Python爬蟲獲取HTML元數據,將HTML數據傳入網頁正文提取算法WNBTE中獲得正文文本,其中正文提取算法通過統計HTML不同標籤中文本字數的比值來判斷正文所在的位置,能夠有效去除冗餘無關的HTML標籤。隨後對正文文本段落進行短語級切分,分詞後傳入fastText神經網絡,利用已經訓練好的數據模型對短語進行分類,打上標籤。

項目結構

  • ff_classifier: 使用fasttext自動訓練和預測學術行爲(訓練時間小於1s)
  • text_toolkit.py: 提取具有一定模式的字符串,如郵箱,手機號,時間等
  • profile_class.py: 研究人員的類
  • html_extract.py: 提取HTML元素
  • demo.py: demo

結果預覽(部分)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章