本文共731個字,預計閱讀時間需要3分鐘。
簡介
從研究人員的主頁(HTML)中提取信息,並將信息自動分爲三類(您可以添加更多的類)。支持中英文頁面。
可以分成的類別:
- publication
- education
- honor
詳細
從互聯網文本數據中提取並分類學術行爲的流程如下圖所示,整個過程是線性的。在正式提取學術行爲之前,首先人工標註互聯網中少量的學術行爲,生成訓練集後,採用fastText進行訓練生成模型並保存。
接下來通過Python爬蟲獲取HTML元數據,將HTML數據傳入網頁正文提取算法WNBTE中獲得正文文本,其中正文提取算法通過統計HTML不同標籤中文本字數的比值來判斷正文所在的位置,能夠有效去除冗餘無關的HTML標籤。隨後對正文文本段落進行短語級切分,分詞後傳入fastText神經網絡,利用已經訓練好的數據模型對短語進行分類,打上標籤。
項目結構
- ff_classifier: 使用fasttext自動訓練和預測學術行爲(訓練時間小於1s)
- text_toolkit.py: 提取具有一定模式的字符串,如郵箱,手機號,時間等
- profile_class.py: 研究人員的類
- html_extract.py: 提取HTML元素
- demo.py: demo