個人主頁信息提取器

原創

2020-06-28 00:43

本文共731個字，預計閱讀時間需要3分鐘。

簡介

從研究人員的主頁(HTML)中提取信息，並將信息自動分爲三類(您可以添加更多的類)。支持中英文頁面。

可以分成的類別：

publication
education
honor

詳細

從互聯網文本數據中提取並分類學術行爲的流程如下圖所示，整個過程是線性的。在正式提取學術行爲之前，首先人工標註互聯網中少量的學術行爲，生成訓練集後，採用fastText進行訓練生成模型並保存。

接下來通過Python爬蟲獲取HTML元數據，將HTML數據傳入網頁正文提取算法WNBTE中獲得正文文本，其中正文提取算法通過統計HTML不同標籤中文本字數的比值來判斷正文所在的位置，能夠有效去除冗餘無關的HTML標籤。隨後對正文文本段落進行短語級切分，分詞後傳入fastText神經網絡，利用已經訓練好的數據模型對短語進行分類，打上標籤。

項目結構

ff_classifier: 使用fasttext自動訓練和預測學術行爲(訓練時間小於1s)
text_toolkit.py: 提取具有一定模式的字符串，如郵箱，手機號，時間等
profile_class.py: 研究人員的類
html_extract.py: 提取HTML元素
demo.py: demo

結果預覽（部分）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

Baidu Comate：“AI +”讓軟件研發更高效更安全

4月27日，百度副總裁陳洋出席由全國工商聯主辦的第64屆德勝門大講堂，並發表了《深化大模型技術創新與應用落地，護航大模型產業平穩健康發展》主題演講。陳洋表示，“人工智能+”成爲催生新質生產力的重要引擎，對於企業而言，務必要抓住這一重要機遇，

2024-04-30 21:33:30

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

帶你開發一個視頻動態手勢識別模型

本文分享自華爲雲社區《CNN-VIT 視頻動態手勢識別【玩轉華爲雲】》，作者： HouYanSong。 CNN-VIT 視頻動態手勢識別人工智能的發展日新月異，也深刻的影響到人機交互領域的發展。手勢動作作爲一種自然、快捷的交互方式，在

2024-04-29 10:33:12

大模型將進一步推動AI數據發展，行業數據類型更加豐富

爲支撐加快推進新型工業化，發展新質生產力，探索數據要素與智能算力網絡協同發展路徑，促進數字技術與實體經濟深度融合，中國信息通信研究院作爲新型基礎設施建設者，科技創新的領軍者，在2024星火生態大會期間，舉辦了"數據要素及智能算力網絡創新專題

2024-04-29 00:55:15

南京大學×百度“星河杯”AI 大模型創意校園賽正式起航

3 月 9 日，教育部長懷進鵬在十四屆全國人大二次會議民生主題記者會上，談到了人工智能+教育的重要性。他強調，要把人工智能技術深入到教育教學和管理的全過程和全環節，研究其有效性和適應性，讓青年一代更加主動地學習，讓教師更加創造性地教學。

2024-04-28 11:42:11

賦能開發者，騰訊雲與你共探AI提升十倍生產力之路

引言 AI 技術發展迅速，對於開發者而言，AI 既可能是提高生產力的神兵利器，也可能成爲職業生涯潛在的“威脅”。開發者如何與 AI 協同進化，提升個人能力和價值；如何利用提高 AI 生產力，推動企業創新，實現降本提效

2024-04-28 11:11:17

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

技術實踐｜大模型內容安全藍軍的道與術

1、引子大語言模型（LLM）在2023年大放異彩，在許多領域展現出強大的能力，包括角色扮演，文本創作，邏輯推理等。然而，隨着其應用範圍的擴大，生成內容的安全問題也日益凸顯。這包括但不限於生成虛假信息、有害內容、偏見或歧視性言論等。這些問題

2024-04-26 09:33:23

HCDG天津站精彩回顧 | AI高效開發， ModelArts技術動手工作坊

4月20日， HCDG城市行·天津站——“極快至簡靈活部署”我想象中的AI高效開發ModelArts技術工作坊圓滿舉辦。活動特邀來自華爲雲DTSE、華爲云云享專家、以及天津軟件技術協會的夥伴企業專家們爲與會開發者帶來一場別開生面的技術交流

2024-04-25 22:33:41

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

24小時熱門文章

最新文章

最新評論文章