利用LDA和主題模型發現9種冠狀病毒研究趨勢

作者|Adrian Raudaschl 編譯|VK 來源|Towards Data Science

儘管目前正在蔓延的冠狀病毒疫情已經很可怕,但觀察世界各地的學術界和研究界是多麼迅速地開始瞭解這種病毒及其潛在影響,還是很有意思的。

正因爲如此,很多有趣的學術論文都很快就出來了。我鼓勵你仔細閱讀預印本,因爲所作的聲明是未經覈實的,但我想看看這些文件所討論的主題和結論中是否有任何明顯的模式。

因此,我從Elsevier新型冠狀病毒信息中心的列表中,手工抓取了這些預打印論文的結果和見解部分,並使用流行的Gensim庫使用LDA進行了一些主題建模。如果你想親自嘗試的話,我在這篇文章的底部提供了GitHub鏈接。

在75份預印本上訓練多個LDA模型後,32個主題看起來是最佳的(也許20個主題也可以),一致性值爲0.54。然後,我選擇了最突出的主題關鍵字集合,推斷出中心觀點,併爲每一個找到了最具代表性的文章。

這篇文章絕不是一篇科學評論,而是一個我想分享的小實驗。也許我們可以使用這樣的工具更快地從多個來源識別模式。

9個重要的冠狀病毒主題及其最具代表性的論文

1. CT掃描似乎有希望篩選COVID-19

關鍵詞:肺炎,確診,證據,死亡,北京,聚焦,大,預測,努力,傳播

儘管該病毒已證明具有高度傳染性,可在兩肺自然感染,但臨牀證據表明,武漢病毒性肺炎病死率較低。CT對武漢市病毒性肺炎的篩查、診斷、隔離方案、治療、處理及預後有重要意義。

最具代表性的論文:Clinical and Imaging Evidence of Wuhan-Viral Pneumonia: A Large-Scale Prospective Cohort Study

該主題的文檔百分比:8%

2.應用人工智能篩選COVID-19患者

關鍵詞:臨牀、診斷、顯著、高度、特徵、症狀、目的、指標、嗜酸性粒細胞、入院

利用人工智能技術篩選患者的白細胞、嗜酸性粒細胞計數、嗜酸性粒細胞率、2019年新型冠狀病毒RNA(2019n-CoV)和澱粉樣蛋白A等屬性,該團隊開發了一種更快的方法,以實現COVID-19的診斷,提高了臨牀確診率。

最具代表性的論文:Artificial Intelligence Application in COVID-19 Diagnosis and Prediction

該主題的文檔百分比:7%

3.各國還沒有準備好迎接2019年的nCoV

關鍵詞:預防、健康、能力、有效、緊急、管理、加強、支持、準備、存在

各國在預防、發現和控制疫情方面的能力差異很大,這是由全球衛生系統管理衛生緊急情況的能力差異所支撐的。我們需要加強全球準備,遏制現有疫情,包括2019年nCoV的國際上的持續傳播。

最具代表性的論文:Review of Health Security Capacities in Light of 2019-nCoV Outbreak — Opportunities for Strengthening IHR (2005) Implementation

該主題文檔百分比:7%

4.醫務人員失眠、心理問題和COVID-19

關鍵詞:心理、因素、發現、疾病、社交、孤立、員工、識別、抑鬱

一項研究發現,超過三分之一的醫務人員在COVID-19爆發期間出現失眠症狀。相關因素包括文化程度、隔離環境、對COVID-19爆發的社會心理擔憂、醫生職業等。針對不同的社會心理因素,對醫務人員進行失眠的干預。

最具代表性論文:Survey of Insomnia and Related Social Psychological Factors Among Medical Staffs Involved with the 2019 Novel Coronavirus Disease Outbreak

該主題的文檔百分比:7%

5.我們應該採取強有力的預防措施來控制這種流行病嗎?

關鍵詞:措施、預防、城市、堅強、嚴格、個體、期待、維護、揭露、制止

在冠狀病毒疫情結束之前,我們一直鼓勵採取強有力的預防措施。國內外其他地方已證實,應效仿中國,立即採取有力干預措施。早期強有力的預防措施可以有效阻止全球其他城市獨立、自我維持的疫情爆發。

最具代表性的論文:Simulating the Infected Population and Spread Trend of 2019-nCov Under Different Policy by EIR Model

該主題的文檔百分比:7%

6.COVID-19新的快速基因診斷試驗

關鍵詞:檢測、pcr、樣品、rt、lamp、診斷、反向、核酸、拭子、篩選

定量反轉錄聚合酶鏈反應(qRT-PCR)是目前COVID-19檢測的標準;然而,反轉錄環介導的等溫擴增(RT-LAMP)可以在風險點進行更快、更實惠的進行現場檢測。本研究的目的是開發一種快速篩查診斷試驗,可在30分鐘內完成。

最具代表性的論文:Rapid Detection of Novel Coronavirus (COVID19) by Reverse Transcription-Loop-Mediated Isothermal Amplification

該主題的文檔百分比:5%

7.快速鑑別COVID-19和其他感染

關鍵詞:低,病人,酸,發熱,肺,混濁,地面,過程,特徵,圖像

在發熱門診中,COVID-19和核酸陰性患者之間的區別臨牀特徵鮮爲人知。2019年nCoV感染的核酸檢測率最高的是肌肉疼痛患者,其次是呼吸困難患者。發熱、嗜酸性粒細胞計數降低和雙肺磨玻璃樣混濁的影像學特徵可能是2019年nCoV感染的一個有價值的指標。

最具代表性論文:Analysis of 2019-nCoV Infection and Clinical Manifestations of Outpatients: An Epidemiological Study from the Fever Clinic in Wuhan, China

該主題的文檔百分比:5%

8.誰最容易感染COVID-19?

關鍵詞:患者、症狀、系統、政府、人羣、年齡、人羣、顯著改善、腎臟

調查證實,該人羣的傳染性沒有明顯的年齡限制,但老年人仍然是脆弱羣體。糖尿病患者更易發展爲重症患者,進入ICU的概率明顯增加。

最具代表性的論文:Epidemiological and Clinical Features of 197 Patients Infected with 2019 Novel Coronavirus in Chongqing, China: A Single Center Descriptive Study

該主題的文檔百分比:4%

9.COVID-19的重症患者治療

關鍵詞:嚴重,呼吸,治療,急性,方法,綜合徵,相似,水平,起源,發生

COVID-19感染引起嚴重呼吸系統疾病,類似於嚴重急性呼吸綜合徵冠狀病毒,與ICU的進入和高死亡率有關。我們從病因、流行病學、治療方法等方面進行了研究,根據武漢協和醫院制定的治療方案,經衛生部批准,希望能開發出有效的治療方法,降低該病的死亡率。

最具代表性的論文:Clinical Characteristics and Treatment of Patients Infected with COVID-19 in Shishou, China

該主題的文檔百分比:4%

結論

這是在論文領域應用NLP技能的一次嘗試。這個方法應該會出現問題,但這個想法很有趣。

GitHub倉庫

GitHub地址:https://github.com/Raudaschl/coronvavirus_preprint_research_nlp

原文鏈接:https://towardsdatascience.com/summarising-the-latest-research-on-coronavirus-with-nlp-and-topic-modelling-28b867ad9860

歡迎關注磐創AI博客站: http://panchuang.net/

sklearn機器學習中文官方文檔: http://sklearn123.com/

歡迎關注磐創博客資源彙總站: http://docs.panchuang.net/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章