原创 醫療術語自動編碼論文總結 (Automated Coding)

1996 Larkey, Leah S., and W. Bruce Croft. "Combining classifiers in text categorization." SIGIR. Vol. 96. 1996. 論文鏈接 被引

原创 醫療領域實體對齊(實體鏈接)論文總結

2002 Pakhomov, Serguei. "Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in me

原创 關係抽取論文總結(relation extraction)不斷更新

2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from text." 1st Meeting of the

原创 論文筆記 Medical Entity Linking using Triplet Network

一、動機 實體鏈接(Entity Linking)或者標準化(Normalization)的目標是將文本中發現的mention鏈接到知識庫中的標準實體。在醫療領域,疾病詞的實體鏈接難度在於縮寫、同義詞、單詞順序變換等等,這些不同形態的描述

原创 使用Keras計算餘弦相似度(Cosine Similarity)

因爲Merge函數在Keras新版本中已經不再使用了,在計算批次餘弦相似度時,需要自定義函數。餘弦相似度定義如下: 要計算兩個向量相似度有如下步驟: 分別計算兩個向量l2範式,計算兩個向量的點乘 點乘的結果除以l2範式的乘積,注意分母不

原创 疾病自動診斷論文 (Automated Diagnosis)

1991 Shwe, Michael A., et al. "Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR knowledge base." Me

原创 同義詞(近義詞)算法總結(附代碼)

一、簡介 同義詞挖掘一般有三種思路,藉助已有知識庫,上下文相關性,文本相似度。 1.1 知識庫 可以藉助已有知識庫得到需要同義詞,比如說《哈工大信息檢索研究室同義詞詞林擴展版》和 HowNet,其中《詞林》文件數據如下。 Aa01A01

原创 Keras問題“AttributeError: 'NoneType' object has no attribute 'update”解決

BUG 在使用Keras訓練模型時,在每個epoch完成後save_model時會報錯 “AttributeError: 'NoneType' object has no attribute 'update'” 具體異常打印信息如下,主要

原创 小樣本學習論文總結(few-shot learning)

2011 Lake, Brenden, et al. "One shot learning of simple visual concepts." Proceedings of the annual meeting of the cogn

原创 實體鏈接中使用實體一致性信息(coherence)

實體鏈接(Entity Linking; Entity Disambiguation)是自然語言處理中一個很重要的任務,目的是將文本中發現的mention鏈接到知識庫(Knowledge Base)中的標註實體(Entity)。 實體鏈接

原创 文本匹配(Text Matching&Answer Selection)論文總結(不斷更新)

2013  Huang, Po Sen , et al. "Learning deep structured semantic models for web search using clickthrough data." Proceed

原创 在神經網絡中使用dropout

一、什麼是dropout dropout是解決神經網絡模型過擬合的好辦法,那什麼是dropout呢?簡而言之,它就是隨機的將輸入的張量中元素置爲0,dropout可以理解爲一種集成模型。因爲我們將元素置爲0後,相當於主動拋棄了一部分特徵,

原创 使用CNN進行情感分析(Sentiment Analysis)

一、情感分析 情感分析是自然語言處理中很常見的任務,它的目的是識別出一段文本潛在的情感,是表揚還是批評,是支持還是反對。比如我們可以使用情感分析去分析社媒的評論,從而得到網友對某件事的看法,進一步分析可以得到輿論的趨勢。大家都知道特朗普非

原创 使用early stopping解決神經網絡過擬合問題

神經網絡訓練多少輪是一個很關鍵的問題,訓練輪數少了欠擬合(underfit),訓練輪數多了過擬合(overfit),那如何選擇訓練輪數呢? Early stopping可以幫助我們解決這個問題,它的作用就是當模型在驗證集上的性能不再增加的

原创 通過loss曲線診斷神經網絡模型

本文首先會介紹loss曲線表現形式,過擬合,欠擬合等等。然後展示如何使用matplotlib繪製loss曲線。 一、Loss曲線 通常數據集會被劃分成三部分,訓練集(training dataset)、驗證集(validation dat