原创 李宏毅:deep learning for language modeling

1、language modeling 2、n-gram 3、neural network based language model 4、RNN-based LM 與NN不一樣的是:NN是隻看當前的input來得出output,

原创 李宏毅:spatial transformer (空間變換)

(1)它不僅可以放在CNN之前進行transformer,transform input image,比如:把image放大...;同時它也可以放在CNN裏面去transform feature map。 (2)將weight設置成不同

原创 李宏毅:deep learning(一)

1、fully connected   2、recurrent neural network(同一個structure反覆應用) 雙向RNN RNN中每個neural的計算 3、LSTM   三個門控機制的import

原创 ACL2018:Aspect Based Sentiment Analysis with Gated Convolutional Networks(翻譯)

Abstract         基於Aspect的情感分析(ABSA)能提供比一般情感分析更詳細的信息,因爲它的目的是預測文本中給定的aspect或實體的情感極性。我們將以前的方法歸納爲兩個子任務:aspect類別情感分析(aspect

原创 Glove詞向量

1、共現概率 Glove使用了詞與詞之間的共現(co-occurrence)信息。假設元素Xij爲詞j出現在詞i的環境(context)的次數。這裏的”環境”有多種的定義。比如,在一段文本序列中,如果詞j出現在詞i左邊或者右邊不超過10個

原创 ACL2017:擴展命名實體識別API及其在語言教育中的應用 (翻譯)

摘要:我們提出了一個擴展命名實體識別API來識別各種類型的實體,並將實體分類爲200個不同的類別。每個實體都被劃分爲實體類別中的一個層次,其中層次結構中根附近的類別比葉子附近的類別更具有概括性。這些類別信息可用於各種應用程序,如語言教育應

原创 NLP學習路徑(八):情感分析技術

1、情感分析的基本方法        對情感分析的研究到目前爲止主要集中在兩個方面:識別給定的文本實體是主觀的還是客觀的,以及識別主觀的文本的極性。大多數情感分析研究都是使用機器學習的方法。        在情感分析領域,文本可以劃分爲積

原创 NLP中文詞向量訓練:word2vec(Negative Sampling)

一.基於Hierarchical Softmax的word2vec模型的缺點 Hierarchical Softmax ,使用霍夫曼樹結構代替了傳統的神經網絡,可以提高模型訓練的效率。但是如果基於Hierarchical Softmax的

原创 NLP學習路徑(七):NLP文本向量化

1、文本向量化概述 (1)含義        文本向量化就是將文本表示成一系列能夠表達文本語義的向量。詞語都是表達文本處理的最基本單元。當前階段,對文本向量化大部分研究都是通過詞向量化實現的。但也有一部分將文章或者句子作爲文本處理的基本單

原创 NLP學習路徑(五):NLP關鍵詞提取算法

1、關鍵詞提取技術概述 關鍵詞提取算法主要分爲:有監督和無監督。 (1)有監督:通過分類的方式進行,通過構建一個較爲豐富和完善的詞表,然後通過判斷每個文檔與詞表的匹配程度,以類似打標籤的方式,達到關鍵詞提取的效果。 優點:能夠獲取到較

原创 機器學習中樣本比例不平衡的處理方法

1、樣本不平衡往往會導致模型對樣本數較多的分類造成過擬合,即總是將樣本分到了樣本數較多的分類中;除此之外,一個典型的問題就是 Accuracy Paradox,這個問題指的是模型的對樣本預測的準確率很高,但是模型的泛化能力差。 2、針對樣

原创 NLP學習路徑(六):NLP句法分析

1、句法分析 (1)主要任務:識別出句子所包含的的句法成分以及這些成分之間的關係,一般以句法樹來表示句法分析的結果。 (2)難點:歧義;搜索空間 (3)句法分析種類: ①完全句法分析:以獲取整個句子的句法結構爲目的 ②局部句法分析:只關注

原创 關於集成學習的學習筆記

1、常見的集成學習框架 bagging,boosting、stacking (1)bagging 從訓練集進行子抽樣組成每個基模型所需要的子訓練集,對所有基模型預測的結果進行綜合產生最終的預測結果。 (2)boosting 訓練過程

原创 NLP學習路徑(四):NLP詞性標註與命名實體識別

1、詞性標註 (1)詞性標註簡介 詞性標註是在給定句子中判定每個詞的語法範疇,確定其詞性並加以標註。但在中文中,一個詞的詞性很多時候都是不固定的。從整體上看大多數詞語,尤其是實詞,一般只有1-2個詞性,且其中一個詞性的使用頻次遠遠大於

原创 Jieba:高頻詞提取

1、高頻詞定義 高頻詞是指文檔中出現頻率較高且非無用的詞語,其一定程度上代表了文檔的焦點所在。針對單篇文檔可以作爲一種關鍵詞來看。對於如新聞這樣的多篇文檔,可以將其作爲熱詞,發現輿論熱點。 高頻詞提取的干擾項: 1)標點符號 2)停用