原创 隱馬爾可夫模型進行序列標註

三元隱馬爾可夫模型 三元隱馬爾可夫模型依賴二階馬爾科夫假設,包含所有詞的有限集VVV,以及所有標籤有限集K\KappaK,以及如下兩個參數:q(s∣u,v)q(s|u,v)q(s∣u,v),其中s∈K∪{STOP},u,v∈K∪{

原创 pytorch實現attention機制,並可視化

pytorch 實現 attention 並可視化 python 3 pytorch 0.4.0 請閱讀原文。 模型 class SelfAttention(nn.Module): def __init__(self

原创 雙邊多視角自然語言句子匹配(BiMpm)

模型與圖片來自論文Bilateral Multi-Perspective Matching for Natural Language Sentences. 問題定義與模型結構 雙邊多視角匹配(BiMPM)用來估計條件分佈概率Pr(

原创 Java 8 中使用流

案例來自於Java8 實戰. Raoul-Gabriel Urma, Mario Fusco, Alan Mycroft, Java 8 in Action[M], Manning Publications, 2014 流操作

原创 Java 8 Lambda表達式

Lambda表達式 默認方法 加入默認方法主要是爲了框架設計者改進現有的接口, 例如如果要對List對象添加一個新的方法, 通常需要將該方法加入Collection的接口, 但這會導致所有實現Collection接口的類都要實現該方法

原创 EM算法

以樸素貝葉斯模型爲例, 假設數據集中樣例不含標籤, 則對於某個樣例xxx, 可以如下計算其概率: p(x)=∑y=1kp(x,y)=∑y=1k(q(y)∏j=1dqj(xj∣y)) p(x) = \sum^k_{y=1}p(x,y)=

原创 樸素貝葉斯模型

首先重述一下樸素貝葉斯模型(Naive Bayes model)的定義, 該模型包含kkk個特定的標籤, 一個ddd維向量用於表示d個屬性特徵. 其包含以下參數: q(y)q(y)q(y), 表示看見標籤yyy的概率, 其滿足約束q

原创 最大熵馬爾可夫模型(MEMM)與條件隨機場(CRF)

MEMM模型 在序列標註任務中,除了隱馬爾可夫模型(HMM),最大熵馬爾可夫模型(MEMM)是另一種更好的選擇,因爲其可以通過特徵向量的形式引入更多的上下文特徵。假設我們的目標是求概率分佈p(s1,...,sm∣x1,...,xm)p

原创 三元隱馬爾可夫模型進行序列標註

三元隱馬爾可夫模型 三元隱馬爾可夫模型包含所有詞的有限集VVV,以及所有標籤有限集K\KappaK,以及如下兩個參數:q(s∣u,v)q(s|u,v)q(s∣u,v),其中s∈K∪{STOP},u,v∈K∪{∗}s\in \Kappa

原创 雙向LSTM+CRF實現分詞

嘗試一下使用雙向LSTM加CRF來進行分詞,使用的語料爲Bakeoff 2005。 可以將分詞看成一個序列標註問題,我們要做的是對句子中的每個字打上標籤(s,b,m,e),s表示單字詞,b表示詞的開始,m表示詞的中間,e表示詞的結束,

原创 Java常用數據結構

Java常用數據結構 Stack Java的Stack類是Vector類(動態數組)的子類,標準的先進後出的棧。 案例:LeetCode739,找出一個數組中每個數與該數之後下一個比它大的數的間隔,即找出每個數下一個比它大的數的位置

原创 幾道動態規劃題目

幾道常見的動態規劃題 通常暴力窮舉的方式是一種糟糕的策略,動態規劃正是一種解決類似問題的思想,如果一個問題滿足最優子結構,就可以通過把原問題可以分解爲幾個子問題來解決,即全局的最優解一定是某個局部的最優解,我們需要一張表來保存前一次計

原创 更新cuda,並安裝TensorFlow

TensorFlow最新版本目前好像不支持cuda8.0,也不支持cuda10,好不容易終於升級了cuda9.0,終於安裝了TensorFlow1.11.0。特此記錄一下,服務器Ubuntu14.04.5。 在CUDA Toolki

原创 pytorch實現seq2seq時如何對loss進行mask

如何對loss進行mask pytorch官方教程中有一個Chatbot教程,就是利用seq2seq和注意力機制實現的,感覺和機器翻譯沒什麼不同啊,如果對話中一句話有下一句,那麼就把這一對句子加入模型進行訓練。其中在訓練階段,損失函數

原创 使用LSTM進行文本蘊含判斷

使用LSTM進行文本蘊含判斷 最近了解了一下什麼是文本蘊含,大概就是兩句話,如果能從前提句(premise)能推出假設句(hypothesis)或者這兩句話非常相似說的是同一個意思,那麼就是蘊含關係(entailment),否則就是