word2vecd原理

一、基礎知識

sigmoid函數:

sigmoid函數圖像:隨着x的增大,則值趨向1

sigmoid的導函數則爲:

導函數分別爲:

對數似然函數:當y=1時,假定這個樣本爲正類。如果此時hθ(x)=1hθ(x)=1,則單對這個樣本而言的cost=0,表示這個樣本的預測完全準確。那如果所有樣本都預測準確,總的cost=0 
但是如果此時預測的概率hθ(x)=0hθ(x)=0,那麼cost→∞cost→∞。直觀解釋的話,由於此時樣本爲一個正樣本,但是預測的結果P(y=1|x;θ)=0P(y=1|x;θ)=0, 也就是說預測 y=1的概率爲0,那麼此時就要對損失函數加一個很大的懲罰項。 
當y=0時,同理。

=》

二、n-gram模型

有貝葉斯公式可知,貝葉斯公式可近似:

,當語料庫足夠大時

假定一個詞出現的概率只和他出現的前面的n個詞有關,而不是整個句子,則可得到:

表示的是從第一個詞到第k個詞構成的句子在預料庫中出現的次數,有上式可得,

三、平滑技術

爲了解決當極端情況,出現平滑技術。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章