一、基礎知識
sigmoid函數:
sigmoid函數圖像:隨着x的增大,則值趨向1
sigmoid的導函數則爲:
和導函數分別爲:
對數似然函數:當y=1時,假定這個樣本爲正類。如果此時hθ(x)=1hθ(x)=1,則單對這個樣本而言的cost=0,表示這個樣本的預測完全準確。那如果所有樣本都預測準確,總的cost=0
但是如果此時預測的概率hθ(x)=0hθ(x)=0,那麼cost→∞cost→∞。直觀解釋的話,由於此時樣本爲一個正樣本,但是預測的結果P(y=1|x;θ)=0P(y=1|x;θ)=0, 也就是說預測 y=1的概率爲0,那麼此時就要對損失函數加一個很大的懲罰項。
當y=0時,同理。
=》
二、n-gram模型
有貝葉斯公式可知,貝葉斯公式可近似:
,當語料庫足夠大時
假定一個詞出現的概率只和他出現的前面的n個詞有關,而不是整個句子,則可得到:
,表示的是從第一個詞到第k個詞構成的句子在預料庫中出現的次數,有上式可得,
三、平滑技術
爲了解決當和極端情況,出現平滑技術。