自然语言处理复习汇总(南京大学)

标签（空格分隔）：自然语言处理
参考书籍:统计自然语言处理–宗成庆
该文档用markdown编写,github地址为https://github.com/lyfadvance/nlp/blob/master/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%A4%8D%E4%B9%A0%E6%96%87%E6%A1%A3.md
如果想继续编写，可以fork

统计语言模型

N-Gram

N-1阶马尔可夫链我们称之为N元语言模型

P (w i | w i - 1) = P ( w i - 1 w i ) P ( w i - 1 ) = C o u n t ( w i - 1 w i ) \sum w C o u n t ( w i - 1 w )

Count(wi−1wi) 由于稀疏性，值可能等于0．从而导致整个句子的概率都等于0

进行平滑处理:

线性平滑:

P (w i | w i - 1) = P ( w i - 1 w i ) P ( w i - 1 ) = C o u n t ( w i - 1 w i ) + α \sum w ( C o u n t ( w i - 1 w ) + α )

laplace 平滑:

P (w i | w i - 1) = P ( w i - 1 w i ) P ( w i - 1 ) = C o u n t ( w i - 1 w i ) + k P ( w ) ( \sum w C o u n t ( w i - 1 w ) ) + k

简单线性插值平滑:

Neural language model

word2vector

文本分类

朴素贝叶斯模型

D为待分类的文档，ck 指第k个类别

a r g m a x c k P (c k | D) = a r g m a x c k P ( D | c k ) P ( c k ) P ( D ) = a r g m a x c k P (D | c k) P (c k)

1. Bernoulli document model(伯努利文档模型)

一个文档被表示成01向量.向量中每一个元素表示相应的单词是否在文档中出现了
令Di 表示第i个文档的01向量

令Dit 表示第i个文档的01向量中第t个元素的值，即单词wt 是否在文档i中出现了
P(wt|ck) 表示单词wt 在类别ck 中出现的文档数的占比.
则
P(wt|ck)=ck中wt出现的文档个数ck中所有文档的个数

P(Dit|ck)=DitP(wt|ck)+(1−Dit)(1−P(wt|ck))

P(Di|Ck)=∏|V|t=1P(Dit|ck)

2. Multinomial document model

一个文档被表示成整数向量.向量中每一个元素表示相应的单词在文档中出现了多少次

令Di 表示第i个文档的向量

令Dit 表示第i个文档的向量中第t个元素的值

P(wt|ck) 表示单词wt 在类别ck 中出现的文档数的占比.

训练句向量

一般来讲每一个类别ck 也可以看成一个向量,记为f(ck) 。

文本Di 也表示成向量w 。

训练句向量也就是训练打分模型score(w,f(ck))

可以根据这个设计各种loss函数。用SVM的loss函数训练

文本或句子向量化

词袋模型

0-1向量

N-Gram Bag-of-Words

Vocab = set of all n-grams in corpus

Document = n-grams in document w.r.t vocab with multiplicity

For bigram:

Sentence 1: “The cat sat on the hat”

Sentence 2: “The dog ate the cat and the hat”

Vocab = { the cat, cat sat, sat on, on the, the hat, the dog, dog ate, ate the, cat and, and the}

Sentence 1: { 1, 1, 1, 1, 1, 0, 0, 0, 0, 0}

Sentence 2 : { 1, 0, 0, 0, 0, 1, 1, 1, 1, 1}

TF-IDF

TF(词频)

词 频 (T F) = 某 个 词 在 文 章 中 的 出 现 次 数 文 章 中 出 现 最 多 词 的 个 数

IDF(逆文档频率)

逆 文 档 频 率 (I D F) = log 语 料 库 的 文 档 总 数 包 含 该 词 的 文 档 数 + 1

特征过滤

停用词
基于文档频率(DF)的特征提取法
从训练预料中统计出包含某个特征的文档的频率(个数),然后根据设定的阈值，当该特征项的DF值小于某个阈值时，从特征空间中去掉该特征项，因为该特征项使文档出现的频率太低，没有代表性；当该特征项的DF值大于另外一个阈值时，从特征空间中也去掉该特征项，因为该特征项使文档出现的频率太高，没有区分度
信息增益法
信息增益(IG)法依据某特征项ti 为整个分类所能提供的信息量多少来衡量该特征项的重要程度，从而决定对该特征项的取舍。某个特征项ti 的信息增益是指有该特征或没有该特征时，为整个分类所能提供的信息量的差别，其中，信息量的多少由熵来衡量。因此，信息增益即不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值:
$G a i n (t i) = E n t r o p y (S) - E x p e c t e d E n t r o p y (S t i) = {- \sum j = 1 M P (C j) \cdot log P (C j)} - {P (t i) \cdot [- \sum j = 1 M P (C j | t i) \cdot log P (C j | t i)] + P (t i ¯) \cdot [- \sum j = 1 M P (C j | t i ¯) \cdot log P (C j | t i ¯)]}$
其中P(Cj) 表示Cj 类文档在预料中出现的概率，P(ti) 表示语料中包含特征项ti 的文档的概率，P(Cj|ti) 表示文档包含特征项ti 时属于Cj 类的条件概率，P(ti¯) 表示语料中不包含特征项ti 的文档的概率，P(Cj|ti¯) 表示文档不包含特征项ti 时属于Cj 的条件概率,M 表示类别数
mutual information(互信息法)
χ2 统计量

Distributional similarity-based representations

LSI
First Propose
Word2vec
Doc2Vec

词性标注与隐马尔科夫模型

维特比算法和算法

A 是状态转移概率矩阵

B 是观测概率矩阵

π 是初始状态概率向量

隐马尔科夫模型的三个基本问题

概率计算问题。给定模型λ=(A,B,π) 和观测序列O=(o1,o2,...,oT) ,计算在模型λ 下观测序列O 出现的概率P(O|λ)
学习问题.已知观测序列O=(o1,o2,...,oT) .估计模型λ=(A,B,π) 参数,使得在该模型下观测序列概率P(O|λ) 最大.即用极大似然估计的方法估计参数.
预测问题，也称为解码(decoding)问题。已知模型λ=(A,B,π) 和观测序列O=(o1,o2,...,oT) ,求对给定观测序列条件概率P(I|O) 最大的状态序列I=(i1,i2,...,iT) .即给定观测序列，求最有可能的对应的状态序列.

问题1:

前向算法.

定义前向概率:

给定隐马尔科夫模型λ ,定义到时刻t 部分观测序列为o1,o2,...,ot 且状态为qi 的概率为前向概率,记作

α t (i) = P (o 1, o 2, . . ., o t, i t = q i | λ)

输入:隐马尔科夫模型λ ,观测序列O

输出:观测序列概率P(O|λ)

(1) 初值

$α 1 (i) = π i b i (o 1), i = 1, 2, . . ., N$
(2) 递推　对t=1,2,…,T-1

$α t + 1 (i) = ⎡ ⎣ \sum j = 1 N α t (j) a j i ⎤ ⎦ b i (o t + 1), i = 1, 2, . . . N$
(3) 终止

$P (O | λ) = \sum i = 1 N α T (i)$
(4)最优路径回溯

后向算法:

定义后向概率:

给定隐马尔科夫模型λ ,定义在时刻t 状态为qi 的条件下，从t+1 到T 的部分观测序列为ot+1,ot+2,...,oT 的概率为后向概率，记作

β t (i) = P (o t + 1, o t + 2, . . ., o T | i t = q i, λ)

输入:隐马尔可夫模型λ ,观测序列O :

输出:观测序列概率P(O|λ)

(1)

$β T (i) = 1, i = 1, 2, . . ., N$
(2)对t=T−1,T−2,...,1

$β t (i) = \sum j = 1 N a i j b j (o t + 1) β t + 1 (j), i = 1, 2... N$
(3)

$P (O | λ) = \sum i = 1 N π i b i (o 1) β 1 (i)$

问题2

Baum-Welch算法(无监督学习方法)

假设给定训练数据只包含S 个长度为T 的观测序列O1,O2,...,OS 而没有对应的状态序列，目标是学习隐马尔科夫模型λ=(A,B,π) 的参数。我们将观测序列数据看做观测数据O ,状态序列数据看做不可观测的隐数据I ,那么隐马尔科夫模型事实上是一个含有隐变量的概率模型

P (O | λ) = \sum I P (O | I, λ) P (I | λ)

它的参数学习可以由

EM 算法实现

参数估计问题是HMM面临的第三个问题，即给定一个观察序列O=O1O2...OT ,如何调节模型u=(A,B,π) 的参数，使得P(O|u) 最大化:

a r g m a x u P (O t r a i n i n g | u)

模型的参数是指构成

u 的

πi,aij,bj(k) .最大似然估计方法可以作为HMM参数估计的一种选择。如果产生观察序列

O 的状态序列

Q=q1q2...qT 已知，根据最大似然估计,HMM的参数可以通过如下公式计算:

π ¯ i = δ (q 1, s i)

a ¯ i j = Q 中 从 状 态 q i 转 移 到 q j 的 次 数 Q 中 所 有 从 状 态 q i 转 移 到 另 一 状 态 ( 包 括 q i 自 身 ) 的 次 数 = \sum T - 1 t = 1 δ ( q t , s i ) * δ ( q t + 1 , s j ) \sum T - 1 t = 1 δ ( q t , s i )

b ¯ j (k) = Q 中 从 状 态 q j 输 出 符 号 v k 的 次 数 Q 到 达 q j 的 次 数

但实际上，由于HMM中的状态序列Q是观察不到的(隐变量),因此，这种最大似然估计的方法不可行。所幸的是，期望最大化(expectation maximization,EM)算法可以用于含有隐变量的统计模型的参数最大似然估计。其基本思想是，初始时随机地给模型的参数赋值，该复制遵循模型对参数的限制，例如，从某一状态出发的所有转移概率的和为1。给模型参数赋初值以后，得到模型

u0 ,然后，根据

u0 可以得到模型中隐变量的期望值。例如，从u_0得到从某一状态转移到另一状态的期望次数，用期望次数来替代上式中的实际次数，这样可以得到模型参数的新估计值，由此得到新的模型

u1 .从

u1 又可以得到模型中隐变量的期望值，然后，重新估计模型的参数，执行这个迭代过程，知道参数收敛于最大似然估计值.

问题3

维特比算法:

其实就是前向算法的变种形式

输入:隐马尔科夫模型λ ,观测序列O

输出:最优路径I∗=(i∗1,i∗2,...,i∗T)

(1) 初值

$α 1 (i) = π i b i (o 1), i = 1, 2, . . ., N$
$ψ 1 (i) = 0$
(2) 递推　对t=1,2,…,T-1
$α t + 1 (i) = m a x 1 \leq j \leq N ⎡ ⎣ \sum j = 1 N α t (j) a j i ⎤ ⎦ b i (o t + 1), i = 1, 2, . . . N$
$ψ t + 1 (i) = a r g m a x 1 \leq j \leq N ⎡ ⎣ \sum j = 1 N α t (j) a j i ⎤ ⎦, i = 1, 2, . . . N$
(3) 终止
$P * = m a x 1 \leq i \leq N α T (i)$
$i * T = a r g m a x i \leq i \leq N α T (i)$

统计语义分析

PCFG，概率上下文无关文法

三个基本问题
- 给定一个句子W=w1w2...wn 和文法G ,如何快速计算概率P(W|G)
- 给定一个句子W=w1w2...wn 和文法G ,如何选择该句子的最佳结构?即选择句法结构树t 使其具有最大概率:argmaxtP(t|W,G)
- 给定PCFG G和句子W=w1w2...wn ,如何调节G的概率参数，使句子的概率最大?即求解argmaxGP(W|G)

问题1:

内向算法和外向算法:

内向算法的基本思想是:利用动态规划算法计算非终结符A 推导出W 中子串wiwi+1...wj 的概率aij(A)

有递推公式如下:

a i i (A) = P (A - > w i)

a i j (A) = \sum B, C \sum i \leq k \leq j - 1 P (A - > B C) \cdot a i k (B) \cdot a (k + 1) j (C)

算法如下:

输入:PCFG G(S)和句子W=w1w2...wn

输出:aij(A),1≤i≤j≤n

步1 初始化:aii(A)=P(A→wi),1≤i≤n

步2 归纳计算:j=1...n,i=1...n−j ,重复下列计算:

$a i (i + j) (A) = \sum B, C \sum i \leq k \leq i + j - 1 P (A \to B C) * a i k (B) * a (k + 1) (i + j) (C)$
步3 终结:P(S→w1w2...wn)=a1n(S)

外向算法的基本思想是:

定义外向变量βij(A) 为初始非终结符S 在推导出语句W=w1w2...wn 的过程中，产生符号串w1...wi−1Awj+1...wn 的概率

有如下递推公式:

β 1 n (A) = {10 A = S A \neq S

β i j (A) = \sum B, C \sum k > j P (B \to A C) α (j + 1) k (C) β i k (B) + \sum B, C \sum k < i P (B \to C A) α k (i - 1) (C) β k j (B)

问题2:
就是将内向算法的递推式取最大

a i i (A) = P (A \to w i)

a i j (A) = a r g m a x B, C \in N; i \leq k \leq i + j P (A \to B C) \cdot a i k (B) \cdot a (k + 1) j (C)

然后用变量βij 记忆子串wi...wj 的维特比句法分析树

β i j (A) = a r g m a x B, C \in N; i \leq k \leq i + j P (A \to B C) \cdot a i k (B) \cdot a (k + 1) j (C)

自然语言处理复习汇总(南京大学)

自然语言处理复习汇总(南京大学)

统计语言模型

N-Gram

Neural language model

word2vector

文本分类

朴素贝叶斯模型

1. Bernoulli document model(伯努利文档模型)

2. Multinomial document model

训练句向量

文本或句子向量化

词袋模型

N-Gram Bag-of-Words

TF-IDF

TF(词频)

IDF(逆文档频率)

特征过滤

Distributional similarity-based representations

词性标注与隐马尔科夫模型

隐马尔科夫模型的三个基本问题

问题1:

问题2

问题3

统计语义分析

PCFG，概率上下文无关文法

问题1:

Treebank

Chomsky Normal Form

统计机器翻译

常用的 Git 指令

sm4加密工具类

xavier初始化的背後原理

關於resnet的直覺性解釋

深度學習權重初始化爲什麼要用正態分佈

關於BN的理解

證明偶階羣必存在元素a,使得a^2=1

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結