机器智能（十）

1、语言：有限字符串组成的集合
2、语法：用来描述语言的规则的集合
3、语言存在歧义性，自然语言规模大，且不断变化
4、最简单的语言模型：字符序列的概率分布
5、n元组：长度为n的书写符号序列，即字母
6、n元模型：n个字符序列上的概率分布，可以定义为n-1阶的马尔科夫链
7、三元模型中字符序列的概率：

如P(the)=p(t)p(h|t)p(e|th)
应用：语言识别，建立对每种候选语言的三元模型，只针对于字符语言，汉语不行。
8、n元模型需要提供对于语料真实概率分布的估计值
a、普通字符的估计比较准，因为在语料库中比较多
b、对于罕见的字符可能在语料库中不出现，估计不准。可以通过平滑解决
c、平滑：给一些在训练文本未出现的字符赋予一个很小的概率值，一般为1/(n+2)，即假定前n个都没有出现，在后面两个中出现的概率为1/2
9、n元语言模型需要提供大量的概率估计，导致稀疏矩阵问题，即上文提到的某些组合由于出现概率过低，在数据库中没有出现导致在概率矩阵中的值为0.
10、推广的方法：通过对短语结构的分析来计算概率：
a、非终结符号(S,NP etc.):不可观察的符号，用大写字母表示
b、终结符号(he etc.)：可观察的符号,小写字母开头
11、文法：规则的集合，将语言定义为允许词串的集合，根据生成能力对文法形式进行分类
a、递归可枚举(recurisively enumberable):无约束，左右两边任意数量的终结和非终结符：ABd-> CdE
b、上下文有关文法(Context-sensitive grammer)：右边的符号数目不少于左边的：ASB->AXB
c、上下文无关文法(Context-free grammer):左边只有一个单独的非终结符：S-> XYa
d、正则文法(Regular):左边是一个单独的非终结符，右边是一个终结符后跟一个可有可无的非终结符：S-> aX
12、ε词典将词分为开放类和封闭类两种：

a、开放类：名词，动词，形容词，副词。可能发生添加或者删减
b、封闭类：代词，关系代词，冠词，介词，连接词。不容易发生添加与删减
13、ε词典将语法分为以下几种，并对每一种类型定义了一个概率值

a、名词短语
b、动词短语
c、介词短语
d、关系从句
e、四种语法中根据不同词性的组合可以有许多小类，最终产生一个如下的分析树
如：every wumpus smells

得到这么一个特定的句子出现的概率。=0.90.250.050.150.4*0.1=0.0000675
如：Mary is in Boston and the wumus is near 3 2

14、ε语法也会生成很多不符合语法的语句，即过生成，同时也会拒绝很多英语中的语句，即欠生成。
15、句法分析：按照语法规则分析单词串从而得到其短语结构的过程，有以下两种方法：
a、自顶向下：从S符号开始自顶向下搜索并构造以单词作为叶子结点的树
b、自底向上：从单词出发，自底向上搜索并构造树直到顶端S

在倒数第二步的时候发现NP和VP构成一个S，成为了S adjective，无法构成s，会进行回溯，然后再对VP Adjective进行处理，改变为VP，再得到S
16、主格宾格：
a、针对于过生成的问题，从ε0语法到ε1语法
b、增加了部分语法：
将名词增加了主格和宾格。
但没有解决主语动词一致性的问题，即第三人称单数的问题。

17、主语动词一致性：
a、针对ε1语法对第三人称的过生成问题
b、包含了格一致，主语宾语一致和头词
c、对于S(head) NP(Sbj,pn,h)VP(pn,head)中增加了参数。当NP拥有主格，且NP和VP在人称和数量上是一致时则NP和VP构成一个句子S
18、文本检索的方式：
a、FREE TEXT SYSTEM：Pure string matching，字符匹配搜索：纯粹基于字符的搜索。基于字符的文档检索，可靠性高、非智能性、应用有限
b、IR：match term occurrence patterns, little understanding，信息检索(IR)：给定一个查询返回一系列相关的文本。网页检索，考虑一篇文档中某些词语出现的权重和频率。集中找到相关的文本，准确度相当重要
c、INFO EXTRACTION：文本信息抽取。针对XML文档，一般存在一个标签，提供了结构化的信息。自动地找到关于属性相关的有用信息。
d、QUESTION AND ANSWER：提问回答(Quention Answer)模式。一个问答的方式，回答和提问不一定完全一致
e、DIALOG SYSTEM：提供一段诊断文本
f、NLP：像人一样理解自然语言
19、非结构化的文本：
a、无任何结构化的组织结构
b、与DBMS包含结构化的信息不同，检索文本之前需要对文本进行分析和索引

20、结构化的文本：
a、包含有用的结构信息
b、结构化信息的定义根据应用来决定
①、需要将结构化的信息和非结构化的信息区分开
②、应用信息抽取技术抽取结构化的信息

21、典型的IR检索系统图：

22、性能度量：

a、查准率：根据top n的结果是否正确得到Precison=a/(a+b)
b、查全率：根据后台的结果是否全部找到得到Recall=a/(a+c)
23、文本分析：从文本中抽取有用的模式来表示文本本身
24、面临的问题：
a、如何用最少的特征(模式)来表示文本
b、如何最好的区分不同的文本
25、通常使用的文本特征
a、字符串
b、单词
c、结构化的信息
d、语义单元
26、研究者们建议
a、高频率出现的词不具有可区分性（如the me之类的）
b、低频率或者中等频率出现的词是有用的
27、因此，在IR检索系统中
a、消灭高频的词（停用词）
b、称出现频率非常高的词为停用词
c、使用其他的词建立索引
28、那些只在少数文档中频繁出现的词语对于提高对文档的查准率是有帮助的，用idf来衡量这个指标：

N是文档的总数
nk是包含第k个单词的文档的数目
如在1000个文档中，alpha出现在100个文档中，那么alpha的idf值为4.322
29、Idf用来提高查准率
30、Tf用来帮助查全率
31、将两者结合起来形成了著名的tf-idf权值计算公式，对于一个单词k在文档i中的tf-idf权值计算如下：

wik是单词i和文档k的相关度，tik是单词i在文档k中出现的次数
32、多样性问题：
a、名词的单数复数，动词的时态多样性，可以用Stemming算法解决。
b、同义词，近义词问题，可以使用词典Wordnet
c、如何在以上两种情况的时候找到合适的文档
33、词语抽取的流程：
a、从文档中抽取单词
b、Stemming 单词
c、去除停用词
d、对于每个文档中的每个词计算tf-idf值
e、使用倒排文档索引方式进行存储
34、用向量乘积的方式计算相似度：
a、对于长句子是有偏好的
b、将用户查询Q和文档Di表示成带权值词向量：
Q=(q1,q2,…,qt)
Di=(di1,di2,…,dit)
c、文档Di与查询Q之间的相似性计算如下：

d、优点
简单
能够使用带权值的词
e、缺点
假定词与词之间是独立的
不能有效地处理短向量
同义词近义词问题
35、余弦相似形公式：
a、查询-文档之间的相似性使用向量的内积来衡量：

b、归一化后变成了著名的余弦公式

36、基于内容的图像搜索：
a、传统的文本搜索
基于关键词的匹配
b、多媒体搜索
基于文本的搜索方式：需要人工对多媒体数据进行标注，对于查询为图像或者视频的情况不能搜索
c、基于内容的检索方式：基于相似性度量的方法，非精确检索而是近似检索
37、基于内容的图像搜索问题：
a、感官鸿沟(Sensory Gap)：真实世界的对象被感知器感知时产生的差异，如色差
b、语义鸿沟：多媒体数据提供信号信息，人类能够识别并理解对象的语义，在多媒体的低层感知信息与人类的高层语义理解之间存在“语义鸿沟”
38、多媒体检索的特点：
a、大容量的数据
b、使用基于特征的方法
c、高维数据
d、使用相似性度量的方法
e、需要高维索引技术来有效地处理用户的查询
f、需要集成多种特征进行检索
39、基于特征的方法——相量模型：

通过向量计算相似度，然后进行排序，得到结果。