web搜索学习笔记

首先是分词, 即将文本中的词汇抽取出来, 去掉stop word, 进而建立文本的反向索引.

说明 1: stop word是没有实体意义的a, the, in等单词. 值得说明的是, stop word在不同的文本中会有变化. 

说明 2: 最直观的, 从文档到文档所包含的单词的索引, 称为正向索引; 同理, 从单词到包含该单词的文档的索引, 称为反向索引.


其次, 是建立查询模型. 经典的模型包括布尔模型, 向量空间模型和概率模型. 课程中介绍了前面两种.

说明 1: 布尔模型基于集合操作(与, 或, 非运算). 根据用户输入的布尔表达式树, 自底向上先求出子树表达式所在的文档集合, 在根据逻辑运算, 求出父节点表达式所在的文档集合.

说明 2: 布尔模型的优点是, 简洁而精确的表达, 以及易于实现. 因此, 绝大部分搜索引擎支持布尔模型.

说明 3: 布尔模型的缺点是, 基于集合操作, 结果集中的所有文档被视为权重相等; 用户需要一定训练, 才能使用布尔表达式.


说明 4: 向量空间模型基于3个概念: tf(i,j)指单词j在文档i中出现的频率, df(j)指包含单词j的文档数目, idf(j)=log( N/df(j) )跟df(j)反关系(其中N为文档的总数). 这样, 单词j在文档i中的权重为tf(i,j) * idf(j), 即出现频率越高, 在其他文档中出现越少, 权重越大. 根据该权重, 再采用一种相似性度量方法(比如余弦函数值)来比较用户索引词向量与文档-单词权重矩阵, 就可以得到排序后的结果文档集.

说明 5: 向量空间模型的优点是, 根据词频加权, 以及根据相似度排序,  大大改进了搜索效果.

说明 6: 向量空间模型的缺点是, 有一个隐式的假定----各个单词是独立的; 同时, 无论是词频加权, 还是相似度识别, 都是启发式的.  (只要结果够好, 启发式就是伟大的).


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章