web搜索学习笔记

原創

rrerre

2020-07-08 09:36

首先是分词, 即将文本中的词汇抽取出来, 去掉stop word, 进而建立文本的反向索引.

说明 1: stop word是没有实体意义的a, the, in等单词. 值得说明的是, stop word在不同的文本中会有变化.

说明 2: 最直观的, 从文档到文档所包含的单词的索引, 称为正向索引; 同理, 从单词到包含该单词的文档的索引, 称为反向索引.

其次, 是建立查询模型. 经典的模型包括布尔模型, 向量空间模型和概率模型. 课程中介绍了前面两种.

说明 1: 布尔模型基于集合操作(与, 或, 非运算). 根据用户输入的布尔表达式树, 自底向上先求出子树表达式所在的文档集合, 在根据逻辑运算, 求出父节点表达式所在的文档集合.

说明 2: 布尔模型的优点是, 简洁而精确的表达, 以及易于实现. 因此, 绝大部分搜索引擎支持布尔模型.

说明 3: 布尔模型的缺点是, 基于集合操作, 结果集中的所有文档被视为权重相等; 用户需要一定训练, 才能使用布尔表达式.

说明 4: 向量空间模型基于3个概念: tf(i,j)指单词j在文档i中出现的频率, df(j)指包含单词j的文档数目, idf(j)=log( N/df(j) )跟df(j)反关系(其中N为文档的总数). 这样, 单词j在文档i中的权重为tf(i,j) * idf(j), 即出现频率越高, 在其他文档中出现越少, 权重越大. 根据该权重, 再采用一种相似性度量方法(比如余弦函数值)来比较用户索引词向量与文档-单词权重矩阵, 就可以得到排序后的结果文档集.

说明 5: 向量空间模型的优点是, 根据词频加权, 以及根据相似度排序, 大大改进了搜索效果.

说明 6: 向量空间模型的缺点是, 有一个隐式的假定----各个单词是独立的; 同时, 无论是词频加权, 还是相似度识别, 都是启发式的. (只要结果够好, 启发式就是伟大的).

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

web搜索学习笔记

一键自动化博客发布工具,用过的人都说好(头条篇)

編程語言入門參考

磁盤修復相關整理

web搜索學習筆記

Renesas公司的芯片的片上存儲器

Setup Remote GIT Repository Server on CentOS 7

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結