词袋模型

1.概述

bag of words词袋模型是信息检索领域常见的文档表示方法,BOW模型假定对于一个文档,忽略其单词顺序、语法、句法等要素,仅看做是若干词汇组合(文档中每个单词的出现都是相对独立的,不依赖于其他单词是否出现),近年来BoW模型广泛应用于计算机视觉领域

1.词频做向量值

John likes to watch movies. Mary likes too.
John also likes to watch football games.

根据上述两句话中出现单词, 构建一个字典dict:

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

该字典中包含10个单词, 每个单词有唯一索引, 词典索引顺序和单词出现在句子中的顺序没有关联。根据字典将上述两句话重新表达为下述两个向量:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

这两个向量共包含10个元素(词典角度), 向量第i个元素表示字典中第i个单词在句子中的出现次数,因此BOW模型可认为是一种统计直方图。在文本检索与处理应用中,可以通过该模型很方便的计算词频。但也能看出在构造文档向量过程中并没有表达单词在原来句子中的出现次序

2.词权重做向量值(TFIDF\CHI\MI)

2.适用场景

一个巨大文档集合D,里面共有M个文档,将文档中所有单词提取后,构成一个包含N个单词的词典,利用Bag of words模型,每个文档都可以被表示成为一个N维向量,接着可通过计算余弦来求两个文档间的相似度,也可以将这个向量作为特征向量送入分类器进行主题分类等一系列功能中去

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章