从词袋到 tf-idf

原創

2020-07-05 12:30

复习一下文本处理的一些基本概念。

词袋：Bag-of-words，基於单词数量统计的最简单的文本特征表示方法。对于文本数据，词袋可以理解为单词数量的统计列表。

文本“it is a puppy and it is extremely cute”具有下图中的词袋表示。原始文本是一个单词序列，但词袋中没有任何序列，它只记录每个单词在文本中出现的次数。

n元词袋：(bag-of-n-grams)是词袋的一种自然扩展。n-gram(n 元词)是由 n 个标记 (token)组成的序列。n-gram 能够更多地保留文本中的初始序列结构。

1-gram 就是一个单词(word)，又称为一元词(unigram)。经过分词(tokenization)之后，计数机制会将单独标记转换为单词计数，或将有重叠的序列作为 n-gram 进行计数。例如，句子“Emma knocked on the door”会生成 n-gram“Emma knocked”“knocked on”“on the”和“the door”。

tf-idf：在词袋方法基础上的一种简单扩展，它表示词频 - 逆文档频率。

bow(w, d) = 单词 w 在文档 d 中出现的次数
tf-idf(w, d) = bow(w, d) * N / ( 单词 w 出现在其中的文档数量 )

N 是数据集中的文档总数。分数 N / ( 单词 w 出现在其中的文档的数量 ) 就是所谓的逆文档频率。如果一个单词出现在很多文档中，那么它的逆文档频率就接近于 1。如果一个单词只出现在少数几个文档中，那么它的逆文档频率就会高得多。

如果将 tf-idf 定义为:
tf-idf(w, d) = bow(w, d) * log(N / 单词 w 出现在其中的文档数量 )

那么就可以有效地将一个几乎出现在所有单个文档中的单词的计数归零，而一个只出现在少数几个文档中的单词的计数将会被放大。

参考：《精通特征工程》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

特征工程入门与实践----特征增强

特徵增強是對數據的進一步修改，我們開始清洗和增強數據。主要涉及的操作有識別數據中的缺失值刪除有害數據輸入缺失值對數據進行歸一化/標準化 1. 識別數據中的缺失值特徵增強的第一種方法是識

勤奋的小学生

2020-07-06 20:33:18

特征工程入门与实践----特征工程简介

人工智能的發展，讓我們將那些需要手動操作才能處理的問題，讓計算機也可以解決。例如，自然語言處理、人臉識別和圖片分類等。因此，我們需要藉助機器學習的知識來構建一個AI系統，從用戶那裏讀取到原始數據，讓計算機來幫助我們

勤奋的小学生

2020-07-06 20:33:18

特征工程入门与实践----特征理解

特徵理解，簡單說就是理解數據中都有什麼，對數據的理解方便我們認清數據，從而對數據進行操作，構造有用的特徵。我們將從以下幾個方面來認清數據：結構化數據與非結構化數據定量數據與定性數據數據的4個等級探索性數據

勤奋的小学生

2020-07-06 20:33:18

时间切片特征衍生

在sql中比較容易處理類似“近n個月金額之和／最大值／最小值／平均值” 這樣的變量，使用sum(case when date then amount else 0 end) 即可，如果是出差在外只能處理離線數據不能使用數據庫時，這個時候

2020-07-05 12:30:32

jieba 中文分词介绍及使用

目錄基本介紹功能及使用 1. 分詞 2. 添加自定義詞典 2.1 載入詞典 2.2 調整詞典 3. 關鍵詞提取 3.1 基於 TF-IDF 算法的關鍵詞抽取 3.2 基於 TextRank 算法的關鍵詞抽取 4. 詞性標註 5

2020-07-05 12:30:32

fasttext算法原理及使用

1. FastText原理 fastText是一種簡單高效的文本表徵方法，性能與深度學習比肩。fastText的核心思想就是：將整篇文檔的詞及n-gram向量疊加平均得到文檔向量，然後使用文檔向量做softmax多分類。這中間涉及到兩個

2020-07-05 12:30:32

特征工程（一）——数值数据

2020-07-05 10:54:07

【精通特征工程】学习笔记（二）

【精通特徵工程】學習筆記Day2&2.5&D3章&P33-頁 3、文本數據:扁平化、過濾和分塊 3.1 元素袋:將自然文本轉換爲扁平向量 3.1.1 詞袋一個特徵就是一個單詞，一個特徵向量由這個單詞在每篇文檔中出現的次數組成

2020-07-05 05:52:56

处理正负样本不均衡问题

在原文的基礎上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 進行修改。記憶輔助：樣本不均衡就是正樣本太少，負樣本太對，(1)增加正樣本-過採樣;減少負樣本-

2020-07-03 17:35:33

数据挖掘——特征选择

數據挖掘——特徵選擇前言特徵選擇前言特徵選擇是數據挖掘人物中相當重要的一步，選擇地好既能去除冗餘特徵減少不必要的計算，又能增加數據的表達性，增加算法的準確率。特徵選擇的方法很多，需要一個蘿蔔一個坑，所以需要找到最適合當前任務的

2020-07-03 16:10:50

特征工程——特征交叉、交叉特征、特征组合

特徵工程——特徵交叉、交叉特徵、特徵組合關於特徵交叉的作用以及原理，我這裏不進行詳細描述，因爲大佬們已經說得很清楚了，這裏就附上幾個連接：特徵組合&特徵交叉 (Feature Crosses) 結合sklearn進行特徵工程

2020-07-03 16:10:50

数据挖掘——为什么使用哑变量？哑变量有哪些作用？哪些情况应该使用哑变量？

數據挖掘——爲什麼使用啞變量？啞變量有哪些作用？哪些情況應該使用啞變量？直接給鏈接： https://www.cnblogs.com/sddai/p/8834373.html

2020-07-03 16:10:50

问题记录——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'解決辦法:降級numpy 可以使用如下寫入h5文件 df.to_hdf('../te

2020-07-03 16:10:50

day 7 特征选择

import pandas as pd import numpy as np data = pd.read_csv("digit recognizor.csv") # print(data.head()) x = data.iloc[

口袋里的小小哥

2020-07-03 03:13:47

特征工程（总结）

一、數據清洗 1.1 預處理 1）數據處理工具的選擇：一般選用數據庫處理和Python等工具處理。 2）查看數據的元數據以及數據特徵 1.2 缺省值處理（刪除、補全）缺省值處理的一般步驟：確定缺省值範圍

笨拙的石头

2020-07-03 00:36:35

24小時熱門文章

最新文章

最新評論文章