TFIDF文本分析

原創

青木长风

2019-05-08 03:24

TF-IDF是一種文本特徵提取統計算法。

什麼是詞頻？
詞頻（TF）即一個詞語在文本中出現的頻率。
文本總數（D）：所蒐集的所有文本數。
含關鍵詞的文本數（Dw）：含有某個詞（關鍵字）的文本數目。

公式：
TF-IDF（w）=TF（w）*IDF（w）
TF（w）=w在所有文件中出現的次數/該文件的總詞數。
IDF（w）=log(D/(Dw+1)）//+1避免分母爲0

IDF的作用：
降低具有普遍性詞語的權重（比如一些語氣詞），提升具有個性化的詞的頻率。

總結一下就是：
一個詞的重要性和它在當前文檔中出現的次數成正比，和所有文檔中出現的次數成反比。

對於中文的文本進行處理的步驟：
1.分詞處理
2.生成向量
3.根據向量去做主題聚類

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

An Overview of Reinforcement Learning

強化學習概覽 This overview is largely based on this article: https://medium.com/@SmartLabAI/reinforcement-learning-algorithms

tangwing

2020-07-08 12:16:49

算法系列01----插入排序

插入排序法 1.工作原理（算法思路）新建一個指針，指針左邊的所有元素都是有序的。但是他們的位置並不是最終位置，一個指針從左向右掃描，若指針所在處的元素比左邊元素小，則將該元素向前浮動至適當位置，使指針左側元素仍然保持有序。當指針掃描到整

zhengwei_cq

2022-07-27 13:26:21

算法設計與分析【0】要點

33 Audrey

2020-07-08 12:35:25

算法設計與分析【2】分治算法

分治基本思想影響算法複雜度的因素經典案例1 二分檢索設計思想僞碼2 二分歸併設計思想僞碼3 漢諾塔設計思想僞碼4 快速排序設計思想僞碼實例5 快速傅里葉變換（信號平滑處理）問題描述設計&分析減少子問題個數案例：大數相乘設計思想參考

33 Audrey

2020-07-08 12:35:24

XGBoost探索

XGBoost可以用來分類，迴歸，排序。支持多種語言：C++, Python, R, Java, Scala, Julia。安裝參考https://xgboost.readthedocs.io/en/latest/buil

路越

2020-07-08 12:17:40

常用的評測指標

NDCG（Normalized Discounted Cumulative Gain）: 維基百科寫的很清楚。注意理解這四個詞。 Discounted：順序影響指標。 Normalized：消除文檔個數對指標的影響。

路越

2020-07-08 12:17:29

路越

2020-07-08 12:17:28

[NOTE in progress] Simulation Optimization

簡單記錄一下關於仿真優化的一些知識點和思考。主要基於：Handbook of Simulation Optimization, Michael Fu Table of Contents Overview Discrete Optimiza

tangwing

2020-07-08 12:17:01

A Road Map for Deep Learning

點這個： https://towardsdatascience.com/a-road-map-for-deep-learning-b9aee0b2919f

tangwing

2020-07-08 12:17:01

Stochastic Optimization: Casual Notes

Currently learning stochastic optimization (SO) theory, I will note important content here. Some book references ar

tangwing

2020-07-08 12:17:01

[NOTE in progress] Distributed Optimization and Statistical Learning via ADMM - Boyd

Reading notes of the paper "Distributed Optimization and Statistical Learning via ADMM" by Boyd, Parikh, Chu, Peleato a

tangwing

2020-07-08 12:16:50

[NOTE in progress] ECE236C - Optimization Methods for Large-Scale Systems [on going]

Source:http://www.seas.ucla.edu/~vandenbe/ee236c.html Introduction Outline First-order algorithms Decomposition and s

tangwing

2020-07-08 12:16:49

【轉載】Overview of gradient descent algorithms

Overview of gradient descent algorithms An overview of gradient descent optimization algorithms Gradient descent is

tangwing

2020-07-08 12:16:49

leetcode-112-路徑總和

function TreeNode(val) { this.val = val; this.left = this.right = null; } 解一：遞歸先判斷樹結構是否爲null，如果是null，直接

叄贰壹

2020-07-08 12:04:52

Mysql疑難雜症收集

Mysql疑難雜症收集 By Eagoo 　　　　一、可疑問題：　　　　　　　　mysql>show processlist; 　　　　

单线程的娃

2020-07-08 12:00:56

24小時熱門文章

TFIDF文本分析

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

字節跳動數據研發實習面經（一面二面）

numpy的mat和array的區別

KNN實現手寫數字識別（代碼讀懂後復現）

pandas基本操作——1

Numpy.array[]的:與::與:,:的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結