数据竞赛 Task2

原創

2019-04-07 14:01

TF-IDF，即“词频-逆文本频率”。它由两部分组成，TF和IDF。

TF就是词频，我们之前做的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征。

IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高，比如一些专业的名词如“Machine Learning”，这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

这里直接给出一个词xx的IDF的基本公式如下：

$IDF(x)=log\tfrac{N}{N(x)}$

其中，N代表语料库中文本的总数，而N(x)代表语料库中包含词x的文本总数。

上面的IDF公式已经可以使用了，但是在一些特殊的情况会有一些小问题，比如某一个生僻词在语料库中没有，这样我们的分母为0， IDF没有意义了。所以常用的IDF我们需要做一些平滑，使语料库中没有出现的词也可以得到一个合适的IDF值。平滑的方法有很多种，最常见的IDF平滑后的公式之一为：

$IDF(x)=log\tfrac{N+1}{N(x)+1}+1$

代码：

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

train = pd.read_csv('./data/train_set.csv', nrows=1000, index_col=None)
tfidf_model = TfidfVectorizer(max_features=10, min_df=1).fit_transform(train['article'])
print(tfidf_model.todense())

输出：

[[0.81094896 0.03069051 0.10402692 ... 0.30445217 0.20972818 0.25778147]
 [0.55069662 0.1056866  0.24308439 ... 0.49144636 0.1564821  0.50241498]
 [0.60866709 0.11133641 0.14187214 ... 0.15113737 0.45383072 0.45390683]
 ...
 [0.60949257 0.05016933 0.09717215 ... 0.24884174 0.24379703 0.54624834]
 [0.3078827  0.         0.03272408 ... 0.15084168 0.38485338 0.52033483]
 [0.58033419 0.03980768 0.07710283 ... 0.23693705 0.56219874 0.39008669]]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Faker——NLP造数据神器

Faker——NLP造數據神器寫在前面：開源詞典——funNLP （1）碼雲地址：https://gitee.com/

2020-07-07 21:48:25

代码+步骤GM（1，1）灰色预测模型-案例长江水质综合评价赛题-级比检测C的确定-matlab完整代码附送

GM（1，1）灰色預測模型-案例長江水質綜合評價賽題第三題-matlab完整代碼附送看到上一篇Blog在短短几天Pageviews就達到了1300多，看來大家還是比較中意建模上的筆記🤭，小白一個，也是是自己在學習上的經驗總結與教

侯永琪在修行

2020-07-08 09:25:15

关系抽取入门级概览

因爲課題組的需要，過去幾個月一直在學習強化學習和魯棒性算法。再加上忙於課題組中的一些工作，所以過去兩個月基本沒有什麼時間來寫博客。最近讀了不少強化學習和魯棒性算法方面的論文，也有一些小的收穫，等有時間再通過博客分享出來。今天分享的是我近期

2020-07-08 04:10:07

ACL 2018 和 2018 AAAI 接受关于知识图谱的论文简述

1.Variational Reasoning for QuestionAnswering with Knowledge Grap 摘要： QA存在的問題：問題存在噪音；需要經過多輪推理才能找到答案。提出基於

垮掉的一代人

2020-07-07 23:44:13

NLP训练营之问答系统——替换用户输入句子中错误单词

替換用戶輸入句子中錯誤單詞構建詞典庫需要生成所有候選集合讀取路透社語料庫構建語言模型：bigram用戶打錯的概率統計 - channel probalility主函數構建詞典庫 # Python rstrip() 刪除 str

2020-07-07 21:48:25

常见的英文文本处理步骤

常見的英文文本處理流程中都包含哪些步驟 1.導入相應的類庫 import nltk from nltk import word_tokenize, sent_tokenize 2.導入數據 corpus = open(‘數據路徑’

2020-07-07 21:45:16

自然语言处理总概括

自然語言處理自然語言處理是什麼自然語言處理(Natural Language Process)就是利用計算機來處理人類語言的學科，屬於計算機與語言學的交叉學科。自然語言處理有哪些技術大致包括如下技術: 1.分詞(Word

2020-07-07 21:45:16

助力句子变换：35W抽象、43W同义、13W简称三大知识库对外开源

句子變換，是指根據給定中文句子，藉助某種語言處理手段，擴展出一定數據規模的中文句子集合，是一個從1到N的過程，目的在於解決搜索（查詢擴展）、分類（樣本擴充）、抽取（數據回標）、推薦與生成（關聯引導）等多個工業級應用任務。我們發現

liuhuanyong_iscas

2020-07-07 20:02:19

NLP实践-Task1

對cnews數據做一些數據處理 import jieba import pandas as pd import tensorflow as tf from collections import Counter from gensim.m

2020-07-07 14:43:23

CPCY模型_CodingPark编程公园

項目圖紙 https://awwapp.com/b/uo8xhbtbef9cg/ CPCY策劃圖紙-鏈接 https://www.processon.com/view/link/5efde50fe401fd1fd2b

2020-07-07 12:20:22

词向量-Glove理解推导

Glove模型模型目標：進行詞的向量化表示，使得向量之間儘可能的蘊含語義和語法的信息 Glove用詞向量表達共現詞頻的對數代價函數：模型推導（不是很嚴謹）首先給予一些定義共現詞頻Xi,j 表示若中心詞爲i，語境詞j出現的次數

2020-07-07 08:49:04

切分算法[完全切分 & 正向 & 逆向 & 双向最长匹配 & 速度测评]_CodingPark编程公园

詞典分詞切分算法詞典導入 # -*- coding:utf-8 -*- # Author：AG # Date: 2020-07-5 from pyhanlp import * def load_dictionary():

2020-07-07 08:22:54

关于nn.embedding的中padding_idx的含义

自然語言中使用批處理時候, 每個句子的長度並不一定是等長的, 這時候就需要對較短的句子進行padding, 填充的數據一般是0, 這個時候, 在進行詞嵌入的時候就會進行相應的處理, nn.embedding會將填充的映射爲0 其中padd

透明的红萝卜221

2020-07-07 06:38:55

2019年CS224N课程笔记-Lecture 5: Linguistic Structure: Dependency Parsing

資源鏈接：https://www.bilibili.com/video/BV1r4411，部分內容參考來自於碼農場 » CS224n筆記6 句法分析和https://zhuanlan.zhihu.com/p/110532288 補充內容

任菜菜学编程

2020-07-07 04:20:10

Bert编码训练NER实体偏移的问题

在這裏記錄一下踩過的坑在訓練樣本中幾乎沒有前面一大串英文或者數字，然後後面跟實體的情況，所以訓練起來還挺平穩的。但是在預測的時候遇到了這種情況，造成實體可以識別出來，但是實體的預測結果下標錯了（表現爲下標提前了）造成這一問題

2020-07-07 04:09:15

24小時熱門文章

最新文章

最新評論文章