Python提取文本tf、idf

原創

2019-06-11 10:52

"""python提取文本的tfidf特徵"""

import math
from collections import Counter

# 1.語料庫
corpus = [
    'this is the first document',
    'this is the second second document',
    'and the third one',
    'is this the first document'
]

# 2.對語料進行分詞
word_list = []
for i in range(len(corpus)):
    word_list.append(corpus[i].split(' '))
print('2-->', word_list)

# 3.統計詞頻
countlist = []
for i in range(len(word_list)):
    count = Counter(word_list[i])
    countlist.append(count)
print('3詞頻-->', countlist)


# 4.定義計算tfidf公式的函數
# count[word]可以得到每個單詞的詞頻， sum(count.values())得到整個句子的單詞總數
def tf(word, count):
    return count[word] / sum(count.values())


# 統計的是含有該單詞的句子數
def n_containing(word, count_list):
    return sum(1 for count in count_list if word in count)


# len(count_list)是指句子的總數，n_containing(word, count_list)是指含有該單詞的句子的總數，加1是爲了防止分母爲0
def idf(word, count_list):
    return math.log(len(count_list) / (1 + n_containing(word, count_list)))


# 將tf和idf相乘
def tfidf(word, count, count_list):
    return tf(word, count) * idf(word, count_list)


all_dict = {}
for counte in countlist:
    counter = dict(counte)
    for k, v in counter.items():
        try:
            all_dict[k] += v
        except:
            all_dict[k] = v
print('merge-->', all_dict)

with open('tf.txt', 'w+') as tfin, open('idf.txt', 'w+') as idfin:
    for k in all_dict.keys():
        # k_tf = tf(k, all_dict)
        tfin.write(k + ' ' + str(all_dict[k]) + '\n')
        k_idf = idf(k, countlist)
        idfin.write(k + ' ' + str(k_idf) + '\n')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

word2vec 過程理解&詞向量的獲取

網上有很多這方面的資源，詳細各位都能夠對於word2vec瞭解了大概，這裏只講講個人的理解，目的：通過對於一個神經網絡的訓練，得到每個詞對應的一個向量表達基於：這個神經網絡，是基於語言模型，即給定T個詞的字符串s，計算s

2020-07-08 10:23:34

Language Model and Recurrent Neural Networks （一）

本文是我去年十月份在公司的團隊技術分享會里面分享過的內容，分享這個內容的初衷是我發現自己對RNN(本文均指Recurrent Neural Networks而非Recursive Neural Networks)比較陌生，想找個

2020-07-08 04:31:28

Word Embeddings And Word Sense

最近在學習2019版的CS224N，把所聽到的知識做成筆記，以便自己不時地回顧這些知識，另外還希望可以方便沒有時間看課程的朋友們用來做個快速的overview（當然，親自上課是最好的選擇）。我也儘量地把所有課程的知識細節都寫出來

2020-07-08 04:31:28

##好好好好###開源的標註工具

## 開源的標註工具自然語言處理標記工具彙總 https://blog.csdn.net/wangyizhen_nju/article/details/94559607 spacy原來有兩個標註工具，displaCy-ent和displ

2020-07-08 02:12:32

NLP訓練營之問答系統——替換用戶輸入句子中錯誤單詞

替換用戶輸入句子中錯誤單詞構建詞典庫需要生成所有候選集合讀取路透社語料庫構建語言模型：bigram用戶打錯的概率統計 - channel probalility主函數構建詞典庫 # Python rstrip() 刪除 str

2020-07-07 21:48:25

DP之最大連續子序列

最大連續子序列 def maxSubArray(self, nums): # 判斷特殊情況 if len(nums) == 1: return nums[0] # 先初始化

2020-07-07 21:48:25

DP之 0-1 揹包問題

0-1 揹包問題 import numpy as np def knapsack(w, v, C): # 重量和價值一一對應的數組，揹包的容量 # 定義存儲空間並初始化 mem = np.ze

2020-07-07 21:48:25

DP之零錢兌換問題

零錢兌換問題 def coinChange(coins, amount): # 給你的零錢面額(不限數量）要湊的總面額 # 異常判斷特殊情況（完全不可能有解的情況！） if amount =

2020-07-07 21:48:25

語義角色標註相關論文解析

語義角色標註（Semantic Role Labeling，SRL）的使用範圍很廣泛，可以作爲信息抽取（Information Extraction）、自動答覆（Question Answering）、機器翻譯（Machine T

2020-07-07 18:10:12

HanLP《自然語言處理入門》筆記--3.二元語法與中文分詞

文章目錄3. 二元語法與中文分詞3.1 語言模型3.2 中文分詞語料庫3.3 訓練與預測3.4 HanLP分詞與用戶詞典的集成3.5 二元語法與詞典分詞比較3.6 GitHub項目筆記轉載於GitHub項目：https://gi

2020-07-07 14:41:56

Word2vec_1

初識Word2vec Christopher Manning CS224n 2019秋 Overview Word2vec由Mikolov 在2013年提出，是一個學習詞向量（表示）的框架。 Idea 現實世界中，首先

2020-07-07 14:29:43

【NLP CS224N筆記】Lecture 12 - Information from parts of words Subword Models

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

吳恩達自然語言處理專項課程一覽表(英譯中)

1. 介紹由吳恩達主持的NLP課程。網址上面鏈接打不開，可在B站看，網址計劃：先翻譯全視頻，其次按照課程簡要歸納概括，最後自己寫總結博客。時間安排：2020-7-6~2020-9-30 2. 課程內容 Course 1:

2020-07-07 13:42:25

【讀書筆記】《推薦系統(recommender systems An introduction)》第六章推薦系統的解釋

如何給推薦系統的結果給予解釋？ 1. 基於約束的推薦系統：這種系統的商品都有各種屬性，用戶只知道個大概，但是不完全清楚各種屬性，推薦系統在幫助用戶一步步接近用戶最終的期望。屬性就是產生推薦理由的關鍵。本書中採用了一些推理方法來生成理由

2020-07-07 07:13:57

2019年CS224N課程筆記-Lecture 5: Linguistic Structure: Dependency Parsing

資源鏈接：https://www.bilibili.com/video/BV1r4411，部分內容參考來自於碼農場 » CS224n筆記6 句法分析和https://zhuanlan.zhihu.com/p/110532288 補充內容

任菜菜学编程

2020-07-07 04:20:10

24小時熱門文章

最新文章

最新評論文章