Python_文本分析_TF-IDF

原創

2020-06-16 15:24

1. TF-IDF介紹

2. 計算邏輯

我這裏使用了一個簡單的數據集幫助大家理解TF-IDF的計算（如下）。數據集爲自定義的corpus，一共有四段文本，每一段都比較少來幫助理解計算邏輯。

import numpy as np
import pandas as pd 
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer

corpus = [ '原子彈 芒果 應用', '芒果 應用', '原子彈 應用', '應用']

vectorizer = CountVectorizer()          
transformer = TfidfTransformer()       
X = vectorizer.fit_transform(corpus)   

tfidf = transformer.fit_transform(X)  
word = vectorizer.get_feature_names() 
weight = tfidf.toarray()               
for i in range(len(weight)):      
    print("-------第", i+1, "段文本的詞語tf-idf權重------")
    for j in range(len(word)):
        print(word[j], weight[i][j])

計算接結果爲：

-------第 1 段文本的詞語tf-idf權重------
原子彈 0.640434054078
應用 0.423896738316
芒果 0.640434054078
-------第 2 段文本的詞語tf-idf權重------
原子彈 0.0
應用 0.551939416352
芒果 0.833884212992
-------第 3 段文本的詞語tf-idf權重------
原子彈 0.833884212992
應用 0.551939416352
芒果 0.0
-------第 4 段文本的詞語tf-idf權重------
原子彈 0.0
應用 1.0
芒果 0.0

3. 實現用例

下面我們將使用一個具體的數據集來實現IF-IDF模型。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

頻繁FullGC線上問題排查

一、問題近期頻繁收到關於FullGC的告警二、基礎知識介紹 2.1 Java內存結構目前系統使用的是ParNewGC、CMS垃圾回收，此時的1.8JDK內存模型如下：注意大對象可以直接放到老年代中，可以通過-XX:Pretenur

2024-05-06 23:55:18

我在下載模塊的時候下不下來出現這種情況是什麼意思？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python庫下載失敗的問題。問題如下：我在下載模塊的時候下不下來出現這種情況是什麼意思？二、實現過程這裏【莫生氣】給了一個指導：執行那

2024-05-06 21:49:13

[oeasy]python0015_鍵盤改造_將esc和capslock對調_hjkl_移動_雙手正位

鍵盤改造 🥋 回憶上次內容上次練習了複製粘貼按鍵作用 <kb

2024-05-06 11:45:36

教你用Perl實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用Perl實現Smgp協議》，作者：張儉。引言&協議概述中國電信短消息網關協議（SMGP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message Gateway Pro

2024-05-06 10:32:43

有遇到過嗎？同樣的規則 Excel 中比Python 結果大

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python處理Excel數據讀取的問題。問題如下：有遇到過嗎？同樣的規則 Excel 中比Python 結果大？二、實

2024-05-01 09:49:01

這種運行結果裏的10.100000001，怎麼能最快改成10.1？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python基礎的問題。問題如下：這種運行結果裏的10.100000001，怎麼能最快改成10.1，所有結果都最多一位小數。二、實現過程

2024-04-30 21:49:58

通義靈碼實戰系列：一個新項目如何快速啓動，如何維護遺留系統代碼庫？

作者：別象進入 2024 年，AI 熱度持續上升，翻閱科技區的文章，AI 可謂是軍書十二卷，卷卷有爺名。而麥肯錫最近的研究報告顯示，軟件工程是 AI 影響最大的領域之一，AI 已經成爲了軟件工程的必選項，也有研究稱開發者每天的事務性工作可

2024-04-30 21:12:20

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

Spring AI 搶先體驗，5 分鐘玩轉 Java AI 應用開發

作者：劉軍 Spring AI 是 Spring 官方社區項目，旨在簡化 Java AI 應用程序開發，讓 Java 開發者像使用 Spring 開發普通應用一樣開發 AI 應用。 Spring Cloud Alibaba AI 以 Spr

2024-04-29 21:12:12

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

11個Python循環技巧

本文分享自華爲雲社區《Python中的循環技巧指南》，作者：檸檬味擁抱。當我們處理數據時，有時候需要創建多個列表以存儲不同類型或不同條件下的數據。在Python中，我們可以利用循環來快速、高效地創建這些列表。本文將介紹如何使用循環在Pyt

2024-04-28 10:33:08

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

24小時熱門文章

最新文章

最新評論文章