[nlp] sklearn——CountVectorizer

原創

熊熊的小心心

2020-06-22 19:00

CountVectorize（詞頻矩陣）

CountVectorizer是屬於常見的特徵數值計算類，是一個文本特徵提取方法。
對於每一個訓練文本，它只考慮每種詞語在該訓練文本中出現的頻率。

CountVectorizer會將文本中的詞語轉換爲詞頻矩陣，它通過fit_transform函數計算各個詞語出現的次數。

CountVectorizer(input='content', encoding='utf-8',  decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, 
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

CountVectorizer類的參數很多，分爲三個處理步驟：preprocessing、tokenizing、n-grams generation.
一般要設置的參數是:ngram_range , max_df，min_df，max_features等，具體情況具體分析。

max_df : 可以設置爲範圍在[0,1]的float,也可以設置爲沒有範圍限制的int , 默認爲1.0。
這個參數作爲一個閾值，如果某個詞的詞頻 > max_df , 則這個詞不會被當作關鍵詞。
如果這個參數是float，則表示詞出現的詞數與語料庫文檔數的百分比。
如果這個參數是 int ，則表示詞出現的詞數。
如果參數已經給定了vocabulary，則這個參數無效。
min_df : 類似於max_df, 不同之處在於如果某個詞的document frequence < min_df ，則這個詞不會被
當作關鍵詞。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

word2vec 過程理解&詞向量的獲取

網上有很多這方面的資源，詳細各位都能夠對於word2vec瞭解了大概，這裏只講講個人的理解，目的：通過對於一個神經網絡的訓練，得到每個詞對應的一個向量表達基於：這個神經網絡，是基於語言模型，即給定T個詞的字符串s，計算s

2020-07-08 10:23:34

Word2vec_1

初識Word2vec Christopher Manning CS224n 2019秋 Overview Word2vec由Mikolov 在2013年提出，是一個學習詞向量（表示）的框架。 Idea 現實世界中，首先

2020-07-07 14:29:43

推薦-代碼-李航老師-《統計學習方法》第二版

推薦李航老師的《統計學習方法》第二版的代碼實現網站：（1）https://github.com/fengdu78/lihang-code （2）https://github.com/WenDesi/lihang_book_alg

2020-07-07 00:27:32

關於LDA的一些思考

問1：LDA生成一個文檔的過程是什麼樣的？答1：1）根據預料級參數α，生成文檔d的主題分佈Θ_d~p(Θ|α) 2）對於文檔d中每個位置i對應的單

2020-07-07 00:04:37

關於LSTM解決梯度彌散爆炸問題解析

轉自知乎@Towser 原鏈接 “LSTM 能解決梯度消失/梯度爆炸”是對 LSTM 的經典誤解。這裏我先給出幾個粗線條的結論，詳細的回答以後有時間了再擴展： 1、首先需要明確的是，RNN 中的梯度消失/梯度爆炸和普通的 MLP 或

2020-07-06 13:14:13

NLP 數據集整理(持續更新。。。)

這篇文章總結了我看到的NLP相關論文中使用的語料數據，將會持續更新。小夥伴們如果也知道文中沒有的數據集，歡迎大家在評論中告訴我~只要寫數據集的名字，對應文章和下載網址就可以，我看到會第一時間添加到本文中^.^ 用於NLP實驗的各

2020-07-05 23:48:38

2、TF-IDF和BM25計算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

bert模型裁剪及標籤平滑在短文本意圖識別中的效果分析

1、bert網絡模型base有12層，隱含層大小：H=768，詞向量參數矩陣：W = V*H，V大概在兩萬多， 12個attention head，每個投的QKV矩陣：H * （H/12）前饋層參數量是H * 4H = 768 *

2020-07-05 22:00:28

阿里、騰訊、滴滴等社招面試問題整理

已入職阿里，騰訊總監面聊得不開心，掛，也拿到滴滴offer 1、爲何會梯度消失和爆炸：消失：BPTT時，多個激活函數導數的相乘導致解決：LSTM、BN、RELU 爆炸：權重函數初始化過大，

2020-07-05 22:00:28

1、word2vec

1、以前怎麼計算兩句話的相似度呢？就是詞袋模型我很帥》[1（我）,1（帥）,1（很）,0（不）] 我不帥》[1,1,0,1] 2、現在怎麼計算呢？就是把每個字轉換成一個向量（也可以把一句話變成一個向量

2020-07-05 22:00:28

fastText解讀

背景上一章的Word2Vec解讀我們瞭解到了一種快速對詞語進行embedding的方式，對於文本分類任務，fasttex被facebook提出，具體論文見《Bag of Tricks for Efficient Text Cl

2020-07-05 05:26:28

tf-idf使用-提取文章關鍵詞-搜索文章

tf-idf 使用我們的目標是提取一篇文章中的關鍵詞 or 給出關鍵詞，在語料庫中找到這組關鍵詞最相近的文章。兩個目標要解決的問題是差不多的。今天用一種很簡單卻很有效的方法來解決這個問題， TF-IDF。在本文，我們選取第二種

2020-07-04 17:18:55

Speech and Natural Language Processing相關資源列表

Refer to https://github.com/edobashira/speech-language-processing A curated list of speech and natural language process

2020-07-04 09:16:03

利用Python輕鬆實現圖片相似度對比（二）

五：圖像指紋對每一張圖片生成一個“指紋”，通過比較兩張圖片的指紋，來判斷他們的相似度，是否屬於同一張圖片。主要通過比較漢明距離來比較圖片，值越小，越相似 1：均值哈希算法（Average hash algorithm）

2020-07-04 07:12:50

【轉載】NLP從詞袋到Word2Vec的文本表示

前面說明：近期在學習nlp方面的知識背景，恰巧看到一篇挺全面的科普性博客（來自掘金社區mantch用戶，侵權必刪），傳送門：https://juejin.im/post/5cd41afa6fb9a032332b47a4 此

2020-07-04 02:46:48

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章