python機器學習之文本特徵提取CountVectorizer

原創

龙在水中游

2020-05-19 04:24

首先引入文本特徵提取類CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

函數爲：

def count_demo():
    #文本特徵提取count
    data=["life is short,i like like you very much"]
    #1.實例化一個轉化器類
    transform=CountVectorizer();
    #2.調用fit_transform
    data_new=transform.fit_transform(data)
    print("data_new:\n",data_new.toarray()) #默認爲稀疏矩陣，這是轉化爲二維數組形式
    print("特徵名字：\n",transform.get_feature_names())
    return None

但是CountVectorizer只能轉化英文的，不能轉化中文的，因爲是靠空格識別的。

中文文本特徵提取需要引入jieba庫，需要進行安裝。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《動手學習深度學習》筆記之模型複雜度與訓練集大小

二、模型複雜度與訓練集大小模型訓練經常出現兩類現象：過擬合（訓練誤差遠小於泛化誤差）和欠擬合（訓練誤差較高），導致這兩類現象的兩個重要因素是：模型複雜度和訓練集大小。機器學習模型應關注降低泛化誤差。 1. 訓練集大小如果訓練集

「已注销」

2020-07-08 08:57:51

深度學習&機器學習基礎之1-從誤差講起

從誤差講起1. 誤差2. 正則化2.1 L1L_1L1正則化2.2 L2L_2L2正則化 1. 誤差試想一下，你辛辛苦苦訓練了一個自認爲超級牛逼的神經網絡，但是一到測試集上驗證，發現結果並不符合預期，是不是就開始懷疑人生了呢

2020-06-29 20:34:42

FM &FFM：深入理解FM與FFM

0.引言針對類別變量進行oner-hot編碼後的高維稀疏矩陣M，可以表示如下：可以看出，經過One-Hot編碼之後，大部分樣本數據特徵是比較稀疏的， One-Hot編碼的另一個特點就是導致特徵空間大。例如，電影品類有550維特徵，一

2020-06-25 12:58:53

度量方法：PR & F1 & AUC

1. Precision an Recall 計算公式： precion=TPTP+FPprecion = \frac{TP}{TP+FP}precion=TP+FPTP recall=TPTP+FNrecall = \f

2020-06-25 12:58:53

深度學習word2vec筆記之基礎篇算法篇應用篇--寫的非常到位

深度學習word2vec筆記之基礎篇聲明： 1）該博文是多位博主以及多位文檔資料的主人所無私奉獻的論文資料整理的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻 2）本文僅供學術交流，非商用。所以每一部分具

2020-06-23 04:32:22

安裝ROS時，rosdep init出錯的解決辦法

安裝ROS時，rosdep init出錯的解決辦法一般是網絡問題造成的，在軟件更新中將下載源更改爲國內的源，我試了幾個，使用aliyun（阿里雲），然後在終端更新： sudo apt-get update sudo apt-ge

空山明月_Blog

2020-06-21 12:53:23

[機器學習與深度學習] - No.6 ImageNet數據集預處理方式

在之前工作中，遇到了一個問題，在Google和Github的幫助下解決了，總結一下防止以後再次遇到。問題描述：當我們使用Keras自帶的VGG16，VGG19等模型在ImageNet上做圖像識別的時候，Top-1和Top-5

2020-06-16 12:04:04

Python 繪圖（柱狀圖，曲線圖，3D圖）

這裏分享常用的Python Matplotlib繪製的圖，在數據分析和可視化中很有用，這裏介紹三種，柱狀圖，折線圖以及3D圖，更多類型的圖見文末我的github。 1. 柱狀圖 # -*- coding: utf-8 -

2020-06-16 09:38:54

python機器學習之用決策樹處理泰坦尼克號數據

首先需要引入需要的類 from sklearn.tree import DecisionTreeClassifier,export_graphviz from sklearn.feature_extraction import Dict

龙在水中游

2020-06-16 08:55:14

pytorch中數據格式變換及創建掩碼mask示例

pytorch中數據格式變換及創建掩碼mask示例常用維度轉換方法 import torch case = torch.arange(0, 6).view(2, 3) print(case, case.size()) # ten

2020-06-15 22:49:05

用例子與代碼詳解LSTM層的輸入輸出，以Keras爲例

先附上代碼： from keras import Sequential from keras.layers import LSTM model = Sequential() model.add(LSTM(64)) #64表示inpu

2020-06-15 22:49:05

linux下配置部署Tensorflow深度學習模型運行環境並使用Tornad0框架實現多進程

1.配置python環境（0）通過命令sudo su切換爲root用戶（1）安裝Anaconda 首先在Anaconda官方下載地址下載Anaconda安裝文件，如Anaconda3-5.1.0-Linux-x86_64.sh。下載

2020-06-15 22:49:05

交叉熵與最大似然函數的關係：殊途同歸

關鍵詞：貝努力分佈多項式分佈最大似然函數：用來衡量相似性，爲了方便計算，引出對數似然交叉熵殊途同歸店長強烈推薦：哈？你還認爲似然函數跟交叉熵是一個意思呀？ Reference: [1] 夕小瑤的賣萌屋

2020-06-15 22:49:05

Attention機制之Transformer

文章目錄Attention機制 -- Transformer0. 代碼1. Scaled Dot-product Attention2. Multi-head Attention3.殘差網絡，Normalization與feed-

2020-06-15 22:49:05

機器學習與深度學習算法集錦

本博客出於不斷學習和完善更新中，會有錯誤之處，還請指出更正。機器學習邏輯迴歸決策樹 XGboost 隨機森林梯度提升樹，GBDT LightGBM Boosting 算法貝葉斯網絡 EM HMM 隨機變量及其分佈？

2020-06-10 03:48:05

24小時熱門文章

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

最新文章

最新評論文章