python机器学习之朴素贝叶斯分类器

原創

龙在水中游

2020-05-23 08:35

朴素贝叶斯通常是用于文本分类，通过计算每种类别的概率，其中寻找最大的概率所在的类别，即为结果分类。

朴素的意思为假定文本属性之间是相互独立的。

有时需要用到拉布拉斯平滑系数。

优点：对缺失值不敏感，速度快。

缺点：由于假设样本特征相互独立，所以样本属性关联强的时候，分类效果不好。

下面以20条新闻为例：

首先引入类

from sklearn.datasets import fetch_20newsgroups

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB

然后定义函数：

def nb_news():
    #朴素贝叶斯对新闻进行分类
    #1 获取数据
    news=fetch_20newsgroups(subset="all")
    # 2.划分数据集
    x_train,x_test,y_train,y_test=train_test_split(news.data,news.target)
    # 3.特征工程：tfidf
    transfer=TfidfVectorizer()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test) #此处若用fit_transform，会报维度不匹配的错误
    # 4.朴素贝叶斯
    estimator=MultinomialNB()
    estimator.fit(x_train,y_train)
    # 5.模型评估
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)
    # 2.计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)
    return None

结果为：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《动手学习深度学习》笔记之模型复杂度与训练集大小

二、模型複雜度與訓練集大小模型訓練經常出現兩類現象：過擬合（訓練誤差遠小於泛化誤差）和欠擬合（訓練誤差較高），導致這兩類現象的兩個重要因素是：模型複雜度和訓練集大小。機器學習模型應關注降低泛化誤差。 1. 訓練集大小如果訓練集

「已注销」

2020-07-08 08:57:51

深度学习&机器学习基础之1-从误差讲起

從誤差講起1. 誤差2. 正則化2.1 L1L_1L1正則化2.2 L2L_2L2正則化 1. 誤差試想一下，你辛辛苦苦訓練了一個自認爲超級牛逼的神經網絡，但是一到測試集上驗證，發現結果並不符合預期，是不是就開始懷疑人生了呢

2020-06-29 20:34:42

FM &FFM：深入理解FM与FFM

0.引言針對類別變量進行oner-hot編碼後的高維稀疏矩陣M，可以表示如下：可以看出，經過One-Hot編碼之後，大部分樣本數據特徵是比較稀疏的， One-Hot編碼的另一個特點就是導致特徵空間大。例如，電影品類有550維特徵，一

2020-06-25 12:58:53

度量方法：PR & F1 & AUC

1. Precision an Recall 計算公式： precion=TPTP+FPprecion = \frac{TP}{TP+FP}precion=TP+FPTP recall=TPTP+FNrecall = \f

2020-06-25 12:58:53

深度学习word2vec笔记之基础篇算法篇应用篇--写的非常到位

深度學習word2vec筆記之基礎篇聲明： 1）該博文是多位博主以及多位文檔資料的主人所無私奉獻的論文資料整理的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻 2）本文僅供學術交流，非商用。所以每一部分具

2020-06-23 04:32:22

安装ROS时，rosdep init出错的解决办法

安裝ROS時，rosdep init出錯的解決辦法一般是網絡問題造成的，在軟件更新中將下載源更改爲國內的源，我試了幾個，使用aliyun（阿里雲），然後在終端更新： sudo apt-get update sudo apt-ge

空山明月_Blog

2020-06-21 12:53:23

[机器学习与深度学习] - No.6 ImageNet数据集预处理方式

在之前工作中，遇到了一個問題，在Google和Github的幫助下解決了，總結一下防止以後再次遇到。問題描述：當我們使用Keras自帶的VGG16，VGG19等模型在ImageNet上做圖像識別的時候，Top-1和Top-5

2020-06-16 12:04:04

Python 绘图（柱状图，曲线图，3D图）

這裏分享常用的Python Matplotlib繪製的圖，在數據分析和可視化中很有用，這裏介紹三種，柱狀圖，折線圖以及3D圖，更多類型的圖見文末我的github。 1. 柱狀圖 # -*- coding: utf-8 -

2020-06-16 09:38:54

python机器学习之用决策树处理泰坦尼克号数据

首先需要引入需要的類 from sklearn.tree import DecisionTreeClassifier,export_graphviz from sklearn.feature_extraction import Dict

龙在水中游

2020-06-16 08:55:14

pytorch中数据格式变换及创建掩码mask示例

pytorch中數據格式變換及創建掩碼mask示例常用維度轉換方法 import torch case = torch.arange(0, 6).view(2, 3) print(case, case.size()) # ten

2020-06-15 22:49:05

用例子与代码详解LSTM层的输入输出，以Keras为例

先附上代碼： from keras import Sequential from keras.layers import LSTM model = Sequential() model.add(LSTM(64)) #64表示inpu

2020-06-15 22:49:05

linux下配置部署Tensorflow深度学习模型运行环境并使用Tornad0框架实现多进程

1.配置python環境（0）通過命令sudo su切換爲root用戶（1）安裝Anaconda 首先在Anaconda官方下載地址下載Anaconda安裝文件，如Anaconda3-5.1.0-Linux-x86_64.sh。下載

2020-06-15 22:49:05

交叉熵与最大似然函数的关系：殊途同归

關鍵詞：貝努力分佈多項式分佈最大似然函數：用來衡量相似性，爲了方便計算，引出對數似然交叉熵殊途同歸店長強烈推薦：哈？你還認爲似然函數跟交叉熵是一個意思呀？ Reference: [1] 夕小瑤的賣萌屋

2020-06-15 22:49:05

Attention机制之Transformer

文章目錄Attention機制 -- Transformer0. 代碼1. Scaled Dot-product Attention2. Multi-head Attention3.殘差網絡，Normalization與feed-

2020-06-15 22:49:05

机器学习与深度学习算法集锦

本博客出於不斷學習和完善更新中，會有錯誤之處，還請指出更正。機器學習邏輯迴歸決策樹 XGboost 隨機森林梯度提升樹，GBDT LightGBM Boosting 算法貝葉斯網絡 EM HMM 隨機變量及其分佈？

2020-06-10 03:48:05

24小時熱門文章

最新文章

最新評論文章