原创 python3 Boosting(AdaBoost)算法實現

算法原理:Bagging、Boosting(AdaBoost)原理與公式推導 算法步驟:                                                          import numpy as

原创 PCA(用數學原理進行推導和解釋)

首發於 我不愛機器學習 公衆號,微信號:learning_free 在學PCA的時候總是提到根據方差選主成分,方差計算貢獻率之類的,但一直不明白其中的原理,今天就來給大家解析一下。 首先是一些數學公式,大家可以找一些例子證

原创 高斯分佈、高斯混合詳細講解

這部分的內容放在下面的公衆號裏,歡迎大家閱讀。 後臺回覆高斯\color{red}{高斯}高斯即可。 後臺回覆高斯混合\color{red}{高斯混合}高斯混合即可。 每一帖都含有詳細公式推導,儘量用可以理解的語言表

原创 決策樹 CART 自編代碼 (Python3)

根據決策樹CART的原理用Python3寫出,代碼如下: from random import randrange # 根據閾值對單個屬性數據(數值)進行分割 def split_numerical(attribute_index,

原创 python3 邏輯迴歸(含推導)

1、比率(odds)、概率(probability,可能性)和似然(likelihood) 例如:成功7次,失敗5次 比率 =某一類樣本數/另一類樣本數}=7/5 概率 = 某一類樣本數/所有可能情況的樣本=7/(7+5) 如果用thet

原创 python3 如何評價模型的表現(分類指標:confusion matrix、ROC、AUC)

1. 錯誤率和準確率 準確率不是評價模型好壞的標準,如遇到類別不平衡(class imbalance)的數據,典型的垃圾郵件問題,99%的郵件都是非垃圾郵件,1%爲垃圾郵件,那分類準確率99%就沒有什麼意義。 錯誤率 = 分類錯誤樣本數/

原创 pymysql.err.InternalError: Packet sequence number wrong - got 45 expected 1

錯誤: pymysql.err.InternalError: Packet sequence number wrong - got 58 expected 1 pymysql.err.InterfaceError: (0, '')

原创 一元高斯分佈(Univariate Gaussian Distribution)(詳細說明,便於理解)

1、一元高斯分佈的定義 高斯分佈也叫正態分佈,主要用於連續變量的分佈。假設有一變量 ,則其高斯分佈形式爲:                                     式中  是均值(mean), 是方差(variance),

原创 win10環境下如何安裝和運行DOSBox和debug

在學習彙編的時候,會需要用到debug調試程序,但是現在win10默認已經移除了這個插件,我們需要手動安裝,下面就告訴大家如何在win10環境下安裝debug。 1:準備工具   1.1 DOSBox   1.2 debug.exe 2:

原创 python3 決策樹(ID3、C4.5、CART)原理詳細說明與公式推導

1、簡介 1.1 樹的定義 決策樹 (decision tree) 是一種描述對實例進行分類的樹形結構,由結點 (node) 和有向邊 (directed edge) 組成。結點有三種類型: 根結點 (root node):表示樹根 內結

原创 python:讀取多個Excel表單進行成組測驗並繪製誤差棒圖

對多個表單的成組數據進行t測試並能夠將結果保存到excel.  python 代碼: from scipy.stats import ttest_ind # 引入成組測驗的包 import pandas as pd impo

原创 多維標度法

MDS基本概念 定義:多維標度法是利用客體間的相似性數據去揭示他們之間的空間關係的統計分析方法 種類: 度量化模型:若模型所需要的相似性數據是用距離尺度或比率尺度測得的 非度量化模型:若模型需要順序量表水平的相似數據,稱爲非度量化模型

原创 K均值聚類python代碼

 數據介紹: 有三列,一列是name,即樣本的名字,另外兩列是數值數據,對name進行聚類,再根據聚類的標籤(從0開始),然後建立交叉表。 代碼: from sklearn.cluster import KMeans #k均值聚類 im

原创 機器學習SVM算法常見面試題(一)

在面試數據分析或算法相關崗位時,支持向量機是常被問到的一個算法,因此本文對於面試中常見的SVM原理以及核函數方面的問題進行了彙總。 1 什麼是支持向量機? 支持向量機(SVM,Support Vector Machines)是一種

原创 [PRML]圖模型-條件獨立

在上一節中,我們介紹了《有向圖模型》,這一節給大家介紹條件獨立性。 1 簡介 多變量概率分佈的一個重要概念是條件獨立(conditional independence)。考慮三個變量aaa、bbb和ccc,假設aaa在給定bbb和