原创 PCA降維實例[GridSearchCV求最優參]

降維概念        機器學習領域中所謂的降維就是指採用某種映射方法,將原高維空間中的數據點映射到低維度的空間中。降維的本質是學習一個映射函數 f : x->y,其中x是原始數據點的表達,目前最多使用向量表達形式。 y是數據點映射後的低

原创 【轉】sklearn.feature_selection特徵選擇

  sklearn.feature_selection模塊的作用是feature selection,而不是feature extraction。 Univariate feature selection:單變量的特徵選擇 單變量特徵選擇

原创 線性迴歸[求W/中心化/標準差]

使用最小二乘法求解迴歸係數W: 求解W:[對W求導,當導數爲零時,平方誤差最小,此時W=] 參數: class sklearn.linear_model.LinearRegression(fit_intercept=True, nor

原创 【轉】使用sklearn做特徵工程

逛博文看到此類乾貨好文章,故此轉載原博主博文共同學習。 轉文:https://www.cnblogs.com/jasonfreak/p/5448385.html --------------------------------------

原创 ROC受試曲線AUC[TPR/ FPR/截斷點/StratifiedKFold/KFold]

概念 ROC和AUC定義       ROC全稱是“受試者工作特徵”(Receiver Operating Characteristic)。ROC曲線的面積就是AUC(Area Under the Curve)。AUC用於衡量“二分類問題

原创 決策樹[sklearn.tree/DecisionTreeClassifier/scatter/np.meshgrid/np.concatenate/Kfold/cross_validation]

決策樹 概念舉栗子 import numpy as np 引入數據: s= '''在1948年,香農引入了信息熵,將其定義爲離散隨機事件出現的概率,一個系統越是有序,信息熵就越低,反之一個系統越是混亂,它的信息熵就越高。所以信息熵可以

原创 樸素貝葉斯分類算法[sklearn.naive_bayes/GaussianNB/MultinomialNB/BernoulliNB]

樸素貝葉斯 舉栗子1 '''另一個例子,現分別有 A、B 兩個容器,在容器 A 裏分別有 7 個紅球和 3 個白球, 在容器 B 裏有 1 個紅球和 9 個白球,現已知從這兩個容器裏任意抽出了一個球, 且是紅球,問這個紅球是來自容器 A

原创 【轉】L1正則化和L2正則化的理解

轉:https://blog.csdn.net/fisherming/article/details/79492602 一、 奧卡姆剃刀(Occam's razor)原理:          在所有可能選擇的模型中,我們應選擇能夠很好的解

原创 梯度下降

導包 import numpy as np import matplotlib.pyplot as plt %matplotlib inline 構建數據集 # 定義函數 # f(x) = x**4 + x**3 + 5 f = la

原创 【轉】數據處理——One-Hot Encoding

機器學習 數據預處理之獨熱編碼(One-Hot Encoding) 來源: https://blog.csdn.net/dulingtingzi/article/details/51374487 https://www.cnblogs.c

原创 安裝TensorFlow:Could not find a version that satisfies the requirement tensorflow

簡單的安裝tensorflow 這裏安裝的tensorflow的cpu版本,gpu版本可以自行搜索安裝指南,或者參考如下指令: pip3 install tensorflow #cpu 這裏使用的python 3.6.3版本。 pip

原创 【轉】語言模型的基本概念

語言模型的基本概念 轉載於:https://www.cnblogs.com/Dream-Fish/p/3963028.html     本文介紹一下有關語言模型的基本概念,但是在介紹語言模型之前,先簡單回顧一下自然語言處理這個大問題吧。現

原创 【轉】梯度下降法與反向傳播

一、梯度下降法 1.什麼是梯度下降法 順着梯度下滑,找到最陡的方向,邁一小步,然後再找當前位,置最陡的下山方向,再邁一小步…       通過比較以上兩個圖,可以會發現,由於初始值的不同,會得到兩個不同的極小值,所以權重初始值的設定也是十

原创 【轉】中文文本挖掘預處理流程總結

在對文本做數據分析時,我們一大半的時間都會花在文本預處理上,而中文和英文的預處理流程稍有不同,本文就對中文文本挖掘的預處理流程做一個總結。 1. 中文文本挖掘預處理特點     首先我們看看中文文本挖掘預處理和英文文本挖掘預處理相比的一些

原创 【轉】Gensim庫詳解

一、gensim介紹  gensim是一款強大的自然語言處理工具,裏面包括N多常見模型: 基本的語料處理工具 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec