原创 第十章 利用k-均值聚類算法對未標註數據分組

本章內容: 1. K-均值聚類算法。 2. 對聚類得到的簇進行後處理。 3. 二分K-均值聚類算法。 4.  對地理位置進行聚類。 =====================================================

原创 親測:MySQL 5.7.17 安裝教程

最近打算學習一下 MySQL ,去官網 https://www.mysql.com/  下載了最新的 MySQL。 由於我兩臺電腦分別是 win10 和 win7,都是64位的,所以不能下載那個 32 位的安裝包,故選擇 Download

原创 第三章 決策樹 3.3+3.4 測試算法:使用決策樹執行分類

本節我們將使用決策樹構建分類器,我們可以將它用於實際數據的分類。 首先在第一節 trees.py 中添加: # -*- coding:utf-8 -*- from math import log import operator def

原创 4.1-4.3 數據預處理-清洗-變換-離散化

整個第四章都是數據預處理。 4.1是數據清洗。就是處理無關數據,缺失或者異常數據等等。 具體看書,就不贅述了,還是上代碼實踐。 書上給的代碼是有問題的! #拉格朗日插值代碼 import pandas as pd #導入數據分析庫Pan

原创 Head First SQL 第一章

這一次要跟着 Head First SQL這本書學習數據庫。 安裝參見:http://blog.csdn.net/qq_27469517/article/details/64122464 以管理員身份打開PowerShell: 首先打開

原创 智障自學深度學習系列-1 MNIST

安裝 TensorFlow 會另外單獨講,這裏零碎記錄 http://wiki.jikexueyuan.com/project/tensorflow-zh/ 開始的流程。 首先會跑一個 hello world,注意這裏原本是 Python

原创 Head First SQL 第十章

外聯接,自聯接與聯合。P417 關於聯接我們只認識了一半。我們還沒有見過 外聯接:在表中沒有匹配記錄的情況下返回記錄。 自聯接:可以聯接表本身。 聯合:可以合併查詢結果。 ================================

原创 Scikit-Learn 官方示例

1.繪製交叉驗證預測。 # Plotting Cross-Validated Predictions from sklearn import datasets from sklearn.model_selection import cr

原创 Head First SQL 第九章

查詢中的查詢。P379 如果想把甲的查詢結果作爲乙的查詢輸入,就該子查詢出場。 子查詢有助於避免數據重複,讓查詢更加動態靈活。 Greg不想把招聘服務信息存在my_contacts表中,一是並非所有表裏的人都對此感興趣。二是想要只讓特定

原创 從決策樹到GBDT再到XGBoost

http://www.cnblogs.com/en-heng/p/5013995.html 決策樹是一種通過對特徵屬性的分類對樣本進行分類的樹形結構,包括有向邊與三類節點: 根節點(root node),表示第一個特徵屬性,只有出邊沒有

原创 Head First SQL 第三章

現在我們首先要學習 UPDATE 改變數據,和 DELETE  刪除數據。 首先我們要明白,表中不應該存儲重複的數據,這是要避免的。 表中的最後一條記錄不一定是最新的記錄。 ===============================

原创 XGBoost 與 信用卡詐騙數據集 三

基於之前 SKlearn API ,增加了儲存模型和讀取模型的功能,分別寫在兩段代碼裏面。 第一段是訓練和保存模型,和之前差不多: import sklearn as sk import xgboost as xgb import n

原创 智障自學深度學習系列-2 字詞的向量表示

補充一下什麼是 One-Hot 編碼。 中文又叫獨熱碼,比如前文MNIST中把數字1編碼爲 [0,0,0,0,0,0,0,0,0,1],這種就是獨熱碼編碼形式,有多少個狀態就有多少個bit,這裏有十個數字,就有十個bit。 首先你得知

原创 Spark快速大數據分析-第一和第二章

我發現光是NumPy和Pandas其實不太夠,找工作都要你會點Linux,懂點Spark和Hadoop,相當尷尬。於是我選擇在我的電腦上 安裝了VMware,然後安裝了CentOS 7。 說到Linux,我在Ubuntu和CentOS 7

原创 XGBoost 與 信用卡詐騙數據集

在Github 上面找到了一個信用卡詐騙數據集: https://github.com/georgymh/ml-fraud-detection 數據源於 kaggle 的信用卡詐騙數據。 其中給出了三種大方法,分別是神經網絡,kmeans