原创 數據分析(4)--Pandas+DataFrame

DataFrame類型 DataFrame是一個多維數據類型。因爲通常使用二維數據,因此,我們可以將DataFrame理解成類似excel的表格型數據,由多列組成,每個列的類型可以不同。 因爲DataFrame是多維數據類型,因此

原创 決策樹--隨機森林(bagging)

    前面講了多種常見的決策樹算法,但在實際工作中,基本不會使用單棵決策樹進行訓練,因爲一顆樹很容易過擬合,而且數據量大的時候,單棵樹的體積會很大,執行效率也會很慢,因此不推薦使用單棵決策樹用於實際工作。    通常我們會把決策樹作爲分

原创 機器學習--lightgbm

    lightgbm是微軟推出的一款boosting框架,相對於傳統的xgboost有以下優點  更快的訓練效率 低內存使用 更好的準確率 支持並行學習 可處理大規模數據 它摒棄了現在大部分GBDT使用的按層生長(level-wi

原创 機器學習--決策樹基本實現

# _*_ coding:utf-8 _*_ import numpy as np import math import operator import sys import pickle def createDataSet():

原创 深度學習(4)--手寫數字mnist實現

       前面兩節,講述了梯度下降和方向傳播的原理,這裏我通過mnist訓練來講述下python的實現方法   頭文件         numpy用於矩陣運算,random用於數據集的shuffle,mnist_loader 用於加載

原创 Pytorch(筆記9)--讀取自定義數據

      Pytorch中提供一個了數據接口datasets,其中封裝了很多公用數據集CIFAR10/100,ImageNet等,可以用下面的接口進行簡單調用,那麼如何使用Pytorch來加載我們自己製作好的trainset呢?我們從源

原创 深度學習(2)--梯度下降算法

      最近,訓練過程中遇到了一些問題,所有回頭看了一些原理性的內容,學習過程做了簡單記錄,如果有不準確的點,歡迎大家指正。 梯度下降(gradient descent)          梯度下降法的基本思想可以類比爲一個下山的過程

原创 程序員的節日

節日快樂,我們繼續努力!!!

原创 數據分析(7)-如何使用Python與Hadoop生態系統進行交互(譯)

我們都知道hadoop主要使用java實現的,那麼如何使用python與hadoop生態圈進行交互呢,我看到一篇很好的文章,結合google翻譯和自己的認識分享給大家。 您將學習如何從Hadoop Distributed File

原创 數據分析(8)--matplotlib 數據可視化

數據可視化 基本概念 數據可視化是指藉助於圖形化的手段,清晰、快捷有效的傳達與溝通信息。同時,也可以輔助用戶做出相應的判斷,更好的去洞悉數據背後的價值。 字不如表,表不如圖。 觀察號碼的頻率,每個號碼出現了多少次? 文字 08 1

原创 數據分析(5)--Pandas數據處理(csv,sql等)

數據處理 數據加載 首先,我們需要將收集的數據加載到內存中,才能進行進一步的操作。pandas提供了非常多的讀取數據的函數,分別應用在各種數據源環境中,我們常用的函數爲: read_csv read_table read_sql

原创 數據分析(1)--numpy和list的用法對比

numpy在深度學習或者數據分析中都是很常用的一個工具庫,今天我結合自己的工作內容以及學習到的一個API的用法,來說下numpy的用法 數組(ndarray)與列表(List) 數組與列表類似,是具有相同類型的多個元素構成的整體。

原创 數據分析(2)--numpy的函數用法

numpy中用很多常見的函數,如果使用的好,對我們的工作幫助是很大的,本篇我會拿其中一部分來做介紹 通用函數ufunc(universal function) Numpy提供了許多通用函數,這些通用函數可以看做是以前通過Pytho

原创 數據分析(4)--pandas+DataFrame

DataFrame類型 DataFrame是一個多維數據類型。因爲通常使用二維數據,因此,我們可以將DataFrame理解成類似excel的表格型數據,由多列組成,每個列的類型可以不同。 因爲DataFrame是多維數據類型,因此

原创 數據分析(6)--Pandas+MultiIndex多層索引與分組

MultiIndex MultiIndex,即具有多個層次的索引,有些類似於根據索引進行分組的形式。通過多層次索引,我們就可以使用高層次的索引,來操作整個索引組的數據。 創建方式 第一種 我們在創建Series或DataFrame