原创 數據分析(4)--Pandas+DataFrame
DataFrame類型 DataFrame是一個多維數據類型。因爲通常使用二維數據,因此,我們可以將DataFrame理解成類似excel的表格型數據,由多列組成,每個列的類型可以不同。 因爲DataFrame是多維數據類型,因此
原创 決策樹--隨機森林(bagging)
前面講了多種常見的決策樹算法,但在實際工作中,基本不會使用單棵決策樹進行訓練,因爲一顆樹很容易過擬合,而且數據量大的時候,單棵樹的體積會很大,執行效率也會很慢,因此不推薦使用單棵決策樹用於實際工作。 通常我們會把決策樹作爲分
原创 機器學習--lightgbm
lightgbm是微軟推出的一款boosting框架,相對於傳統的xgboost有以下優點 更快的訓練效率 低內存使用 更好的準確率 支持並行學習 可處理大規模數據 它摒棄了現在大部分GBDT使用的按層生長(level-wi
原创 機器學習--決策樹基本實現
# _*_ coding:utf-8 _*_ import numpy as np import math import operator import sys import pickle def createDataSet():
原创 深度學習(4)--手寫數字mnist實現
前面兩節,講述了梯度下降和方向傳播的原理,這裏我通過mnist訓練來講述下python的實現方法 頭文件 numpy用於矩陣運算,random用於數據集的shuffle,mnist_loader 用於加載
原创 Pytorch(筆記9)--讀取自定義數據
Pytorch中提供一個了數據接口datasets,其中封裝了很多公用數據集CIFAR10/100,ImageNet等,可以用下面的接口進行簡單調用,那麼如何使用Pytorch來加載我們自己製作好的trainset呢?我們從源
原创 深度學習(2)--梯度下降算法
最近,訓練過程中遇到了一些問題,所有回頭看了一些原理性的內容,學習過程做了簡單記錄,如果有不準確的點,歡迎大家指正。 梯度下降(gradient descent) 梯度下降法的基本思想可以類比爲一個下山的過程
原创 程序員的節日
節日快樂,我們繼續努力!!!
原创 數據分析(7)-如何使用Python與Hadoop生態系統進行交互(譯)
我們都知道hadoop主要使用java實現的,那麼如何使用python與hadoop生態圈進行交互呢,我看到一篇很好的文章,結合google翻譯和自己的認識分享給大家。 您將學習如何從Hadoop Distributed File
原创 數據分析(8)--matplotlib 數據可視化
數據可視化 基本概念 數據可視化是指藉助於圖形化的手段,清晰、快捷有效的傳達與溝通信息。同時,也可以輔助用戶做出相應的判斷,更好的去洞悉數據背後的價值。 字不如表,表不如圖。 觀察號碼的頻率,每個號碼出現了多少次? 文字 08 1
原创 數據分析(5)--Pandas數據處理(csv,sql等)
數據處理 數據加載 首先,我們需要將收集的數據加載到內存中,才能進行進一步的操作。pandas提供了非常多的讀取數據的函數,分別應用在各種數據源環境中,我們常用的函數爲: read_csv read_table read_sql
原创 數據分析(1)--numpy和list的用法對比
numpy在深度學習或者數據分析中都是很常用的一個工具庫,今天我結合自己的工作內容以及學習到的一個API的用法,來說下numpy的用法 數組(ndarray)與列表(List) 數組與列表類似,是具有相同類型的多個元素構成的整體。
原创 數據分析(2)--numpy的函數用法
numpy中用很多常見的函數,如果使用的好,對我們的工作幫助是很大的,本篇我會拿其中一部分來做介紹 通用函數ufunc(universal function) Numpy提供了許多通用函數,這些通用函數可以看做是以前通過Pytho
原创 數據分析(4)--pandas+DataFrame
DataFrame類型 DataFrame是一個多維數據類型。因爲通常使用二維數據,因此,我們可以將DataFrame理解成類似excel的表格型數據,由多列組成,每個列的類型可以不同。 因爲DataFrame是多維數據類型,因此
原创 數據分析(6)--Pandas+MultiIndex多層索引與分組
MultiIndex MultiIndex,即具有多個層次的索引,有些類似於根據索引進行分組的形式。通過多層次索引,我們就可以使用高層次的索引,來操作整個索引組的數據。 創建方式 第一種 我們在創建Series或DataFrame