原创 PCA(Principal Component Analysis)數學分析

@author:Donald-Hu    @theme:PCA數學分析    @time:2016/8/9 PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換將原始數據變

原创 pandas聚合和分組運算之groupby

pandas提供了一個靈活高效的groupby功能,它使你能以一種自然的方式對數據集進行切片、切塊、摘要等操作。根據一個或多個鍵(可以是函數、數組或DataFrame列名)拆分pandas對象。計算分組摘要統計,如計數、平均值、標準差,或

原创 python中pandas.DataFrame對行與列求和及添加新行與列示例

1 2 3 from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame數據 ? 1 df = 

原创 Scikit-learn使用總結

在機器學習和數據挖掘的應用中,scikit-learn是一個功能強大的python包。在數據量不是過大的情況下,可以解決大部分問題。學習使用scikit-learn的過程中,我自己也在補充着機器學習和數據挖掘的知識。這裏根據自己學習skl

原创 Python中__init__和__new__的區別詳解

__init__ 方法是什麼? 使用Python寫過面向對象的代碼的同學,可能對 __init__ 方法已經非常熟悉了,__init__ 方法通常用在初始化一個類實例的時候。例如: # -*- coding: utf-8 -*- cl

原创 XGBoost-Python完全調參指南-參數解釋篇

在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,寫的很好。因此打算翻譯一下這篇文章,也讓自己有更深的印象。具體內容主要翻譯文章

原创 通俗理解條件熵

1  信息熵以及引出條件熵 我們首先知道信息熵是考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。公式如下: 我們的條件熵的定義是:定義爲X給定條件下,Y的條件概率分佈的熵對X的數學期望 這個還是比較抽象,下面我

原创 數據比賽大殺器----模型融合(stacking&blending)

參考文獻鏈接 英文版本 http://mlwave.com/kaggle-ensembling-guide/ 這裏寫鏈接內容 這個是上面英文翻譯過來的漢語翻譯版本  kaggle比賽集成指南 http://m.blog.csdn.n

原创 怎麼理解二階偏導與凸函數的Hessian矩陣是半正定的?

作者:grapeot 鏈接:https://www.zhihu.com/question/40181086/answer/85197271 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 教科書上有嚴格的

原创 GBDT:梯度提升決策樹

綜述   GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起

原创 利用GBDT模型構造新特徵

實際問題中,可直接用於機器學習模型的特徵往往並不多。能否從“混亂”的原始log中挖掘到有用的特徵,將會決定機器學習模型效果的好壞。引用下面一句流行的話: 特徵決定了所有算法效果的上限,而不同的算法只是離這個上限的距離不同而已。 本文中

原创 numpy中的matrix矩陣處理

numpy模塊中的矩陣對象爲numpy.matrix,包括矩陣數據的處理,矩陣的計算,以及基本的統計功能,轉置,可逆性等等,包括對複數的處理,均在matrix對象中。 class numpy.matrix(data,dtype,copy

原创 使用Pandas對數據進行篩選和排序

篩選和排序是Excel中使用頻率最多的功能,通過這個功能可以很方便的對數據表中的數據使用指定的條件進行篩選和計算,以獲得需要的結果。在Pandas中通過.sort和.loc函數也可以實現這兩 個功能。.sort函數可以實現對數據表的排序

原创 8個不可不知的Mac OS X專用命令行工具

OS X的終端下通用很多Unix的工具和腳本。如果從Linux遷移到OS X會發現很多熟悉的命令和腳本工具,其實並沒有任何區別。 但是OS X也提供了很多其他系統所沒有的特別的命令行工具。我們推薦8個這類的工具,希望有助於提高在Mac的命

原创 SSH原理與運用(一):遠程登錄

SSH是每一臺Linux電腦的標準配置。 隨着Linux設備從電腦逐漸擴展到手機、外設和家用電器,SSH的使用範圍也越來越廣。不僅程序員離不開它,很多普通用戶也每天使用。 SSH具備多種功能,可以用於很多場合。有些事情,沒有它就是辦不成。