原创 SciPy教程 - 稀疏矩陣庫scipy.sparse

參考:http://blog.csdn.net/pipisorry/article/details/41762945 稀疏矩陣在Python科學計算中的實際意義 對於那些零元素數目遠遠多於非零元素數目,並且非零元素的分佈沒有規律的矩

原创 偏度(skewness)和峯度(kurtosis)

偏度 偏度(skewness),是統計數據分佈偏斜方向和程度的度量,是統計數據分佈非對稱程度的數字特徵。定義上偏度是樣本的三階標準化矩。 偏度定義中包括正態分佈(偏度=0),右偏分佈(也叫正偏分佈,其偏度>0),左偏分佈(也叫負偏分佈,

原创 Batch Normalization 學習筆記

參考:http://blog.csdn.net/hjimce/article/details/50866313 Batch Normalization 學習筆記 原文地址:http://blog.csdn.net/hjimce/art

原创 在統計學中爲什麼要對變量取對數?

參考:https://www.zhihu.com/question/22012482

原创 如何通俗理解beta分佈?

參考:http://blog.csdn.net/a358463121/article/details/52562940 beta分佈介紹 相信大家學過統計學的都對 正態分佈 二項分佈 均勻分佈 等等很熟悉了,但是卻鮮少有人去介

原创 XGBOOST參數調優

參考:http://www.cnblogs.com/zhangbojiangfeng/p/6428988.html 1. 簡介   如果你的預測模型表現得有些不盡如人意,那就用XGBoost吧。XGBoost算法現在已經成爲很多

原创 RF、gbdt、xgboost參數

RandomForest rf_params = { 'n_jobs': 16, 'n_estimators': 100, 'max_features': 0.2, 'max_depth': 12,

原创 快速排序

C++ #include <iostream> using namespace std; void Qsort(int a[], int low, int high) { if(low >= high) {

原创 阿里面試題總結

參考:http://blog.csdn.net/chenchaofuck1/article/details/51620442

原创 數據傾斜是多麼痛?spark作業調優祕籍

參考:http://www.tuicool.com/articles/qUBJbuV 有的時候,我們可能會遇到大數據計算中一個最棘手的問題——數據傾斜,此時Spark作業的性能會比期望差很多。數據傾斜調優,就是使用各種技術方案解決不同

原创 ExtraTrees原理

原文:http://blog.csdn.net/zhaocj/article/details/51648966 ET或Extra-Trees(Extremely randomized trees,極端隨機樹)是由PierreGeurts等

原创 設計模式

單例模式 Python #參考:http://ghostfromheaven.iteye.com/blog/1562618 #使用裝飾器(decorator),   #這是一種更pythonic,更elegant的方法,   #單例類

原创 解讀Batch Normalization

參考:http://blog.csdn.net/shuzfan/article/details/50723877 本次所講的內容爲Batch Normalization,簡稱BN,來源於《Batch Normalization: Ac

原创 stacking簡介

參考:http://www.cnblogs.com/zhizhan/p/5051881.html stacked 產生方法是一種截然不同的組合多個模型的方法,它講的是組合學習器的概念,但是使用的相對於bagging和boosting較少,

原创 sbt

安裝sbt 1. 下載http://www.scala-sbt.org/download.html 2. 解壓到/opt/sbt 3. 創建/opt/sbt/sbt文件,內容爲: BT_OPTS="-Xms512M -Xmx1536M