原创 MapReduce1.0 VS Yarn

簡答來說,經典的MapReduce中主要有兩個角色JobTracker和TaskTracker, JobTracker負責作業調度和任務進度監督,追蹤任務,任務登記等。 TaskTracker運行作業劃分後的任務,且對map任務和re

原创 迴歸評價指標:均方誤差根(RMSE)和R平方(R2)

轉載自:http://blog.csdn.net/lsldd/article/details/41251583 做迴歸分析,常用的誤差主要有均方誤差根(RMSE)和R-平方(R2)。 RMSE是預測值與真實值的誤差平方根的均值。這種度量方

原创 xgboost算法原理與實戰

xgboost算法原理與實戰    之前一直有聽說GBM,GBDT(Gradient Boost Decision Tree)漸進梯度決策樹GBRT(Gradient Boost RegressionTree)漸進梯度迴歸樹是GBDT的一

原创 Hadoop- Writable, WritableCompareable, WritableComparator

Hadoop-序列化 序列化: 對象的序列化用於將一個對象編碼成字節流,以及從字節流中重新構建對象。 將一個對象編碼成一個字節流稱爲序列化該對象。 序列化三種主要的用途: 1.作爲一種持久化格式。 2.作爲一種通信的數據格式。 3.作爲一

原创 在HDFS中創建目錄報錯WARN util.NativeCodeLoader: Unable to load native-hadoop library for your pla

Hadoop2.7.4在安裝成功後,start-dfs.sh啓動後,在HDFS創建目錄報錯: WARN util.NativeCodeLoader: Unable to load native-hadoop library for you

原创 交叉驗證等驗證方法

一.交叉驗證法 1.“交叉驗證法”(cross validation)先將數據集D劃分爲k個大小相似的互斥子集,即D=D1並D2並D3…並Dk,每個子集之間沒有交集。 2.然後每次用k-1個子集的並集作爲訓練集,餘下的那個作爲測試集,

原创 kaggle入門(python數據處理)

目前入坑機器學習machine learning,kaggle算是最著名的機器學習比賽(其實主要是特徵工程),所以如果想走算法崗,光理論肯定不行,一定要實戰,就拿kaggle開刀了,不求多好的結果,但求通過參與的過程對數據挖掘有更好的貼近

原创 Eclipse遠程連接Hadoop

先說下我自己laptop沒有hadoop環境(虛擬機中有僞分佈式,不過是爲了熟悉hadoop啦),也沒有像網上那樣用cygwin,主要得益於實驗室服務器上師兄之前搭建了hadoop集羣,之前一直用xshell連接的。不過後面要寫mapre

原创 參考美團的"機器學習中的數據清洗與特徵處理綜述"(轉載)

綜述 如上圖所示是一個經典的機器學習問題框架圖。數據清洗和特徵挖掘的工作是在灰色框中框出的部分,即“數據清洗=>特徵,標註數據生成=>模型學習=>模型應用”中的前兩個步驟。 灰色框中藍色箭頭對應的是離線處理部分。主要工作是 從原始數

原创 spark之廣播共享變量broadcast

廣播變量用來把變量在所有節點的內存之間進行共享,這樣的方式尤其是在分佈式集羣中進行並行計算提供了很大的便利,如果數據集很大,需要分佈式存儲到各個DataNode上,根據“計算向數據靠近”的原則,將每一個DataNode上都要使用的變量(類

原创 Java二進制運算

位運算: 左移位:<< /* 00000001 << 1 = 00000010 */ 1 << 1 == 2 /* 00000001 << 3 = 00001000 */ 1 << 3 == 8 右移位:>> 是有符號操作符,使用最

原创 spark部署模式解析

單機上可以本地模式運行 單機上僞分佈式模式運行 集羣上standalone模式,spark on yarn模式,spark on mesos模式,這裏主要介紹集羣前兩種。 standalone模式 類似於單機僞分佈式模式,如果是使用s

原创 TensorFlow保存和加載訓練模型

對於機器學習,尤其是深度學習DL的算法,模型訓練可能很耗時,幾個小時或者幾天,所以如果是測試模塊出了問題,每次都要重新運行就顯得很浪費時間,所以如果訓練部分沒有問題,那麼可以直接將訓練的模型保存起來,然後下次運行直接加載模型,然後進行測試