台部落JasonZhangOO

簡答來說，經典的MapReduce中主要有兩個角色JobTracker和TaskTracker， JobTracker負責作業調度和任務進度監督，追蹤任務，任務登記等。 TaskTracker運行作業劃分後的任務，且對map任務和re

2018-08-22 06:01:26

轉載自：http://blog.csdn.net/lsldd/article/details/41251583 做迴歸分析，常用的誤差主要有均方誤差根（RMSE）和R-平方（R2）。 RMSE是預測值與真實值的誤差平方根的均值。這種度量方

2018-08-22 06:01:26

xgboost算法原理與實戰之前一直有聽說GBM，GBDT（Gradient Boost Decision Tree）漸進梯度決策樹GBRT（Gradient Boost RegressionTree）漸進梯度迴歸樹是GBDT的一

2018-08-22 06:01:26

Hadoop-序列化序列化：對象的序列化用於將一個對象編碼成字節流，以及從字節流中重新構建對象。將一個對象編碼成一個字節流稱爲序列化該對象。序列化三種主要的用途： 1.作爲一種持久化格式。 2.作爲一種通信的數據格式。 3.作爲一

2018-08-22 06:01:26

Hadoop2.7.4在安裝成功後，start-dfs.sh啓動後，在HDFS創建目錄報錯： WARN util.NativeCodeLoader: Unable to load native-hadoop library for you

2018-08-22 06:01:26

一.交叉驗證法 1.“交叉驗證法”（cross validation）先將數據集D劃分爲k個大小相似的互斥子集，即D=D1並D2並D3…並Dk，每個子集之間沒有交集。 2.然後每次用k-1個子集的並集作爲訓練集，餘下的那個作爲測試集，

2018-08-22 06:01:25

目前入坑機器學習machine learning，kaggle算是最著名的機器學習比賽（其實主要是特徵工程），所以如果想走算法崗，光理論肯定不行，一定要實戰，就拿kaggle開刀了，不求多好的結果，但求通過參與的過程對數據挖掘有更好的貼近

2018-08-22 06:01:25

先說下我自己laptop沒有hadoop環境（虛擬機中有僞分佈式，不過是爲了熟悉hadoop啦），也沒有像網上那樣用cygwin，主要得益於實驗室服務器上師兄之前搭建了hadoop集羣，之前一直用xshell連接的。不過後面要寫mapre

2018-08-22 06:01:25

綜述如上圖所示是一個經典的機器學習問題框架圖。數據清洗和特徵挖掘的工作是在灰色框中框出的部分，即“數據清洗=>特徵，標註數據生成=>模型學習=>模型應用”中的前兩個步驟。灰色框中藍色箭頭對應的是離線處理部分。主要工作是從原始數

2018-08-22 06:01:25

廣播變量用來把變量在所有節點的內存之間進行共享，這樣的方式尤其是在分佈式集羣中進行並行計算提供了很大的便利，如果數據集很大，需要分佈式存儲到各個DataNode上，根據“計算向數據靠近”的原則，將每一個DataNode上都要使用的變量（類

2018-08-22 06:01:24

位運算：左移位:<< /* 00000001 << 1 = 00000010 */ 1 << 1 == 2 /* 00000001 << 3 = 00001000 */ 1 << 3 == 8 右移位:>> 是有符號操作符，使用最

2018-08-22 06:01:24

單機上可以本地模式運行單機上僞分佈式模式運行集羣上standalone模式,spark on yarn模式，spark on mesos模式，這裏主要介紹集羣前兩種。 standalone模式類似於單機僞分佈式模式，如果是使用s

2018-08-22 06:01:24

對於機器學習，尤其是深度學習DL的算法，模型訓練可能很耗時，幾個小時或者幾天，所以如果是測試模塊出了問題，每次都要重新運行就顯得很浪費時間，所以如果訓練部分沒有問題，那麼可以直接將訓練的模型保存起來，然後下次運行直接加載模型，然後進行測試

2018-08-22 06:01:24