台部落donger_

(注：內容來自《Hadoop數據分析》）基於Hadoop的兩種採樣模式：百分比採樣和N樣本採樣。 1.隨機百分比採樣：從樣本中隨機抽取一個比例的樣本，一種方法是對每條數據簡單地使用隨機數生成器來產生[0，1]上均勻分佈的隨機數，並將其

2019-06-11 06:30:22

1.MLlib #數據類型爲 LabeledPoint #rdd -> LabeledPoint #LabeledPoint(y值,特徵值) #y值爲Dobule型 #特徵值爲Vectors 爲spark數據類型 #導入 Labe

2019-06-11 06:30:21

HDFS（Hadoop Distributed Files System ，Hadoop分佈式文件系統）是一個塊結構的文件系統。它將一個文件按塊劃分成多個子塊，並將子塊複製多份存儲於多個節點上，從而達到容錯的效果。 HDFS包含兩類節點：

2019-06-11 06:30:21

(注：內容來自《Hadoop數據分析》) Hadoop Streaming與Spark Streaming或其他使用“無界數據流”的實時計算框架不同。Hadoop Streaming中的“流”指的是標準的Unix流 std

2019-06-11 06:30:21

（注：來源，spark大數據商業實戰三部曲）在大數據處理場景中，多表join是常見的一類運算。爲了便於求解，通常會將多表Join問題轉爲多個兩表連接的問題。兩表Join的實現算法非常多，一般我們會根據兩表的數據特點選取不同的Join算法

2019-06-11 06:30:21

轉載於：原文 from pyspark.sql import SparkSession from pyspark.ml.feature import StringIndexer from pyspark.ml.classificatio

2019-04-26 09:14:35

2019-04-10 01:07:06

1.配置hive-site.xml時不要只是把網上的代碼加入到配置文件中，因爲default配置文件中也有這些默認配置，會導致配置失效。 2.“WARN: Establishing SSL connection without s

2019-04-06 04:25:24

2019-04-04 01:08:14

1.kNN 實現步驟： 1.計算測試數據與訓練數據中每一點的距離 2.對距離進行排序，針對每個測試點，找出離測試點最近的ｋ個訓練數據 3.統計這ｋ個訓練數據的標籤出現次數，把出現次數最多的標籤作爲該測試點的最終標籤優點：精度高，實現簡單

2019-04-02 01:07:50

1. rdd明明有數據，toDF()後數據變成null了？第三列和第四列可現實的是int型，null的是string型原因：rdd允許一列有兩種數據類型，而spark的dataframe不支持解決辦法：只需要將數據類型統一即可

2019-03-12 22:11:05

#交叉驗證：用於驗證某組參數的表現情況並畫圖，返回爲每一輪迭代的評價值 def lightgbm_cv(params,x_train,y_train,n_round,nfold,early_stopping_rounds):

2019-03-10 22:00:50

自己整理的一些.m3u8直播源 #EXTM3U #EXTINF:-1,星空衛視 http://222.207.48.30/hls/startv.m3u8 #EXTINF:-1,一新聞 http://d2e6xlgy8sg8ji.clo

2019-02-27 20:47:37

1.進入編輯模式 i 2.退出編輯模式 Esc 3.保存並退出 :wq 4.顯示行號退出編輯模式，:set nu 5.移動到文本開頭 gg 6.移動到文本結尾 G 7.快速移動 Shift+上下左

2019-01-21 13:51:06

spark在處理完一個action操作後，會將action中所用到的數據釋放（可能遇到shuffle操作有例外），以備將資源用於其它的計算。如果某一部分的數據在程序中需要反覆使用，這樣會加大數據的讀取時間。爲了改善這個問題，spark提

2019-01-12 20:28:10