原创 Hadoop簡單隨機採樣
(注:內容來自《Hadoop數據分析》) 基於Hadoop的兩種採樣模式:百分比採樣和N樣本採樣。 1.隨機百分比採樣: 從樣本中隨機抽取一個比例的樣本,一種方法是對每條數據簡單地使用隨機數生成器來產生[0,1]上均勻分佈的隨機數,並將其
原创 Spark機器學習的兩種調包方式
1.MLlib #數據類型爲 LabeledPoint #rdd -> LabeledPoint #LabeledPoint(y值,特徵值) #y值爲Dobule型 #特徵值爲Vectors 爲spark數據類型 #導入 Labe
原创 HDFS
HDFS(Hadoop Distributed Files System ,Hadoop分佈式文件系統)是一個塊結構的文件系統。它將一個文件按塊劃分成多個子塊,並將子塊複製多份存儲於多個節點上,從而達到容錯的效果。 HDFS包含兩類節點:
原创 Hadoop Streaming,使用python編寫Hadoop計算腳本
(注:內容來自《Hadoop數據分析》) Hadoop Streaming與Spark Streaming或其他使用“無界數據流”的實時計算框架不同。Hadoop Streaming中的“流”指的是標準的Unix流 std
原创 spark中join不產生shuffle的操作方式
(注:來源,spark大數據商業實戰三部曲) 在大數據處理場景中,多表join是常見的一類運算。爲了便於求解,通常會將多表Join問題轉爲多個兩表連接的問題。兩表Join的實現算法非常多,一般我們會根據兩表的數據特點選取不同的Join算法
原创 (轉載)pyspark調用Logistic迴歸
轉載於:原文 from pyspark.sql import SparkSession from pyspark.ml.feature import StringIndexer from pyspark.ml.classificatio
原创 Hive搭建的坑
1.配置hive-site.xml時 不要只是把網上的代碼加入到配置文件中,因爲default配置文件中也有這些默認配置,會導致配置失效。 2.“WARN: Establishing SSL connection without s
原创 機器學習算法面試題筆試題筆記
1.kNN 實現步驟: 1.計算測試數據與訓練數據中每一點的距離 2.對距離進行排序,針對每個測試點,找出離測試點最近的k個訓練數據 3.統計這k個訓練數據的標籤出現次數,把出現次數最多的標籤作爲該測試點的最終標籤 優點:精度高,實現簡單
原创 spark錯誤集
1. rdd明明有數據,toDF()後數據變成null了? 第三列和第四列可現實的是int型,null的是string型 原因:rdd允許一列有兩種數據類型,而spark的dataframe不支持 解決辦法:只需要將數據類型統一即可
原创 lightgbm實現
#交叉驗證:用於驗證某組參數的表現情況並畫圖,返回爲每一輪迭代的評價值 def lightgbm_cv(params,x_train,y_train,n_round,nfold,early_stopping_rounds):
原创 國內部分m3u8直播源
自己整理的一些.m3u8直播源 #EXTM3U #EXTINF:-1,星空衛視 http://222.207.48.30/hls/startv.m3u8 #EXTINF:-1,一新聞 http://d2e6xlgy8sg8ji.clo
原创 Ubuntu下vim快捷命令
1.進入編輯模式 i 2.退出編輯模式 Esc 3.保存並退出 :wq 4.顯示行號 退出編輯模式,:set nu 5.移動到文本開頭 gg 6.移動到文本結尾 G 7.快速移動 Shift+上下左
原创 spark持久化操作 persist(),cache()
spark在處理完一個action操作後,會將action中所用到的數據釋放(可能遇到shuffle操作有例外),以備將資源用於其它的計算。如果某一部分的數據在程序中需要反覆使用,這樣會加大數據的讀取時間。 爲了改善這個問題,spark提