原创 Hadoop簡單隨機採樣

(注:內容來自《Hadoop數據分析》) 基於Hadoop的兩種採樣模式:百分比採樣和N樣本採樣。 1.隨機百分比採樣: 從樣本中隨機抽取一個比例的樣本,一種方法是對每條數據簡單地使用隨機數生成器來產生[0,1]上均勻分佈的隨機數,並將其

原创 Spark機器學習的兩種調包方式

1.MLlib   #數據類型爲 LabeledPoint #rdd -> LabeledPoint #LabeledPoint(y值,特徵值) #y值爲Dobule型 #特徵值爲Vectors 爲spark數據類型 #導入 Labe

原创 HDFS

HDFS(Hadoop Distributed Files System ,Hadoop分佈式文件系統)是一個塊結構的文件系統。它將一個文件按塊劃分成多個子塊,並將子塊複製多份存儲於多個節點上,從而達到容錯的效果。 HDFS包含兩類節點:

原创 Hadoop Streaming,使用python編寫Hadoop計算腳本

    (注:內容來自《Hadoop數據分析》)     Hadoop Streaming與Spark Streaming或其他使用“無界數據流”的實時計算框架不同。Hadoop Streaming中的“流”指的是標準的Unix流 std

原创 spark中join不產生shuffle的操作方式

(注:來源,spark大數據商業實戰三部曲) 在大數據處理場景中,多表join是常見的一類運算。爲了便於求解,通常會將多表Join問題轉爲多個兩表連接的問題。兩表Join的實現算法非常多,一般我們會根據兩表的數據特點選取不同的Join算法

原创 (轉載)pyspark調用Logistic迴歸

轉載於:原文 from pyspark.sql import SparkSession from pyspark.ml.feature import StringIndexer from pyspark.ml.classificatio

原创 數據預處理

原创 Hive搭建的坑

1.配置hive-site.xml時    不要只是把網上的代碼加入到配置文件中,因爲default配置文件中也有這些默認配置,會導致配置失效。 2.“WARN: Establishing SSL connection without s

原创 機器學習算法面試題筆試題筆記

1.kNN 實現步驟: 1.計算測試數據與訓練數據中每一點的距離 2.對距離進行排序,針對每個測試點,找出離測試點最近的k個訓練數據 3.統計這k個訓練數據的標籤出現次數,把出現次數最多的標籤作爲該測試點的最終標籤 優點:精度高,實現簡單

原创 spark錯誤集

1. rdd明明有數據,toDF()後數據變成null了? 第三列和第四列可現實的是int型,null的是string型 原因:rdd允許一列有兩種數據類型,而spark的dataframe不支持 解決辦法:只需要將數據類型統一即可

原创 lightgbm實現

#交叉驗證:用於驗證某組參數的表現情況並畫圖,返回爲每一輪迭代的評價值 def lightgbm_cv(params,x_train,y_train,n_round,nfold,early_stopping_rounds):

原创 國內部分m3u8直播源

自己整理的一些.m3u8直播源   #EXTM3U #EXTINF:-1,星空衛視 http://222.207.48.30/hls/startv.m3u8 #EXTINF:-1,一新聞 http://d2e6xlgy8sg8ji.clo

原创 Ubuntu下vim快捷命令

1.進入編輯模式    i 2.退出編輯模式    Esc 3.保存並退出    :wq 4.顯示行號    退出編輯模式,:set nu 5.移動到文本開頭    gg 6.移動到文本結尾   G 7.快速移動    Shift+上下左

原创 spark持久化操作 persist(),cache()

spark在處理完一個action操作後,會將action中所用到的數據釋放(可能遇到shuffle操作有例外),以備將資源用於其它的計算。如果某一部分的數據在程序中需要反覆使用,這樣會加大數據的讀取時間。 爲了改善這個問題,spark提