原创 spark源碼分析之窄依賴和寬依賴篇

窄依賴:子RDD的partition和父RDD的partition是一一對應的。(join操作除外,此操作是多對一) 注意點: 若parent RDD有已知的partitioner(若已知的partitioner相同,兩個R

原创 數據的描述性統計

數據的集中趨勢 集中趨勢反映的數據向其中心值靠攏或聚集的程度。 分類數據 衆數 數據集合中出現次數最多的變量值 衆數可能有一個,也可能有多個;如果所有數據出現的次數都一樣,那麼這組數據沒有衆數 在高斯分佈(正態分佈)中,衆數位於

原创 hue解決下載的excel表格爲10萬行的限制

鏈接課程:http://edu.51cto.com/course/15824.html 解決方案: CDH的版本爲:5.14.0 vim /opt/cloudera/parcels/CDH/lib/hue/apps/beeswax/

原创 kudu分佈式存儲系統從入門到精通

課程鏈接: http://edu.51cto.com/course/15174.html 課程目標 通過對本課程的學習能夠讓您對kudu從入門到精通,對已經從事相關大數據工作的學員能夠更深層次的學習新知識 適用人羣 零基礎學員,大數據