原创 Spark RDD Lazy Evaluation的特性及作用

看一些博客都是輕描淡寫的說一下這是spark的特性,延遲/惰性計算(lazy evaluation)就完事了,然後各個博客之間抄來抄去就是那麼幾句話,所以就想着把這些東西整理一下講清楚,希望對有需要的朋友有所幫助。 主要爲了解

原创 Geohash中經度放偶數位問題

GeoHash算法這邊就不贅述了,這篇目前認爲最全面:https://www.jianshu.com/p/7332dcb978b2, 感謝作者 但是細心的同學會發現,當將經緯度進行逼近後形成的code需要交叉組合最終形成一個編

原创 spark-submit 提交python外部依賴包

需求:使用pyspark的過程中,發現集羣的python並沒有安裝自己需要的包,比如elasticsearch包等,這樣就只能靠自己把包打上,然後才能被分發到集羣的各臺節點機器上,然後被執行,這裏舉個例子,如何加載自己的外部包 1

原创 Sqoop學習筆記

前言 在搭建公司的一些平臺產品的時候,前端需要的渲染的數據往往是需要使用集羣資源進行計算的,比如hive,spark等。然而web端對數據查詢和顯示有着較高的需求,所以查詢端放在hive或者spark都變得不切實際,速度太慢。一般的

原创 解決:提交的hive任務如何找回其提交的語句

只記得表名或者該任務的一些關鍵字,忘記了自己創建表時候的語句,可以從hive的執行日誌中獲取原始數據。特別適合定位該測試表是怎麼創建的,或者定位別人表創建的由來 首先要確認提交的hive任務是在哪一臺服務器提交的,一般默認hive的執

原创 總結:Hive性能優化上的一些總結

Hive性能優化上的一些總結 注意,本文百分之九十來源於此文:Hive性能優化,很感謝作者的細心整理,其中有些部分我做了補充和追加,要是有什麼寫的不對的地方,請留言賜教,謝謝 前言 今天電話面試突然被涉及到hive上有沒有做過什麼優化,

原创 KAGGLE ENSEMBLING GUIDE(註腳)

About Trs KAGGLE ENSEMBLING GUIDE Creating ensembles from submission files Voting ensembles Error correcting codes A

原创 Stacking Learning在分類問題中的使用

建議先閱讀以下文章 迴歸問題構建stacking模型 分類問題構建stacking模型 code Pay Attention Further 致謝 建議先閱讀以下文章 知乎(必讀):Kaggle機器學習之模型融合(s

原创 數據結構與算法-排序篇-Python描述

前言 補習基礎的數據結構和算法的時候,很多都是用c或者java寫的,順便我用python重構一遍吧,也當做是補習了~ 排序算法 冒泡排序 ​ 冒泡排序原理即:從數組下標爲0的位置開始,比較下標位置爲0和1的數據,如果0號位置的大,則

原创 總結:Spark性能優化上的一些總結

Spark性能調優 整理來自於: Spark性能優化指南——基礎篇​ 會增加: 一些其他博客的內容 自己的理解和pyspark代碼的補充實踐 開發調優 Spark性能優化的第一步,就是要在開發Spark作業的過程中注意和應用

原创 pyspark中combineByKey的兩種理解方法

Spark 1.6 以前一直模模糊糊的,現在搞一下比較清楚 combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitio

原创 總結:Hive,Hive on Spark和SparkSQL區別

Hive on Mapreduce Hive的原理大家可以參考這篇大數據時代的技術hive:hive介紹,實際的一些操作可以看這篇筆記:新手的Hive指南,至於還有興趣看Hive優化方法可以看看我總結的這篇Hive性能優化上的一些總結

原创 總結:sklearn機器學習之特徵工程

關於本文 特徵工程是什麼 32 數據探索性分析Exploratory Data AnalysisEDA 數據預處理 1 無量綱化 數據規範化 11 標準化 0均值標準化Z-score standardization 12 區間縮

原创 筆記:新手的Spark指南

macOS Sierra 10.12.4 Spark 1.6.2 Python 2.7 轉載請註明出處:http://blog.csdn.net/MrLevo520/article/details/76087612 前言 既然做了Hiv

原创 解決:MacOS下配置Hadoop及Hive單機遇到的問題(們)

MacOS Sierra 10.12.1 Hadoop 2.7.3 Hive 1.2.1 前言 本來安逸搞個local 的spark算了,但是過幾天我還要搞個網易雲音樂的大新聞,沒有hive不得勁,遂裝,期間遇到的問題,一一記錄