原创 回答阿里社招面試如何準備,順便談談對於Java程序猿學習當中各個階段的建議

回答阿里社招面試如何準備,順便談談對於Java程序猿學習當中各個階段的建議 引言      其實本來真的沒打算寫這篇文章,主要是LZ得記憶力不是很好,不像一些記憶力強的人,面試完以後,幾乎能把自己和面試官的對話都給記下來。LZ自己當初面

原创 Spark RDD、DataFrame和DataSet的區別

轉自:http://blog.csdn.NET/wo334499/article/details/51689549  RDD 優點: 編譯時類型安全  編譯時就能檢查出類型錯誤面向對象的編程風格  直接通過類名點的方式來操作數據

原创 Spark算子:RDD基本轉換操作(7)–zipWithIndex、zipWithUniqueId

關鍵字:Spark算子、Spark RDD基本轉換、zipWithIndex、zipWithUniqueId zipWithIndex def zipWithIndex(): RDD[(T, Long)] 該函數將RDD中的元素和這個元素

原创 Spark: sortBy和sortByKey函數詳解

在很多應用場景都需要對結果數據進行排序,Spark中有時也不例外。在Spark中存在兩種對RDD進行排序的函數,分別是 sortBy和sortBy

原创 Spark算子:RDD創建操作

關鍵字:Spark RDD 創建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 從集合創建RDD paralleliz

原创 Spark算子:RDD基本轉換操作(2)–coalesce、repartition

關鍵字:Spark算子、Spark RDD基本轉換、coalesce、repartition coalesce def coalesce(numPartitions: Int, shuffle: Boolean = false)(impl

原创 Spark算子:RDD基本轉換操作(3)–randomSplit、glom

關鍵字:Spark算子、Spark RDD基本轉換、randomSplit、glom randomSplit def randomSplit(weights: Array[Double], seed: Long = Utils.rando

原创 Spark算子:RDD基本轉換操作(4)–union、intersection、subtract

關鍵字:Spark算子、Spark RDD基本轉換、union、intersection、subtract union def union(other: RDD[T]): RDD[T] 該函數比較簡單,就是將兩個RDD進行合併,不去重。

原创 如何使用shell從一個文件中取出不在另一個文件中的內容

本文展示如何利用shell從一個文件中,(按行)找出不在另一個文件中的內容。 #!/bin/bash #@filename checkAddWord.sh #allword.txt         存放總詞庫(每行一個) #newword

原创 Spark算子:統計RDD分區中的元素及數量

關鍵字:Spark算子、Spark RDD分區、Spark RDD分區元素數量 Spark RDD是被分區的,在生成RDD時候,一般可以指定分區的數量,如果不指定分區數量,當RDD從集合創建時候,則默認爲該程序所分配到的資源的CPU核數,

原创 hive中數據去重,union,交集和並集等操作語句總結

insert overwrite table store    select t.p_key,t.sort_word from       ( select p_key,             sort_word ,         

原创 spark中的cache() persist() checkpoint()之間的區別

cache()與persist(): 會被重複使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,寫磁盤的話那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?運算時間很長或運算量太大

原创 Java實現Unicode碼轉爲中文

java裏如何把\u8BA8\u8BBA\u533A這種編碼轉換成中文 package com.util.prop; public class Unicode2CN { /** * @Author:HaoMing(郝明) * @

原创 [轉]Spark與Pandas中DataFrame對比(詳細)

  Pandas Spark 工作方式 單機single machine tool,沒有並行機制parallelism 不支持Hadoop,處理大量數據有瓶頸 分佈式並行計算框架,內建並行機制parallelism,所有的數據和操作自動

原创 hbase bulk load相關源碼簡析之HFileOutputFormat、LoadIncrementalHFiles

轉載請註明出處: http://blog.csdn.net/lonelytrooper/article/details/17040895 PutSortReducer: [java] view plain copy // 對m