原创 DOM4J_ElementHandler示例代碼

DOM4J解析XML利用ElementHandler接口。重寫onStart()和onEnd()兩個方法。  注意:要讀取元素節點的內容,必須在onEnd()方法中,因爲onStart()只解析到開始節點。  1、解析: SAXRead

原创 missing artifact jdk.tools:jar:1.7

pom.xml一直提示“missing artifact jdk.tools:jar:1.7”但pom.xml文件裏沒有相關jdk.tools的依賴配置 主要原因: eclipse用來啓動的JRE不是我們在開發時候配置的JRE,而Mave

原创 [Apache Spark源碼閱讀]-SparkContext解析

稍微瞭解Spark源碼的人應該都知道SparkContext,作爲整個Project的程序入口,其重要性不言而喻,許多大牛也在源碼分析的文章中對其做了很多相關的深入分析和解讀。這裏,結合自己前段時間的閱讀體會,與大家共同討論學習一下Spa

原创 【MR】MapReduce中shuffle、partition、combiner的作用與關係

【MR】MapReduce中shuffle、partition、combiner的作用與關係 一,shuffle  (一)對shuffle的理解  shuffle的正常意思是洗牌或弄亂。它只代表reduce task獲取map task的

原创 Hadoop中Partition和Combiner作用

1、解析Partiton   把map任務的輸出的中間結果按照key的範圍進行劃分成r份,r代表reduce任務的個數。hadoop默認有個類HashPartition實現分區,通過key對reduce的個數取模(key%r),這樣可以保

原创 java Spark 簡單實例 包含每一個方法具體的使用

最近因爲工作需要,研究了下spark,因爲scala還不熟,所以先學習了java的spark程序寫法,下面是我的簡單測試程序的代碼,大部分函數的用法已在註釋裏面註明。 我的環境:hadoop 2.2.0                

原创 Spark groupByKey,reduceByKey,sortByKey算子的區別

Spark groupByKey,reduceByKey,sortByKey算子的區別 在spark中,我們知道一切的操作都是基於RDD的。在使用中,RDD有一種非常特殊也是非常實用的format——pair RDD,即RDD的每一行是(

原创 spark核心技術原理透視一(Spark運行原理)

原文鏈接:http://www.raincent.com/content-85-11052-1.html   在大數據領域,只有深挖數據科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而佔據領先地位。 來源:加米穀大數據 在大

原创 Spark中文指南(入門篇)-Spark編程模型(一)

前言   本章將對Spark做一個簡單的介紹,更多教程請參考:Spark教程 本章知識點概括 Apache Spark簡介 Spark的四種運行模式 Spark基於Standlone的運行流程 Spark基於YARN的運行流程 Apach

原创 spark 入門程序 SparkWordCount

1、下載spark2.1.0,下載地址https://spark.apache.org/downloads.html 2、上傳到linux服務器,解壓即可簡單應用,具體驗證是否可用步驟 第一步:進入spark的bin目錄 第二步:執行sp

原创 Windows下用Eclipse創建一個spark程序三步曲(Java版)

用Eclipse創建一個spark程序三步曲(Java版) Step1:創建Maven工程 Step2:添加maven依賴 Step3:編寫程序 在動手寫第一個spark程序之前,得具備以下條件  前提條件:  1. 已經安裝有Mave

原创 Hadoop MultipleInputs.addInputPath 讀取多個路徑

MultipleInputs.addInputPath 作用 可以指定多個輸入路徑,每個路徑都可以指定相應的map方法 使用方法 MultipleInputs.addInputPath (Job job, Path path, Clas

原创 UltraEdit 知識點

在ue中, ^p是回車換行。此外還告訴你,敲入的tab鍵,是用 ^t來表示。

原创 java split(String regex, int limit) 的使用

項目中遇到了這樣一個問題,對 String str = ",," 調用 split(",")方法,預期結果是返回一個長度爲 3 的String數組,且每一個元素都爲空字符串 ""。但實際結果返還的是一個空數組,長度爲 0 。 百度之,原來

原创 Java正則表達式符號大全(Regular Express)

首先了解一下常用正則表達式的語法 \d           數字 \w          數字或者字母 .             可以匹配任意字符 星號*     表示任意個字符  +          表示至少一個字符 ?