原创 Spark開源框架精彩學習資源分享——DT大數據夢工廠王家林

Spark開源框架精彩學習資源分享——DT大數據夢工廠王家林知識類:https://github.com/JerryLead/SparkInternals(https://github.com/JerryLead/SparkLearning

原创 Spark的枚舉類型實例!scala的枚舉。

Spark的枚舉類型實例!scala的枚舉。Enumeration定義:[deploy] SparkSubmitAction  {   = Value   = Value }Enumeration使用:appArgs. {   SparkS

原创 Spark方面的大牛博客地址收集!

Spark方面的大牛博客地址收集!1、石山園          http://www.cnblogs.com/shishanyuan/2、段智華的博客        http://blog.csdn.net/duan_zhihua 3、西紅

原创 如何在Spark集羣的work節點上啓動多個Executor?

如何在Spark集羣的work節點上啓動多個Executor?默認情況下,Spark集羣下的worker,只會啓動一個Executor,只運行了一個 CoarseGrainedExecutorBackend 進程。Worker 通過持有 E

原创 快被Maven折騰瘋了!

快被Maven折騰瘋了!maven倉庫用過的人都知道,國內有多麼的悲催。還好有比較好用的鏡像可以使用,儘快記錄下來。速度提升100倍。http://maven.aliyun.com/nexus/#view-repositories;publ

原创 hadoop的集羣配置,原創解決了好多個問題(spark+hadoop+scala集羣配置)

centos下,安裝spark+hadoop+scala,說下我遇到的問題和注意事項1、hadoop的文件夾及用戶問題假定是3臺部署,1臺master,2臺slave,在master,slave1,slave2上均建立hadoop用戶,然後

原创 Eclipse工程中關聯Java源代碼 !

Eclipse中看Java源代碼 Eclipse工程中關聯Java源代碼 !JavaEclipseJDKCC++如何在Eclipse sdk中查看jar源代碼如:*.jar 1.點 “window”-> "Preferences" -> "

原创 Spark分區詳解!DT大數據夢工廠王家林老師親自講解!

Spark分區詳解!DT大數據夢工廠王家林老師親自講解!http://www.tudou.com/home/_79823675/playlist?qq-pf-to=pcqq.group 一、分片和分區的區別?分片是從數據角度,分區是從計算的

原创 第一次看到Spark崩潰:Spark Shell內存OOM的現象!

第一次看到Spark崩潰Spark Shell內存OOM的現象要搞Spark圖計算,所以用了Google的web-Google.txt,大小71.8MB。以命令:val graph = GraphLoader.edgeListFile(sc

原创 Spark submit依賴包管理!

Spark submit依賴包管理!使用spark-submit時,應用程序的jar包以及通過—jars選項包含的任意jar文件都會被自動傳到集羣中。spark-submit --class   --master  --jars Spark

原创 Spark Graphx圖計算案例實戰之aggregateMessages求社交網絡中的最大年紀追求者和平均年紀!

Spark Graphx圖計算案例實戰之aggregateMessages求社交網絡中的最大年紀追求者和平均年紀!Spark Graphx提供了mapReduceTriplets來對圖進行聚合計算,但是1.2以後不再推薦使用,源代碼如下:@

原创 Intelli IDEA開發Spark工程關聯Spark源碼!

Intelli IDEA開發Spark工程關聯Spark源碼!一、關聯什麼?一般關聯zip、jar等,但是Spark的源碼是tgz格式的,沒法關聯,沒關係,下載tgz的,解壓縮成目錄。二、怎麼關聯?第1步先選中工程。選擇Project st

原创 PMBOK2012的幾種合同形式 PPP和BOT

目前最流行,也是國家財政部、地方公司熱衷的是ppp形式的項目承包制。PPP到底是什麼呢?PPP(public-private-partion)就是通過公司公共部門和私營部門的合作來建設公共部門的基礎設施。BOT是什麼呢?BOT(build-

原创 我的疑問:hadoop的單機、僞分佈式、分佈式區別

一 單機模式standalone單機模式是Hadoop的默認模式。當首次解壓Hadoop的源碼包時,Hadoop無法瞭解硬件安裝環境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均爲空。當配置文件爲空時,Hadoop會完全運行

原创 SparkStreaming性能調優大全!

SparkStreaming性能調優大全!一、日誌已滿: spark.executor.logs.rolling.maxSize 下面三個日誌rolling參數記得設置: spark.executor.logs.rolling.strate