原创 sparkCore-RDD詳解

1.1 什麼是RDD 1.1.1 產生背景 當初設計RDD主要是爲了解決三個問題: Fast: Spark之前的Hadoop用的是MapReduce的編程模型,沒有很好的利用分佈式內存系統,中間結果都需要保存到external disk,

原创 spark自動引包

how to research spark自動引包 spark不自動引包 spark怎樣自動引包 how auto import idea只會自動加載類的引用,spark中的算子,如when,col等函數時,並不會自動import pa

原创 sbt配置——數據源問題解決

sbt安裝 環境 java 1.8 scala 2.12.6 sbt 1.2.1 idea2.18.3 軟件 idea sbt插件 idea scala插件 sbt安裝包 https://sbt-downloads.cdnedge.b

原创 solr高級查詢——group和facet

1. 概述 facet只是簡單統計記錄數,如果需要獲取doc信息,並不能爲每組數據返回實際的數據回來,查詢實際數據還需要再次進行查詢,group類似於關係型數據庫中的group by,除了分組外,還能返回實際數據 2. 查詢示例 2.1 g

原创 BitMap的JAVA實現

相關概念 基礎類型 在java中: byte -> 8 bits -->1字節 char -> 16 bit -->2字節 short -> 16 bits -->2字節 int -> 32 bits -->4字

原创 solr高級查詢——facet分面

1.簡述 1.1 概念 分面搜索也稱爲分面瀏覽,他允許用戶在執行搜索時,根據文檔的一個或者多個方面(即分面)對搜索結果進行細分。用戶通過選擇不同的過濾器來探索搜索結果。 1.2 應用場景 在搜索求職網站時,我們希望對搜索結果按照城市、工作類

原创 坑兒——[error] Not a valid key: idea-shell

在安裝sbt時報以下錯誤 Listening for transport dt_socket at address: 56558 [info] Loading project definition from E:\data\gitee\sb

原创 session analysis rdd graph

可用typora打開此圖  按條件過濾 graph TD A[Mysql<br>Hive]-->|sqlContext|B[actionRDD<br>JavaRDD&ltRow&gt] B-->|mapToPair|C[session

原创 solr入門——solr基礎及常用查詢

1.solr介紹 1.1 solr是什麼 Solr是構建在Apache的Lucene之上獨立的企業級搜索應用服務器。對外提供類似REST風格的Web Services,用戶可以通過http請求發送指定格式文件到Solr服務器生成索引、更新索

原创 spark on yarn

spark on yarn 軟件安裝 當前環境 hadoop環境搭建參考:hadoop集羣安裝 hadoop2.6 spark-2.2.0-bin-hadoop2.6.tgz scala-2.11.12 安裝scala tar -zx

原创 Spark——Streaming源碼解析之容錯

此文是從思維導圖中導出稍作調整後生成的,思維腦圖對代碼瀏覽支持不是很好,爲了更好閱讀體驗,文中涉及到的源碼都是刪除掉不必要的代碼後的僞代碼,如需獲取更好閱讀體驗可下載腦圖配合閱讀: 此博文共分爲四個部分: DAG定義 Job動態生成 數據

原创 Spark 閉包中的閉包

Spark 閉包中ClosureCleaner操作 在Scala,函數是第一等公民,可以作爲參數的值傳給相應的rdd轉換和動作,進而進行迭代處理。 閱讀spark源碼,我們發現,spark對我們所傳入的所有閉包函數都做了一次sc.clean

原创 sparkStreaming基本概念

概述 Spark Streaming 是 Spark Core API 的擴展, 它支持彈性的, 高吞吐的, 容錯的實時數據流的處理. 數據可以通過多種數據源獲取, 例如 Kafka, Flume, Kinesis 以及 TCP socke

原创 YARN 內存參數詳解

yarn組件依賴關係 yarn主要由兩部分組成,ResourceManager和NodeManger。NodeManager裏面包含多個Container,每個Container裏可以運行多個task,比如MapTask和ReduceTa

原创 Spark——Streaming源碼解析之Job動態生成

此文是從思維導圖中導出稍作調整後生成的,思維腦圖對代碼瀏覽支持不是很好,爲了更好閱讀體驗,文中涉及到的源碼都是刪除掉不必要的代碼後的僞代碼,如需獲取更好閱讀體驗可下載腦圖配合閱讀: 此博文共分爲四個部分: DAG定義 Job動態生成 數據