台部落xpleaf

原文：http://blog.jobbole.com/80619/文中並沒有手動實現mapreduce wordcount的例子，後面我自己會寫一個，但總體文章寫得還是挺好的。簡單解釋 MapReduce 算法一個有趣的例子你想數出一摞牌中

2019-11-07 14:27:43

[TOC] Spark Thrift JDBCServer應用場景解析與實戰案例 1 前言這裏說的Spark Thrift JDBCServer並不是網上大部分寫到的Spark數據結果落地到RDB數據庫中所使用的JDBC方式，而是指Sp

2019-07-14 13:53:40

1 Stream流對集合進行迭代時，可調用其iterator方法，返回一個iterator對象，之後便可以通過該iterator對象遍歷集合中的元素，這被稱爲外部迭代（for循環本身正是封裝了其的語法糖），其示意圖如下：除此之外，還有

2019-04-01 13:47:31

1 爲什麼要按列存儲列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好，直接抄原文了)：Ø Row-base

2019-02-22 16:56:15

[TOC] 1 大數據處理的常用方法大數據處理目前比較流行的是兩種方法，一種是離線處理，一種是在線處理，基本處理架構如下：在互聯網應用中，不管是哪一種處理方式，其基本的數據來源都是日誌數據，例如對於web應用來說，則可能是用戶的訪問

2019-02-22 16:56:14

[TOC] 1 前言其實在之前的文章《Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器》中也有類似的測試，不過當時做的測試僅僅是在本地跑代碼，並以Java/Scala代碼通過設置開始時間和結束時間的方式來進行統計測試

2019-02-22 16:56:13

轉載自：https://www.cnblogs.com/itboys/p/9201750.html這裏只取其前面的部分，跟之前看的一樣，不過自己就懶得去畫圖總結了。然後取前半部分是因爲，目前對於Spark的學習還是在1.6，我也希望後面有時

2019-01-17 13:21:53

[TOC] 0 說明使用的es版本爲5.6，Linux版本爲CentOs 6.5. 1 Elasticsearch bootstrap checks 1.1 開發環境如果在es的配置中沒有配置network.host來指定一個可用的I

2018-12-07 13:21:26

1 問題緣由最近繼續在探索es的更多內容，查閱了相關資料（包括博客文章跟其它一些教程），學習到寫一致性原理的相關知識，其本身並不難理解，但是一定要在實踐中經過驗證纔會有更深的體會，就像在項目過使用過es做各種聚合統計搜索分析，跟沒使用過，

2018-11-05 02:28:38

[TOC] 0 說明基於es 5.4和5.6，參考兩份資料，《從Lucene到Elasticsearch全文檢索實戰》和官方文檔 https://www.elastic.co/guide/en/elasticsearch/referen

2018-10-24 02:44:03

[TOC] 0 說明基於es 5.4和es 5.6，列舉的是個人工作中經常用到的查詢（只是工作中使用的是Java API），如果需要看完整的，可以參考官方相關文檔https://www.elastic.co/guide/en/elast

2018-10-23 02:26:20

[TOC] 1 場景在實際過程中，遇到這樣的場景：日誌數據打到HDFS中，運維人員將HDFS的數據做ETL之後加載到hive中，之後需要使用Spark來對日誌做分析處理，Spark的部署方式是Spark on Yarn的方式。從

2018-10-11 02:24:40

[TOC] 0 前言可以先參考之前寫的《Yarn流程、Yarn與MapReduce 1相比》，之後再參考《Spark作業運行架構原理解析》，然後再閱讀下面的內容，就很容易理解了。下面內容參考：https://blog.csdn.net

2018-10-08 02:22:58

[TOC] 1 說明根據之前old li（百度高級大數據工程師）給的一張草圖重新整理，並用processon繪圖一下，這樣就更加清晰了。需要注意的是，這裏是基於Spark 2.x以下的版本，因爲在之前，底層通信是基於AKKA ACTOR

2018-10-06 02:23:03

1 Spark版本 Spark 2.1.0。 2 說明去年在網易之初，已經開發了一個完整的RPC框架，其中使用的核心技術也是Netty，所以當看到Spark的RPC框架時，並不覺得太陌生，關於個人開發的這個RPC框架，真正完全可用是在今年

2018-09-12 04:21:04