原创 MapReduce原理與設計思想

原文:http://blog.jobbole.com/80619/文中並沒有手動實現mapreduce wordcount的例子,後面我自己會寫一個,但總體文章寫得還是挺好的。簡單解釋 MapReduce 算法一個有趣的例子你想數出一摞牌中

原创 Spark Thrift JDBCServer應用場景解析與實戰案例

[TOC] Spark Thrift JDBCServer應用場景解析與實戰案例 1 前言 這裏說的Spark Thrift JDBCServer並不是網上大部分寫到的Spark數據結果落地到RDB數據庫中所使用的JDBC方式,而是指Sp

原创 Java8函數式編程(二):類比Spark RDD算子的Stream流操作

1 Stream流 對集合進行迭代時,可調用其iterator方法,返回一個iterator對象,之後便可以通過該iterator對象遍歷集合中的元素,這被稱爲外部迭代(for循環本身正是封裝了其的語法糖),其示意圖如下: 除此之外,還有

原创 幾張圖看懂列式存儲

1 爲什麼要按列存儲列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好,直接抄原文了):Ø  Row-base

原创 大數據採集、清洗、處理:使用MapReduce進行離線數據分析完整案例

[TOC] 1 大數據處理的常用方法 大數據處理目前比較流行的是兩種方法,一種是離線處理,一種是在線處理,基本處理架構如下: 在互聯網應用中,不管是哪一種處理方式,其基本的數據來源都是日誌數據,例如對於web應用來說,則可能是用戶的訪問

原创 Spark筆記整理(十三):RDD持久化性能測試(圖文並茂)

[TOC] 1 前言 其實在之前的文章《Spark筆記整理(五):Spark RDD持久化、廣播變量和累加器》中也有類似的測試,不過當時做的測試僅僅是在本地跑代碼,並以Java/Scala代碼通過設置開始時間和結束時間的方式來進行統計測試

原创 Spark筆記整理(十七):Spark Shuffle過程

轉載自:https://www.cnblogs.com/itboys/p/9201750.html這裏只取其前面的部分,跟之前看的一樣,不過自己就懶得去畫圖總結了。然後取前半部分是因爲,目前對於Spark的學習還是在1.6,我也希望後面有時

原创 Elasticsearch啓動分析與問題解決-bootstrap checks

[TOC] 0 說明 使用的es版本爲5.6,Linux版本爲CentOs 6.5. 1 Elasticsearch bootstrap checks 1.1 開發環境 如果在es的配置中沒有配置network.host來指定一個可用的I

原创 Elasticsearch寫一致性在5.x版本之後已經被廢棄掉

1 問題緣由 最近繼續在探索es的更多內容,查閱了相關資料(包括博客文章跟其它一些教程),學習到寫一致性原理的相關知識,其本身並不難理解,但是一定要在實踐中經過驗證纔會有更深的體會,就像在項目過使用過es做各種聚合統計搜索分析,跟沒使用過,

原创 ElasticSearch常用操作:索引篇

[TOC] 0 說明 基於es 5.4和5.6,參考兩份資料,《從Lucene到Elasticsearch全文檢索實戰》和官方文檔 https://www.elastic.co/guide/en/elasticsearch/referen

原创 ElasticSearch常用操作:查詢與聚合篇

[TOC] 0 說明 基於es 5.4和es 5.6,列舉的是個人工作中經常用到的查詢(只是工作中使用的是Java API),如果需要看完整的,可以參考官方相關文檔https://www.elastic.co/guide/en/elast

原创 Spark on Yarn with Hive實戰案例與常見問題解決

[TOC] 1 場景 在實際過程中,遇到這樣的場景: 日誌數據打到HDFS中,運維人員將HDFS的數據做ETL之後加載到hive中,之後需要使用Spark來對日誌做分析處理,Spark的部署方式是Spark on Yarn的方式。 從

原创 Spark on Yarn作業運行架構原理解析

[TOC] 0 前言 可以先參考之前寫的《Yarn流程、Yarn與MapReduce 1相比》,之後再參考《Spark作業運行架構原理解析》,然後再閱讀下面的內容,就很容易理解了。 下面內容參考:https://blog.csdn.net

原创 Spark作業運行架構原理解析

[TOC] 1 說明 根據之前old li(百度高級大數據工程師)給的一張草圖重新整理,並用processon繪圖一下,這樣就更加清晰了。需要注意的是,這裏是基於Spark 2.x以下的版本,因爲在之前,底層通信是基於AKKA ACTOR

原创 Spark源碼研讀-散篇記錄(二):Spark內置RPC框架之TransportConf

1 Spark版本 Spark 2.1.0。 2 說明 去年在網易之初,已經開發了一個完整的RPC框架,其中使用的核心技術也是Netty,所以當看到Spark的RPC框架時,並不覺得太陌生,關於個人開發的這個RPC框架,真正完全可用是在今年