原创 Apache Spark 2.4 新增內置函數和高階函數使用介紹

  Apache Spark 2.4 新增了24個內置函數和5個高階函數,本文將對這29個函數的使用進行介紹。關於 Apache Spark 2.4 的新特性。   針對數組類型的函數 array_distinct array_dist

原创 深入淺出Zookeeper(一) Zookeeper架構及FastLeaderElection機制

Zookeeper是什麼 Zookeeper是一個分佈式協調服務,可用於服務發現,分佈式鎖,分佈式領導選舉,配置管理等。 這一切的基礎,都是Zookeeper提供了一個類似於Linux文件系統的樹形結構(可認爲是輕量級的內存文件系統,但只

原创 HBase的RegionServer Group 特性在滴滴的應用

一、背景 目前滴滴 HBase 集羣接入了幾百個項目,近千張表,上層有用戶自己的業務實現以及 Phoenix(HBase SQL 引擎)和 GeoMesa(基於 HBase 的時空索引實現)。 不同用戶間請求方式,業務邏輯,以及要求的響應

原创 使用Flink 在有贊實時平臺架構計算的實踐結果

一、前言 這篇主要由五個部分來組成: 首先是有讚的實時平臺架構。 其次是在調研階段我們爲什麼選擇了 Flink。在這個部分,主要是 Flink 與 Spark 的 structured streaming 的一些對比和選擇 Flink 的

原创 當你還在討論大數據的時候,你是否還在說Hadoop?

現在再寫這篇文章感覺有些不合時宜,目前,貌似很少人再討論大數據,也很少人再討論hadoop。整理這篇文章,是爲了探尋新的技術方向。   先來看看幾篇討論文章(有刪減): Hadoop是否已死,Spark稱霸 由於Hadoop的MapRe

原创 寒冬被裁,如何準備一週,從容面試?

通常我們在面試前,都會有一段的準備時間。在此期間,我們會系統的刷一些面試中常見的問題,做到有準備的去面試。  1 通常我們在面試前,都會有一段的準備時間。在此期間,我們會系統的刷一些面試中常見的問題,做到有準備的去面試。 對於面試前

原创 程序員相親失敗,只因請對方吃肯德基而被嫌棄,最後被怒刪

今天看到一個有趣的話題,一個粉絲投稿: “我是程序員,今天相親時被對方嫌棄了,最後她刪了我”。 樓主男生,第一次見面時請對方吃肯德基,女生吐槽了他很多,最後刪了他···看看他倆的聊天記錄,你們品品。。。     以下是聊天截圖:  

原创 阿里巴巴的大數據之路:JStorm與Blink的發展史

在阿里巴巴的發展過程中,流數據處理一直是業務中很重要的一部分。和數據分析平臺不一樣,阿里巴巴內部的流數據處理平臺有很多套。 在阿里巴巴的流數據發展歷程裏,有兩個著名的流引擎JStorm和Blink依然還在產生着深遠的影響。這種影響並不僅僅

原创 Hadoop集羣從180到1500,攜程大數據實踐之路

平臺規模   2015年我剛加入攜程的時候,它的hadoop集羣規模還僅有約180臺,現在已經發展到超過1500臺,也就是8倍的提升。同時每天的數據增量在200T以上,調度任務數9萬,運行的實例超過18萬,其中80%的作業都運行在Spar

原创 讓 Hadoop 稱霸至今的框架 --Hadoop Yarn

在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 負責了太多的工作,包括資源調度,管理衆多的 TaskTracker 等工作。這自然是不合理的,於是 Hadoop 在 1.0 到 2.0 的升級過程中,便將

原创 你真的知道什麼是“大數據”嗎?5分鐘,帶你get 9個重點

導讀:這些年,大數據作爲一個時髦概念,出現頻率很高,關注度也很高。 今天這篇文章,就讓我們花5分鐘的時間,來深入瞭解一下,到底什麼是大數據。   對於很多人來說,當他第一次聽到“大數據”這個詞,會自然而然從字面上去理解——認爲大數據就

原创 一個故事告訴你什麼纔是好的程序員

從一個故事說起 在應用開發如此方便的今天,我總是會聽到有些人有這樣的疑問,“只是做 應用 開發的話,還有沒有必要學習諸如操作系統,編譯原理這樣的課程呢?”,亦或是會聽到這樣的話,“會用這個框架就行了,它底層是怎麼實現的不用去管。”還記得

原创 Adaptive Execution 讓 Spark SQL 更智能更高效

Spark 灰度發佈在十萬級節點上的實踐 Adaptive Execution 可在 Spark Job 執行過程中,自動基於中間結果的統計信息優化後續的執行計劃從而提高整體執行效率,並降低使用門檻 1 背景 前面《Spark SQL

原创 深入分析CDH的安裝目錄

  如果採用Cloudera官方建議的安裝方式,即Cloudera Manager使用rpm的方式安裝,CDH使用Parcel方式安裝,會在操作系統內產生多種多樣的目錄。CDH安裝主要使用的目錄包括/etc,/usr,/var,/tmp

原创 CDH6.0擴容異常分析

一、問題重現 1.在CDH6.0中,點擊“主機”->“所有主機”->“向羣集添加新主機”,會出現異常如下:   出現異常如下:     2.查看具體的日誌報錯如下: 2018-11-21 20:45:00,262 INFO avr