原创 阿里雲E-MapReduce產品探祕,快速構建可擴展的高性能大數據平臺

本文來自夏立的分享,花名雷飆,阿里巴巴計算平臺EMR高級產品專家。 2014年開始接觸大數據,歷經阿里內部的大數據發展,目前在阿里雲上負責開源的大數據平臺EMR產品,構建雲上的開源生態。 產品介紹 阿里雲EMR的整體架構如下: 管理運維能力

原创 阿里雲Spark Shuffle的優化

本次分享者:辰石,來自阿里巴巴計算平臺事業部EMR團隊技術專家,目前從事大數據存儲以及Spark相關方面的工作。 Spark Shuffle介紹 Smart Shuffle設計 性能分析 Spark Shuffle流程 Spark 0.

原创 Flink CheckPoint奇技淫巧 | 原理和在生產中的應用

簡介 Flink本身爲了保證其高可用的特性,以及保證作用的Exactly Once的快速恢復,進而提供了一套強大的Checkpoint機制。 Checkpoint機制是Flink可靠性的基石,可以保證Flink集羣在某個算子因爲某些原因(如

原创 助力秋招-獨孤九劍破劍式 | 10家企業面試真題

【聲明】本文由《大數據技術與架構》讀者提供,未經授權不得轉載。 5萬人關注的大數據成神之路,不來了解一下嗎? 5萬人關注的大數據成神之路,真的不來了解一下嗎? 5萬人關注的大數據成神之路,確定真的不來了解一下嗎? 騰訊 關鍵詞【Java基

原创 大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。 在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行爲,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在

原创 你需要的不是實時數倉 | 你需要的是一款合適且強大的OLAP數據庫(上)

前言 今年有個現象,實時數倉建設突然就被大家所關注。我個人在公衆號也寫過和轉載過幾篇關於實時數據倉庫的文章和方案。 但是對於實時數倉的狂熱追求大可不必。 首先,在技術上幾乎沒有難點,基於強大的開源中間件實現實時數據倉庫的需求已經變得沒有那麼

原创 劍譜總綱 | 大數據方向學習面試知識圖譜

關注我的公衆號,後臺回覆【JAVAPDF】獲取200頁面試題! 5萬人關注的大數據成神之路,不來了解一下嗎? 5萬人關注的大數據成神之路,真的不來了解一下嗎? 5萬人關注的大數據成神之路,確定真的不來了解一下嗎? 歡迎您關注《大數據成神之路

原创 你需要的不是實時數倉 | 你需要的是一款強大的OLAP數據庫(下)

在上一章節中,我們講到實時數倉的建設,互聯網大數據技術發展到今天,各個領域基本已經成熟,有各式各樣的解決方案可以供我們選擇。 在實時數倉建設中,解決方案成熟,消息隊列Kafka、Redis、Hbase鮮有敵手,幾乎已成壟斷之勢。而OLAP的

原创 王知無出品,Flink最強學習資源合集!

Flink零基礎入門 Flink入門 Flink DataSet&DataSteam API Flink集羣部署 Flink重啓策略 Flink分佈式緩存 Flink重啓策略 Flink中的Time Flink中的窗口 Flink的時間戳

原创 Java中多個ifelse語句的替代設計

今天在改老代碼的過程中,親眼見證了一段30個if-else嵌套的代碼... 然後蒐集了一些資料做了以下簡單整理。 概述 ifelse是任何編程語言的重要組成部分。但是我們編寫了大量嵌套的if語句,這使得我們的代碼更加複雜和難以維護。 接下來

原创 SparkSQL的3種Join實現

引言Join是SQL語句中的常用操作,良好的表結構能夠將數據分散在不同的表中,使其符合某種範式,減少表冗餘、更新容錯等。而建立表和表之間關係的最佳方式就是Join操作。 對於Spark來說有3中Join的實現,每種Join對應着不同的應用場

原创 關於redis的幾件小事(一)redis的使用目的與問題

1.redis是用來幹嘛的? Redis is an open source (BSD licensed), in-memory data structure store, used as a database, cache and mes

原创 SparkSQL的3種Join實現

引言 Join是SQL語句中的常用操作,良好的表結構能夠將數據分散在不同的表中,使其符合某種範式,減少表冗餘、更新容錯等。而建立表和表之間關係的最佳方式就是Join操作。 對於Spark來說有3中Join的實現,每種Join對應着不同的應用

原创 關於redis的幾件小事(一)redis的使用目的與問題

1.redis是用來幹嘛的? Redis is an open source (BSD licensed), in-memory data structure store, used as a database, cache and mes

原创 Flink操作Hbase

現在有這樣一個場景,我們需要將hbase做成一個數據流,而不是數據集。根據Flink自帶的Flink-Hbase只能幫我們做到數據集,所以這個時候選擇了重寫Hbase的數據源。 package com.yjp.flink.demo11;