原创 一文詳解Spark基本架構原理

Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架,最初在2009年由加州大學伯克利分校的AMPLab開發,並於2010年成爲Apache的開源項目之一,與Hadoop和Storm等其他大數據和MapReduce

原创 爲什麼不推薦成爲一名數據科學通才

數據科學家似乎個個都是全才,他們知識面很廣,即寫的了代碼,又分析的了業務,沒事還能整個數學模型調調參數。 似乎,數據科學家涉及的領域越廣,越能突出數據科學這份職業的價值。 但是,情況恰恰相反! 有着豐富的數據科學經驗的SharpestMi

原创 深入淺出HBase數據庫

HBase的構成 物理上來說,HBase是由三種類型的服務器以主從模式構成的。這三種服務器分別是:Region server,HBase HMaster,ZooKeeper。 其中Region server負責數據的讀寫服務。用戶通過溝通

原创 基於Hadoop搭建數據分析平臺搭建

 企業發展到一定規模都會搭建單獨的BI平臺來做數據分析,即OLAP(聯機分析處理),一般都是基於數據庫技術來構建,基本都是單機產品。除了業務數據的相關分析外,互聯網企業還會對用戶行爲進行分析,進一步挖掘潛在價值,這時數據就會膨脹得很厲害,

原创 Hive數據倉庫與企業級優化

一  數據倉庫 1 什麼是數據倉庫 數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能的企

原创 阿里大數據架構師必備技能,你“佩奇”了嘛?

這兩天真的是被《啥是佩奇》這支廣告片刷屏了。佩奇明明是個喜劇角色,卻把所有人都給看哭了! 中間的劇情,小孫子一句:“想要佩奇”,結果爺爺就開始了滿村子的尋找佩奇,到最後尋找到了小編認爲是最好看的佩奇 不知道大家看了之後是什麼感覺,反正我

原创 第一次有人把Apache Flink說的這麼明白!

Apache Flink(以下簡稱Flink)項目是大數據處理領域最近冉冉升起的一顆新星,其不同於其他大數據項目的諸多特性吸引了越來越多人的關注。本文將深入分析Flink的一些關鍵技術與特性,希望能夠幫助讀者對Flink有更加深入的瞭解,

原创 Spark入門單機版安裝和操作本地和HDFS文件

一、Spark單機版安裝 Spark部署模式主要是四種:Local模式(單機模式,是本文講的方式,僅供熟悉Spark和scala入門用)、Standalone模式(使用Spark自帶的簡單集羣管理器,計算數據不是特別龐大)、YARN模式(

原创 原百度大數據架構師首次分享:15年技術生涯經驗分享

先說說我自己吧!研究生學的是數據統計,之後跟數據的恩愛情仇就開始了!畢業之後由於在大學的時候學的還算比較紮實,經過一段時間的準備,去面試了百度的大數據工程師,很幸運的被錄用上了,之後的職業生涯都是在百度度過的,現在有了一些資本,打算跟朋友

原创 一文學會繞過Hive存儲和壓縮的坑

在學習大數據技術的過程中,HIVE是非常重要的技術之一,但我們在項目上經常會遇到一些存儲和壓縮的坑,本文通過科多大數據的武老師整理,分享給大家。 大家都知道,由於集羣資源有限,我們一般都會針對數據文件的「存儲結構」和「壓縮形式」進行配置優

原创 Apache Flink最詳細的概述

Flink是一款分佈式的計算引擎,它可以用來做批處理,即處理靜態的數據集、歷史的數據集;也可以用來做流處理,即實時地處理一些實時數據流,實時地產生數據的結果;也可以用來做一些基於事件的應用,比如說滴滴通過Flink CEP實現實時監

原创 阿里數據專家談:數據科學家必備技能包

數據科學家需要涉獵的知識面很廣,包括:機器學習、計算機科學、統計學、數學、數據可視化、溝通和深度學習,那麼數據科學家應如何制定他們的學習預算,才能最大限度地滿足僱主的需要? 我瀏覽了一些求職網站,想找出哪些技能是數據科學家最需要掌握的技能

原创 ElasticSearch實戰:Linux日誌對接Kibana

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTFul web接口。ElasticSearch是用Java開發的,並作爲Apache許可條款下的開放源碼發佈,是當前流行

原创 5分鐘解析Hadoop Yarn架構

一. Hadoop Yarn 是什麼 在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 負責了太多的工作,包括資源調度,管理衆多的 TaskTracker 等工作。這自然是不合理的,於是 Hadoop 在 1

原创 Hadoop系列008-HDFS的數據流

HDFS寫數據流程 1.1 剖析文件寫入 image 1)客戶端向namenode請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在。 2)namenode返回是否可以上傳。 3)客戶端請求第一個 block上傳到哪幾