台部落假的鱼

Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架，最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成爲Apache的開源項目之一，與Hadoop和Storm等其他大數據和MapReduce

2019-01-25 13:51:02

數據科學家似乎個個都是全才，他們知識面很廣，即寫的了代碼，又分析的了業務，沒事還能整個數學模型調調參數。似乎，數據科學家涉及的領域越廣，越能突出數據科學這份職業的價值。但是，情況恰恰相反! 有着豐富的數據科學經驗的SharpestMi

2019-01-25 13:51:02

HBase的構成物理上來說，HBase是由三種類型的服務器以主從模式構成的。這三種服務器分別是：Region server，HBase HMaster，ZooKeeper。其中Region server負責數據的讀寫服務。用戶通過溝通

2019-01-25 13:51:02

企業發展到一定規模都會搭建單獨的BI平臺來做數據分析，即OLAP（聯機分析處理），一般都是基於數據庫技術來構建，基本都是單機產品。除了業務數據的相關分析外，互聯網企業還會對用戶行爲進行分析，進一步挖掘潛在價值，這時數據就會膨脹得很厲害，

2019-01-25 13:51:02

一數據倉庫 1 什麼是數據倉庫數據倉庫，英文名稱爲Data Warehouse，可簡寫爲DW或DWH。數據倉庫，是爲企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能的企

2019-01-25 13:51:02

這兩天真的是被《啥是佩奇》這支廣告片刷屏了。佩奇明明是個喜劇角色，卻把所有人都給看哭了！中間的劇情，小孫子一句：“想要佩奇”，結果爺爺就開始了滿村子的尋找佩奇，到最後尋找到了小編認爲是最好看的佩奇不知道大家看了之後是什麼感覺，反正我

2019-01-25 13:51:02

Apache Flink（以下簡稱Flink）項目是大數據處理領域最近冉冉升起的一顆新星，其不同於其他大數據項目的諸多特性吸引了越來越多人的關注。本文將深入分析Flink的一些關鍵技術與特性，希望能夠幫助讀者對Flink有更加深入的瞭解，

2019-01-25 13:51:02

一、Spark單機版安裝 Spark部署模式主要是四種：Local模式（單機模式，是本文講的方式，僅供熟悉Spark和scala入門用）、Standalone模式（使用Spark自帶的簡單集羣管理器,計算數據不是特別龐大）、YARN模式（

2019-01-21 20:19:28

先說說我自己吧！研究生學的是數據統計，之後跟數據的恩愛情仇就開始了！畢業之後由於在大學的時候學的還算比較紮實，經過一段時間的準備，去面試了百度的大數據工程師，很幸運的被錄用上了，之後的職業生涯都是在百度度過的，現在有了一些資本，打算跟朋友

2019-01-21 20:19:18

在學習大數據技術的過程中，HIVE是非常重要的技術之一，但我們在項目上經常會遇到一些存儲和壓縮的坑，本文通過科多大數據的武老師整理，分享給大家。大家都知道，由於集羣資源有限，我們一般都會針對數據文件的「存儲結構」和「壓縮形式」進行配置優

2019-01-21 20:19:18

Flink是一款分佈式的計算引擎，它可以用來做批處理，即處理靜態的數據集、歷史的數據集;也可以用來做流處理，即實時地處理一些實時數據流，實時地產生數據的結果;也可以用來做一些基於事件的應用，比如說滴滴通過Flink CEP實現實時監

2019-01-21 20:19:18

數據科學家需要涉獵的知識面很廣，包括：機器學習、計算機科學、統計學、數學、數據可視化、溝通和深度學習，那麼數據科學家應如何制定他們的學習預算，才能最大限度地滿足僱主的需要? 我瀏覽了一些求職網站，想找出哪些技能是數據科學家最需要掌握的技能

2019-01-18 18:39:48

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎，基於RESTFul web接口。ElasticSearch是用Java開發的，並作爲Apache許可條款下的開放源碼發佈，是當前流行

2019-01-18 18:39:48

一. Hadoop Yarn 是什麼在古老的 Hadoop1.0 中，MapReduce 的 JobTracker 負責了太多的工作，包括資源調度，管理衆多的 TaskTracker 等工作。這自然是不合理的，於是 Hadoop 在 1

2019-01-18 18:39:48

HDFS寫數據流程 1.1 剖析文件寫入 image 1）客戶端向namenode請求上傳文件，namenode檢查目標文件是否已存在，父目錄是否存在。 2）namenode返回是否可以上傳。 3）客戶端請求第一個 block上傳到哪幾

2019-01-18 18:39:48