原创 從Hadoop洞悉大數據市場

現今科技界紅到發紫的大數據革命的代表性技術就是Hadoop(注:一個分佈式系統基礎架構)。Hadoop是一個由一系列不同的技術組成的生態系統。 用大數據分析大數據市場 現今科技界紅到發紫的大數據革命的代表性技術就是Hadoop(注:一個分

原创 從Hadoop洞悉大數據市場:大公司更愛大數據

用大數據分析大數據市場 現今科技界紅到發紫的大數據革命的代表性技術就是Hadoop(注:一個分佈式系統基礎架構)。Hadoop是一個由一系列不同的技術組成的生態系統。做Hadoop相關產品的公司有很多,其中也有很多不一樣的選擇和變種,比如

原创 五大步驟幫你實現Hadoop價值最大化

大數據仍然是相對較新的領域,有效管理項目所需的技巧少得可憐。生產環境中使用Hadoop需要有Sqoop、Hive、Pig和MapReduce編程語言經驗。 企業在部署Hadoop時總會遇到一些問題。例如,企業要在生產環境中使用Hadoop

原创 大數據技術生態圈Hadoop、Hive、Spark之間的關係

大數據本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本上都是爲了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯,你可以用小刀

原创 頂級Hadoop管理員面試的問與答

專業人士正在嘗試爲Hadoop開發者和管理者工作,不僅僅是要努力準備hadoop管理者的面試題。當人們處在hadoop開發者的位置,可以自由的準備與管理相關的hadoop面試問題,這對於那些正在準備進入hadoop管理者的角色的人們是很重

原创 大數據之快速搭建hadoop2.6集羣指南

在RedHat6.2以上版本的Linux服務器之上快速搭建hadoop2.6版本的集羣方法。以下操作步驟是筆者在安裝hadoop集羣的安裝筆記,如有對hadoop感興趣的博友可按照本文操作進行無障礙搭建。可以確認以下所有操作步驟的準確性和

原创 R、Python、Scala 和 Java,到底該使用哪一種大數據編程語言?

有一個大數據項目,你知道問題領域(problem domain),也知道使用什麼基礎設施,甚至可能已決定使用哪種框架來處理所有這些數據,但是有一個決定遲遲未能做出:我該選擇哪種語言?(或者可能更有針對性的問題是,我該迫使我的所有開發人員和

原创 大數據領域最全的開源技術彙集,別以爲大數據只有hadoop

大數據正在以驚人的速度增長,幾乎觸及各行各業,許多組織都被迫尋找新的創造性方法來管理和控制如此龐大的數據,當然這麼做的目的不只是管理和控制數據,而是要分析和挖掘其中的價值,來促進業務的發展。 想要深入發展大數據,閉門造車是不可能的,共通共

原创 Hadoop迎來Spark Stream 激發大數據應用新變革

批處理本是大型機時代的主題,近十年來隨着Hadoop MapReduce的關注度逐漸增加,批處理現在又重新成爲熱門主題。但是 Hadoop分佈式供應商的高級管理人員認爲,Apache Spark和其它流處理架構正在改變現狀。 Jack N

原创 大數據入門玩轉Hadoop分佈式集羣搭建

終於要開始玩大數據了,之前對haoop生態幾乎沒有太多的瞭解,現在趕鴨子上架,需要完全使用它來做數據中心,這是我的haoop第一篇文章,以後估計會寫很多大數據相關的文章。 Hadoop的搭建有三種方式,單機版適合開發調試;僞分佈式版,適合

原创 談Hadoop生態的最新發展

在2016年Hadoop十歲生日之際,爲大家梳理Hadoop這十年的變化,技術圈的生態狀況,回顧以前,激勵當下。本文是對盧億雷老師進行的採訪,對大家關心的問題進行了專業的解答。 問:Hadoop會考慮內存或磁盤動態管理技術嗎? 盧億雷:隨

原创 Hadoop新手學習指導之hadoop核心知識學習

hadoop核心知識學習: hadoop分爲hadoop1.X和hadoop2.X,並且還有hadoop生態系統。這裏只能慢慢介紹了。一口也吃不成胖子。 那麼下面我們以hadoop2.x爲例進行詳細介紹: Hadoop的核心是mapred

原创 大數據框架Spark 優於 Hadoop 嗎?

對於任何一個進入大數據世界的人來講,大數據和Hadoop 就成了同義詞。隨着人們學習了大數據生態系統及其工具和運作原理,他們更能理解大數據的實際意義以及Hadoop 在生態系統中所扮演的角色。 維基百科對大數據這樣解釋:大數據是一個寬泛的

原创 R語言和大數據的結合

R還是把數據load到本地進行計算的,這樣的方式在大數據時代多少顯得落伍。目前R和hadoop結合的有hadoop、rhive、rhbase、sparkr等等,rhive和rodps採用的方法是類似的,用lib結合接口進行訪問。 安裝R語

原创 大數據處理和編程實踐Hadoop

首先也是非常支持天善搞的讀書分享這種活動,對於知識的沉澱和分享都非常有益處,數據分析和數據挖掘都吐的比較多,而剛入門時一手操刀的數據倉庫和數據處理在11年的時候是寫了不少,很多文檔現在也都找不到了,很可惜當時也沒有那樣的意識都整理下來。現