台部落black

內部運行機制任務分配、IO模塊、通信控制模塊、容錯模塊、Shuffle模塊。採用的算法：FIFO、FIAR算法，通信採用AKKA框架 1、spark執行機制： spark應用提交後經歷了一系列轉換最後成爲Task在每個節點上執行。大體

2018-09-04 19:18:26

一、Hadoop項目架構 Hadoop框架是用來解決數據離線批處理問題的框架，其中最核心的是HDFS和MapReduce，HDFS是架構在Hadoop之上的分佈式文件系統，MapReduce是架構在Hadoop之上用來做計算的框架。 ha

2018-09-04 19:18:26

學java其實學了很久了，但其實一直對容器沒有一個深入的瞭解。瞭解的東西其實都是最簡單的、常用的一些方法。在這裏我將對java的容器做一個系統的，比較淺顯的回顧。包括容器的類型、容器的底層實現原理、具體的實例。一、容器的原理與底層容器：C

2018-09-04 19:18:25

一、Hadoop、Spark、Storm三大框架比較 Hadoop:離線海量數據批處理,基於磁盤的 Spark：基於內存。 Spark特點：運行速度快，使用DAG執行引擎以支持循環數據流與內存計算， 2、容易使用：多種語言編程，通過spa

2018-09-04 19:18:25

Yarn設計思路、體系結構、工作流程對比分析MapReduce1.0 MapReduce1.0的缺陷 1、單點故障：只有一個JobTracker負責整個作業的管理調度 2、JobTracter包攬一切，很容易導致出現故障，對MapRe

2018-09-04 19:18:25

海信簡歷投的是軟件開發、測試實習生，沒有筆試，直接一面，面試過程大概是十幾二十分鐘的樣子。面完直接涼了一截。。。說一下面試流程，我接到的通知是在我們學校的軟件大樓面試，中午11.30。進去之後是三個面試官，我估摸着一個是技術面試官，一個是

2018-09-04 19:18:25

最後稍微說一下文件的分割與合併，重在思路！！！重在思路！！！重在思路！！！文件分割與合併：RandomAccessFile 關注seek方法。思路：第一步：初始操作0）確定文件的塊數1）確定每塊大小注意處理邊界，最後一塊2）每塊

2018-09-04 19:18:25

Hive是一個數據倉庫基礎工具，它是建立在Hadoop之上的數據倉庫，在某種程度上可以把它看做用戶編程接口（API），本身也並不存儲和處理數據，依賴於HDFS存儲數據，依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴

2018-09-04 19:18:25

一、概述對比傳統的並行編程框架四個方面：集羣的架構和容錯性（一個節點故障前者會導致整個集羣不工作後者不會）、硬件價格及擴展性（後者僅需要廉價的PC機即可）、編程和學習難度（前者難後者易）、適用場景大數據分佈式並行處理技術MapRed

2018-09-04 19:18:25

在上一篇裏我們簡單的講了一下文件和常用的IO流操作，主要要熟悉字節流和字符流操作。在剛開始不熟悉的時候其實我總是會把這幾個東西給混起來，比如會把字節流的InputStream和字符流Reader給混起來。其實在這裏我們只要記住一點

2018-09-04 19:18:25

文件這一塊其實在我看來是一個稍微還比較簡單的東西，不管是學C語言也好，學其他的語言也罷，操作文件這部分的內容都是必不可少的。操作文件涉及到一個很重要的知識點也就是IO流。那麼學習IO流的用處到底在哪裏呢？首先以一個很簡單的例子說一下我個人

2018-09-04 19:18:25

最近因實習需要開始擺弄起了hadoop和spark相關的，記錄一下我踩過的坑。由於linux下不好調試程序，因此記錄一下用windows下的eclipse調試MapReduce程序。環境：虛擬機VMware搭建的Ubuntu16.0.4

2018-09-04 19:18:24

一、重要概念：分區存儲，分佈式解決的問題：兩大核心分佈式存儲、分佈式處理實現的目標：兼容廉價的硬件設備、實現流數據讀寫、支持大數據集、支持簡單的文件模型、跨平臺的平臺兼容性自身侷限性：1、不適合低延遲數據訪問，高吞吐量，無法高效存儲

2018-09-04 19:18:24

說明：npm（node package manager）是nodejs的包管理器，用於node插件管理（包括安裝、卸載、管理依賴等）使用npm安裝插件：命令提示符執行npm install <name> [

2018-09-04 19:18:09