原创 Spark工作機制

內部運行機制 任務分配、IO模塊、通信控制模塊、容錯模塊、Shuffle模塊。採用的算法:FIFO、FIAR算法,通信採用AKKA框架 1、spark執行機制: spark應用提交後經歷了一系列轉換最後成爲Task在每個節點上執行。 大體

原创 Hadoop系列之原理與架構

一、Hadoop項目架構 Hadoop框架是用來解決數據離線批處理問題的框架,其中最核心的是HDFS和MapReduce,HDFS是架構在Hadoop之上的分佈式文件系統,MapReduce是架構在Hadoop之上用來做計算的框架。 ha

原创 淺談Java容器及原理

學java其實學了很久了,但其實一直對容器沒有一個深入的瞭解。瞭解的東西其實都是最簡單的、常用的一些方法。在這裏我將對java的容器做一個系統的,比較淺顯的回顧。包括容器的類型、容器的底層實現原理、具體的實例。一、容器的原理與底層容器:C

原创 spark原理:概念與架構、工作機制

一、Hadoop、Spark、Storm三大框架比較 Hadoop:離線海量數據批處理,基於磁盤的 Spark:基於內存。 Spark特點:運行速度快,使用DAG執行引擎以支持循環數據流與內存計算, 2、容易使用:多種語言編程,通過spa

原创 Hadoop原理之Yarn資源管理

Yarn設計思路、體系結構、工作流程 對比分析MapReduce1.0 MapReduce1.0的缺陷 1、單點故障:只有一個JobTracker負責整個作業的管理調度 2、JobTracter包攬一切,很容易導致出現故障,對MapRe

原创 海信網絡科技軟件研發實習面試

海信簡歷投的是軟件開發、測試實習生,沒有筆試,直接一面,面試過程大概是十幾二十分鐘的樣子。面完直接涼了一截。。。說一下面試流程,我接到的通知是在我們學校的軟件大樓面試,中午11.30。進去之後是三個面試官,我估摸着一個是技術面試官,一個是

原创 淺談Java文件、IO流(三)

最後稍微說一下文件的分割與合併,重在思路!!!重在思路!!!重在思路!!!文件分割與合併:RandomAccessFile   關注seek方法。思路:第一步:初始操作0)確定文件的塊數1)確定每塊大小   注意處理邊界,最後一塊2)每塊

原创 Hive從概念到原理

Hive是一個數據倉庫基礎工具,它是建立在Hadoop之上的數據倉庫,在某種程度上可以把它看做用戶編程接口(API),本身也並不存儲和處理數據,依賴於HDFS存儲數據,依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴

原创 Hadoop之MapReduce

一、概述 對比傳統的並行編程框架 四個方面:集羣的架構和容錯性(一個節點故障前者會導致整個集羣不工作後者不會)、硬件價格及擴展性(後者僅需要廉價的PC機即可)、編程和學習難度(前者難後者易)、適用場景 大數據分佈式並行處理技術MapRed

原创 淺談Java文件、IO流(二)

    在上一篇裏我們簡單的講了一下文件和常用的IO流操作,主要要熟悉字節流和字符流操作。在剛開始不熟悉的時候其實我總是會把這幾個東西給混起來,比如會把字節流的InputStream和字符流Reader給混起來。其實在這裏我們只要記住一點

原创 淺談Java文件、IO流(一)

文件這一塊其實在我看來是一個稍微還比較簡單的東西,不管是學C語言也好,學其他的語言也罷,操作文件這部分的內容都是必不可少的。操作文件涉及到一個很重要的知識點也就是IO流。那麼學習IO流的用處到底在哪裏呢?首先以一個很簡單的例子說一下我個人

原创 windows下用eclipse連接hadoop集羣

最近因實習需要開始擺弄起了hadoop和spark相關的,記錄一下我踩過的坑。由於linux下不好調試程序,因此記錄一下用windows下的eclipse調試MapReduce程序。 環境:虛擬機VMware搭建的Ubuntu16.0.4

原创 Hadoop原理之HDFS

一、重要概念:分區存儲,分佈式 解決的問題:兩大核心分佈式存儲、分佈式處理 實現的目標:兼容廉價的硬件設備、實現流數據讀寫、支持大數據集、支持簡單的文件模型、跨平臺的平臺兼容性 自身侷限性:1、不適合低延遲數據訪問,高吞吐量,無法高效存儲

原创 用npm和cnpm、yarn創建angular項目

說明:npm(node package manager)是nodejs的包管理器,用於node插件管理(包括安裝、卸載、管理依賴等)使用npm安裝插件:命令提示符執行npm install <name> [