Hadoop入门体系介绍(1)

Hadoop体系介绍

1. Hadoop快速入门

1.1 数据

  数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字, 称为数字数据。 在计算机系统中,数据以二进制信息单元 0,1 的形式表示。

1.2 大数据

1.2.1 概念

  指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集
最基本的衡量:大小 数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB
在这里插入图片描述
  据国际数据公司(IDC)统计,全球数据总量预计 2020 年达到 44ZB,中国数据量将达到 8060EB, 占全球数据总量的 18%

1.2.2 大数据特点

容量大,种类多,速度快,价值高

  1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息 新浪微博,3 亿用户,每天上亿条微博 朋友圈,8 亿用户,每天亿级别朋友圈
  2. 种类(Variety):数据类型的多样性,包括文本,图片,视频,音频 结构化数据:可以用二维数据库表来抽象,抽取数据规律 半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML等,也可称非结构化 非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等
  3. 速度(Velocity):指获得数据的速度以及处理数据的速度 数据的产生呈指数式爆炸式增长 处理数据要求的延时越来越低
  4. 价值(Value):合理运用大数据,以低成本创造高价值 综合价值大,隐含价值大 单条数据记录无价值,无用数据多
    【总结】: 1、数据量大,处理难度大,但是蕴含价值也大 2、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确 3、要求对数据进行及时处理,追求更极致更完善的用户体验 4、数据成为新的资源,掌握数据就掌握了巨大的财富
    大数据崛起的根本原因: 1、数据生成的速度呈指数式爆炸增长 2、数据的存储成本指数下降 3、流动数据增加,云端数据增加 4、企业可用数据资源增大

1.2.3 大数据价值

  在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数 据集合并后进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等,这样的用途 正是大型数据集盛行的原因

1.3 Hadoop 的产生背景

  • Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网 页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题
  • 2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案 1、分布式文件系统GFS,可用于处理海量网页的存储 2、分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题 3、分布式数据库 BigTabl,每一张表可以存储上 billions 行和 millions 列
  • Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce,并从 Nutch 中剥离成为 独立项目 Hadoop,到 2008 年 1 月,Hadoop 成为 Apache 顶级项目,迎来了它的快速发 展期

1.4 什么是Hadoop

  1. Hadoop 是 Apache 旗下的一套开源软件平台
  2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分 布式处理
  3. Hadoop 的核心组件有
    A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
    B.HDFS(Hadoop Distributed File System分布式文件系统)
    C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
    D.MapReduce(Map 和 Reduce 分布式运算编程框架)
  4. 广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
  5. 官网介绍:http://hadoop.apache.org/
    在这里插入图片描述在这里插入图片描述

1.5 Hadoop在大数据和云计算中的位置与关系

  1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡 等传统计算机技术和互联网技术融合发展的产物。借助 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户
  2. 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
  3. 而 Hadoop 则是云计算的 PaaS 层的解决方案之一,并不等同于 PaaS,更不等同于云计算 本身

1.6 Hadoop技术应用框架概览

1.6.1 Hadoop应用于数据服务基础平台建设

在这里插入图片描述

1.6.2 Hadoop用于用户画像

在这里插入图片描述在这里插入图片描述

1.6.3 Hadoop用于网站点击数据挖掘

在这里插入图片描述
最后总结:hadoop 并不会跟某个具体的行业或者某个具体的业务挂钩,它只是一种用来做 海量数据分析处理的工具

1.7 Hadoop 生态圈以及各组成部分的简介

在这里插入图片描述
重点组件:
HDFS:Hadoop 的分布式文件存储系统
MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型
Hive:基于 Hadoop 的类 SQL 数据仓库工具
HBase:基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper:分布式协调服务组件
Mahout:基于MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具

1.8 Hadoop就业情况及所需技能要求

1.8.1 Hadoop 整体行业情况

A、大数据产业已纳入国家十三五规划
B、各大城市都在进行智慧城市项目建设,而智慧城市的根基就是大数据综合平台
C、互联网时代数据的种类,增长都呈现爆发式增长,各行业对数据的价值日益重视
D、相对于传统 JAVAEE 技术领域来说,大数据领域的人才相对稀缺
E、随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术 是一个尚在蓬勃发展且具有长远前景的领域

1.8.2 Hadoop就业职位要求

大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,大数据技术领 域的就业选择是多样的,但就 Hadoop 而言,通常都需要具备以下技能或知识
1、硬实力

  • A、Hadoop 分布式集群的平台搭建
  • B、Hadoop 分布式文件系统 HDFS 的原理理解及使用
  • C、Hadoop 分布式运算框架 MapReduce 的原理理解及编程
  • D、MySQL 数据库,Hive 数据仓库工具的熟练应用
  • E、Flume、Sqoop、Oozie/Azkaban 等辅助工具的熟练使用
  • F、Shell/Python 等脚本语言的开发能力
    2、软实力
  • A、解决问题的能力(调试,阅读文档)
  • B、沟通协调能力(寻求帮助)
  • C、学习提升自己的能力(自我提高)
  • D、组织管控能力(管理能力)

1.8.4 Hadoop相关职位的薪资水平

  大数据技术或具体到 HADOOP 的就业需求目前主要集中在北上广深一线城市,薪资待遇普 遍高于传统 JAVAEE 开发人员,以北京为例:
北京 Hadoop:
在这里插入图片描述
北京Spark:
在这里插入图片描述

2.分布式系统概述

PS:由于大数据技术领域的各类技术框架基本上都是分布式系统,因此,理解 hadoop、storm、 spark 等技术框架,都需要具备基本的分布式系统概念

概念讲解

  • A.集群 + 负载均衡
  • B.分布式
     1、 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或 模块之间通过网络通信进行协作,实现最终的整体功能
     2、 比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件 系统和分布式数据库系统等。
    【总结】:利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统

离线分析系统结构概述

PS:本环节主要感受数据分析系统的宏观概念及处理流程,初步理解 hadoop 等框架在其中 的应用环节,不用过于关注具体实现细节
离线数据分析流程: 一个应用广泛的数据分析系统:web 日志数据挖掘
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章