台部落大数据专家

Linux環境設置 /*安裝Hadoop集羣時要確保以下幾個方面 1.本機與虛擬機之間是否可以通信（Ping）。如果不行檢查下面 1.1本機防火牆關閉（開啓情況是本機可以ping虛擬機，虛擬機不能ping本機） 1

2020-06-15 01:31:02

1.1 HDFS的介紹源自於Google的GFS論文發表於2003年10月 HDFS是GFS克隆版，HDFS的全稱是Hadoop Distributed File System易於擴展的分佈式文件系統，運行在大量普通廉價機器上，

2020-06-15 01:30:52

1.2 HDFS控制（Java） hadoop中關於文件操作類基本上全部是在org.apache.hadoop.fs包中，這些api能夠支持的操作包含：打開文件，讀寫文件，刪除文件等。 FileSystem，該類是個抽象類，只能通過來類的

2020-02-20 22:44:30

mapreduce高級特性及shuffle 第一節：shuffle機制 1.1 概述 mapreduce中，map階段處理的數據如何傳遞給reduce階段，是mapreduce框架中最關鍵的一個流程，這個流程就叫shuffle；shuff

2020-02-20 22:44:30

一、分佈式集羣搭建 1.HADOOP集羣規劃 2.HADOOP集羣安裝步驟 1.準備三臺Centos6.7 64bit虛擬機，虛擬機名分別爲： Centos6.7_min1 Centos6.7_min2 Centos6.7_min3 注

2020-02-20 22:44:29

第一節：HADOOP HA概述 1.1 背景在Hadoop 2.0.0之前，NameNode是HDFS集羣中的單點故障（SPOF）。每個羣集都有一個NameNode，如果該機器或進程不可用，整個羣集將不可用，直到NameNode重新

2020-02-20 22:44:29

mapreduce高級特性3 第一節：結合案例講解mr重要知識點 1.1 多表連接第一張表的內容： login： uid sexid logindate 1 1 2017-04-17 08:16:20 2 2 20

2020-02-20 22:44:29

集羣規劃主機名（hostname）安裝軟件運行進程 min1 zookeeper-3.4.7 QuorumPeerMain min2 zookeeper-3.4.7 QuorumPeerMain min3 zookeeper-3.

2020-02-20 22:44:29

大數據是人工智能、物聯網和雲計算的中間件點贊收藏分

2020-02-20 22:44:29

1.1 什麼是HADOOP Apache Hadoop 爲可靠的，可擴展的分佈式計算開發開源軟件。Apache Hadoop軟件庫是一個框架，它允許使用簡單的編程模型跨計算機羣集分佈式處理大型數據集（海量的數據）。包括這些模塊： Hado

2020-02-20 22:44:29

什麼是zookeeper Zookeeper是一個分佈式協調服務；就是爲用戶的分佈式應用程序提供協調服務 zookeeper是爲別的分佈式程序服務的 Zookeeper本身就是一個分佈式程序（只要有半數以上節點存活，zk就能正常

2020-02-20 22:44:29

1 eclipse環境配置普通的java項目創建一個java項目依賴的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar net

2020-02-20 22:44:29

Spark Streaming 課程目標掌握Spark Streaming的原理熟練使用Spark Streaming完成流式計算任務 Spark Streaming介紹 Spark Streaming概述什麼是Spark

2018-09-03 13:41:13

hive的產生 hive的介紹 hive的安裝 hive的數據類型基本命令操作一、hive產生背景 Apache Hive數據倉庫軟件可以使用SQL方便地閱讀、編寫和管理分佈在分佈式存儲中的大型數據集。結構可以投射到已經存儲的數據上。

2018-09-03 13:41:13

Spark計算模型目標熟練使用RDD的算子完成計算掌握RDD的原理彈性分佈式數據集RDD RDD概述什麼是RDD RDD（Resilient Distributed Dataset）叫做分佈式數據集，是Spark中最

2018-09-03 13:41:13