原创 SequenceFile合併小文件,讀取大文件

package com.zhiyou.bd23; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import java.i

原创 HDFS(Hadoop Distributed File System) Hadoop分佈式文件系統

簡介:    HDFS(Hadoop Distributed File System )Hadoop分佈式文件系統。    是根據google發表的論文翻版的。論文爲GFS(Google File System)Google 文件系統。H

原创 Hadoop最基礎初學者集羣安裝

Hadoop集羣安裝本次依照hadoop-2.7.6版本爲例:克隆vmware克隆前先關閉防火牆克隆完成後先修改hostname方便自己知道自己打開的是哪一臺服務器 vim /etc/sysconfig/network  

原创 HADOOP自定義排序

package com.zhiyou.bd23.totalorder; import java.io.IOException; import org.apache.hadoop.conf.Configurable; import or

原创 Spark

Spark概論: spark是一個快速的統一的大數據處理分析引擎 基本特點: 速度快基於內存計算 簡單易用:支持多語言開發,將數據處理模式封裝成80多個方法供開發者調用 通用性: 支持批處理:核心是RDD,SparkSql 支持流處理:

原创 HBase

1.hbase(mian)>list查看有哪些表     2.創建表       # 語法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>

原创 maven庫中架包未下載完成問題解決

maven庫中架包未下載完成可以使用指令下載:1.配置maven的環境變量       新建: MAVEN_HOME D:\001software\apache-maven-3.5.32.Path 添加:

原创 redis

redis安裝: 解壓壓縮包 tar -zxvf redis-3.2.0.tar.gz 安裝gcc yum install gcc檢查gcc安裝是否成功rpm -qa |grep gcc  cd進入redis目錄下的:deps目錄

原创 分組TopN

package com.zhiyou.bd23.topn; import java.io.File; import java.io.IOException; import java.util.TreeMap; import org.a

原创 kafka

kafka概論: kafka高併發問題解決:橫向擴大緩衝,發送端和接收端之間加消息隊列 特點: Persistent messaging High throughput Distributed Multiple client supp

原创 HADOOP抽樣計算

package com.zhiyou.bd23.totalorder; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import o

原创 Sqoop簡介

目的: 在Hadoop和RDBMS之間高效傳輸數據:hadoop大數據存儲平臺:hdfs、hive、hbaserdbms關係型數據庫 : mysql、oracle、postgresql、mssql原理:把用戶的指令解析編譯成MR任務,發佈

原创 API操作HDFS實例

package com.zhiyou.bd23; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.h

原创 Sqooop1

import輸入:sqoop import --params sqoop-import --params如果分割字段是文本:-Dorg.apache.sqoop.splitter.allow_text_splitter=true如果表沒有

原创 Zookeeper

節點角色:leader                1.接受client請求或接受flower轉發請求,發起提議供其他節點投票選舉                2.爲客戶提供數據查詢服務