原创 SequenceFile合併小文件,讀取大文件
package com.zhiyou.bd23; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import java.i
原创 HDFS(Hadoop Distributed File System) Hadoop分佈式文件系統
簡介: HDFS(Hadoop Distributed File System )Hadoop分佈式文件系統。 是根據google發表的論文翻版的。論文爲GFS(Google File System)Google 文件系統。H
原创 Hadoop最基礎初學者集羣安裝
Hadoop集羣安裝本次依照hadoop-2.7.6版本爲例:克隆vmware克隆前先關閉防火牆克隆完成後先修改hostname方便自己知道自己打開的是哪一臺服務器 vim /etc/sysconfig/network
原创 HADOOP自定義排序
package com.zhiyou.bd23.totalorder; import java.io.IOException; import org.apache.hadoop.conf.Configurable; import or
原创 Spark
Spark概論: spark是一個快速的統一的大數據處理分析引擎 基本特點: 速度快基於內存計算 簡單易用:支持多語言開發,將數據處理模式封裝成80多個方法供開發者調用 通用性: 支持批處理:核心是RDD,SparkSql 支持流處理:
原创 HBase
1.hbase(mian)>list查看有哪些表 2.創建表 # 語法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>
原创 maven庫中架包未下載完成問題解決
maven庫中架包未下載完成可以使用指令下載:1.配置maven的環境變量 新建: MAVEN_HOME D:\001software\apache-maven-3.5.32.Path 添加:
原创 redis
redis安裝: 解壓壓縮包 tar -zxvf redis-3.2.0.tar.gz 安裝gcc yum install gcc檢查gcc安裝是否成功rpm -qa |grep gcc cd進入redis目錄下的:deps目錄
原创 分組TopN
package com.zhiyou.bd23.topn; import java.io.File; import java.io.IOException; import java.util.TreeMap; import org.a
原创 kafka
kafka概論: kafka高併發問題解決:橫向擴大緩衝,發送端和接收端之間加消息隊列 特點: Persistent messaging High throughput Distributed Multiple client supp
原创 HADOOP抽樣計算
package com.zhiyou.bd23.totalorder; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import o
原创 Sqoop簡介
目的: 在Hadoop和RDBMS之間高效傳輸數據:hadoop大數據存儲平臺:hdfs、hive、hbaserdbms關係型數據庫 : mysql、oracle、postgresql、mssql原理:把用戶的指令解析編譯成MR任務,發佈
原创 API操作HDFS實例
package com.zhiyou.bd23; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.h
原创 Sqooop1
import輸入:sqoop import --params sqoop-import --params如果分割字段是文本:-Dorg.apache.sqoop.splitter.allow_text_splitter=true如果表沒有
原创 Zookeeper
節點角色:leader 1.接受client請求或接受flower轉發請求,發起提議供其他節點投票選舉 2.爲客戶提供數據查詢服務