大數據入門

原創

2019-08-28 22:33

推薦系統項目架構----以及數據流程：

linux 主機集羣的搭建------通過VMware虛擬機進行對其中的一臺主機進行克隆，然後在分別修改每臺機器的靜態IP

進入這個位置進行修改IP地址，進入之後：

1，使用 dd 操作刪除eth0所在的配置行

2.使用 ctr l + $ 定位到文本的最後一行，並修改成eth0，同時複製 ATTR(address) 後面的 mac 地址

對機器進行網絡的配置：

vim /etc / sysconfig / network - script / ifcfg - eth0

修改其中的硬件地址跟我們設置的 IP地址ude

修改主機名稱：

：q

查看主機名映射是否配置好：

vimsys=

創建一個具有 root 權限的用戶名：

進行環境變量的設置：

#####JAVA_HOMT

export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

再執行 source /etc/profile 使用配置文件

================================================================================================

開始配置：

配置輸入環境，將 etc / 下面的配置文件複製到新穿件的 input 目錄下面

執行案例：(grep案例)

其中output必須爲空

僞分佈式模式：

etc/hadoop/hadoop-enc.sh 中進行如下配置：

完全分佈式：

踩坑：（分佈式集羣搭建成功之後----使用 start-dfs.sh------再使用jps查看不到namenode的啓動------一定要在啓動集羣的時候使用hadoop namenode format 對集羣進行格式化）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kafka集羣部署及命令行操作

前提是：zookeeper集羣已經搭建完畢具體步驟見：https://blog.csdn.net/student__software/article/details/81486769 1、集羣規劃 hadoop102

student__software

2020-07-07 16:46:24

scala，實現case class類的時候業務字段過多導致的異常。不能超過22個字段

一、背景 1、在scala-2.10.x版本種，case class的元素超過22個以後即會編譯報錯 2、有些業務場景下，需要超過22個元素的值我們項目當中日誌一共有105個字段，在對原始日誌進行處理轉換成parquet文件的過程中

2020-07-03 23:23:36

hive中根據身份證號碼獲取年齡、性別

select id_no, id_no, case when length(id_no) = 18 then floor(datediff( from_unixtime(unix_timestamp()

2020-07-03 22:40:11

Hive行轉列過程中使用LATERAL VIEW遇到空MAP或者空數組的情況

背景： HIve在進行行轉列的過程中，如果遇到轉的數組或者MAP()的情況，會出現一種特殊情況，就是數據會消失：原數據： SELECT '1' AS id, MAP() AS

2020-07-03 22:40:11

hadoop 3.1.1的集羣搭建並完成高可用配置(詳細版)

一、簡介 hadoop是Apache基金會的一個頂級項目，最早期版本是十多年前發佈的，隨着飛速的迭代更新，2018年已經更新到了3.1.1版本。網絡上大多數都是舊版本的配置，本文卻是最新版本的hadoop的配置方法。本文以hado

2020-07-03 10:47:38

大數據學習線路圖-java轉大數據

大數據學習線路 https://blog.csdn.net/gitchat/article/details/78341484 hdfs博客： https://blog.csdn.net/kezhong_wxl/article/detail

2020-07-02 19:26:22

HBASE 單機部署

下載頁面: https://www.apache.org/dyn/closer.lua/hbase/2.2.5/hbase-2.2.5-bin.tar.gz 下載 https://mirrors.tuna.tsinghua.ed

2020-07-01 22:35:36

使用hive實現wordcount

1.創建數據 cd data vi wc 2.上傳數據 hdfs dfs -put wc /usr/ 3.創建外部表（先有數據後有表） 4.創建結果表 5.寫結果 6.查詢結果

王艺航的学习笔记

2020-07-01 22:35:11

如何理解MapReduce計算器，這篇文章能給你答案

MapReduce計數器是什麼？計數器是用來記錄job的執行進度和狀態的。它的作用可以理解爲日誌。我們可以在程序的某個位置插入計數器，記錄數據或者進度的變化情況。 MapReduce計數器能做什麼？ MapReduce 計數器（

一颗仙橙的程序员之旅

2020-07-01 20:05:11

深入淺出大數據核心技術與應用之HBase

HBase隸屬於hadoop生態系統，它參考了谷歌的BigTable建模，實現的編程語言爲 Java, 建立在HDFS之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。它僅能通過主鍵(row key)和主鍵的ran

一颗仙橙的程序员之旅

2020-07-01 18:57:08

這篇文章能讓你對於高性能Spark的理解更上一層樓

引言：摘抄自《中國新通信》：近年來，大數據成爲工業界與學術界關注的熱點，因爲隨着存儲設備容量的快速增長、CUP外理能力的大幅提開，網絡帶寬的不斷增加。也爲大數據時代提共了強有力的技術支撐。從web1.0到web2.0，每個用戶都

一颗仙橙的程序员之旅

2020-07-01 18:57:08

什麼是MapReduce之Shuffle？看了這篇文章，我想你就清楚了

前言：（引用）騰訊分佈式數據倉庫（Tencent distributed Data Warehouse, 簡稱TDW）基於開源軟件Hadoop和Hive進行構建，並且根據公司數據量大、計算複雜等特定情況進行了大量優化和改造，目前

一颗仙橙的程序员之旅

2020-07-01 18:57:08

大數據Hive其實一點都不難，從入坑到放棄？不存在的

Hive 首先，我們來介紹一下什麼是Hive。有些人不僅會想，Hive不就是寫SQL的嗎。沒錯，Hive和SQL的語法結構很像，其實，二者沒有多大區別，甚至可以這樣講，Hive就是寫SQL。但是，問題就來了–它真正的就是SQL了嗎

一颗仙橙的程序员之旅

2020-07-01 18:57:08

linux安裝hadoop配置Yarn

1. 下載JDK，安裝部署JAVA環境。(1)export JAVA_HOME=/home/xxx/jdk1.6.0_24(2)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib

正在加载丶

2020-06-29 08:33:19

大數據學習筆記之MapReduce

一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個編程模型，用以進行大數據量的計算。對於大數據量的計算，通常採用的處理手法就是並行計算。但對許多開發者來說，自己完完全全實現一個並行計

正在加载丶

2020-06-29 08:33:18

24小時熱門文章

最新文章

最新評論文章