原创 Scala基礎之函數篇

這裏我寫的是一些scala基礎函數,每種函數後面會舉出一個實例,需要注意的地方會在代碼下方標註出來,希望對一些剛入門同學有幫助。。。。。。。。。。。。。。。。 1.普通函數 def max(a:Int,b:Int)={

原创 java利用ssh連接linux並執行shell腳本報錯 行1: java: 未找到命令

java利用ssh連接linux默認情況下執行shell腳本是使用非登錄方式,然而非登錄方式不會加載 /etc/profile 文件,在 shell腳本 中 添加如 #!/bin/sh -l 命令修改爲登錄方式即可解決問題。

原创 Hive建表出現中文字段報錯解決辦法

遇到這個問題大家可能都會想到去修改字符編碼,出發思路是對的 問題 : 修改哪裏字符編碼 大家都知道hive建表的元數據會存儲在Mysql數據庫中,具體的字段相關信息存儲在表COLUMNS_V2 我就會想到去改表COLUMNS_V2的

原创 Spark Shuffle文件尋址+內存管理

1.Spark Shuffle文件尋址 MapOutputTracker(管理磁盤小文件) 主從關係: MapOutputTrackerMaster(Driver) MapOutputTrackerWorker(Executor)

原创 Spark shuffle詳解+調優

開始介紹Spark shuffle之前我先引入兩個問題: reduceByKey的含義? reduceByKey會將上一個RDD中的每一個key對應的所有value聚合成一個value,然後生成一個新的RDD,元素類型是<key,

原创 Spark的資源調度和任務調度

我這裏以standalone-client模式爲例。。。。。。。 1.資源調度 ①Worker向Master彙報資源 ②Master掌握集羣的資源 ③new SparkContext(conf)在Driver創建DAGSchedule

原创 Spark中stage的劃分以及寬窄依賴的詳解

1.寬依賴與窄依賴 RDD之間有一系列的依賴關係,依賴關係又分爲窄依賴和寬依賴。 窄依賴 父RDD和子RDD partition之間的關係是一對一的。或者父RDD一個partition只對應一個子RDD的 partition情

原创 Spark的四大運行模式以及原理

1.Local模式 Spark的本地模式,在eclipse 或 IDEA中開發spark程序要用local模式,本地模式,多用於測試,下面我分別用java和 scala語言舉出一個local模式的例子,這裏我們以WordCount爲例

原创 Scala基礎之——————函數篇

這裏我寫的是一些scala基礎函數,每種函數後面會舉出一個實例,需要注意的地方會在代碼下方標註出來,希望對一些剛入門同學有幫助。。。。。。。。。。。。。。。。 1.普通函數 def max(a:Int,b:Int)={ i

原创 史上最簡單詳細的Hadoop完全分佈式集羣搭建

一.安裝虛擬機環境 Vmware12中文官方版 鏈接:https://pan.baidu.com/s/1IGKVfaOtcFMFXNLHUQp41w 提取碼:6rep 激活祕鑰:MA491-6NL5Q-AZAM0-ZH0N2-AAJ

原创 使用Sqoop將數據從RDBMS(關係型數據庫) 到hdfs和Hive的導入導出

一、RDBMS 到 HDFS/HIVE 1.首先啓動Mysql service mysql start 2.在mysql中新建一張表並插入數據 # mysql -uroot -proot mysql> create tab

原创 HIVE的十項企業級調優。。。。。。

話不多說直接上貨。。。。。。。。。。。。。。。。。。。。。。。。。。。 1.Fetch抓取 set hive.fetch.task.conversion=more(默認) Fetch 抓取是指,Hive 中對某些情況的查詢可以不必