原创 Flume安裝和實時讀取HIVE的日誌

一、解壓tar包 二、配置環境變量 1、Flume安裝在Hadoop集羣中 export JAVA_HOME=/usr/lib/jvm/java-6-sun 2、Flume安裝在了Hadoop集羣中,配置HA #export JA

原创 MapReduce處理數據

1、編寫自定義類 如果寫二次排序的話再在裏面添加 package org.hdfs.urlMapReduce; import java.io.DataInput; import java.io.DataOutput; impor

原创 使用MySQL進行日期的統計

按照日期維度統計 SELECT YEARWEEK(NOW(),1), YEAR(NOW()), DATE(NOW()), REPLACE(SUBSTRING(NOW(),1,7),'-','') AS YEARMONTH, MO

原创 HIVE的窗口函數

https://www.jianshu.com/p/9fda829b1ef1?from=timeline HIVE的窗口函數 寫的很棒

原创 Linux解決ip ping不通百度的問題

Linux解決ip ping不通百度的問題 首先先把Linux中的ip設置好,在這裏我的本地的VM8的 IP4的地址是 192.168.101.1 然後看Linux的ip是多少再進行相應的配置 這裏填寫的是正確的 然後再將網卡重啓

原创 HIVE如何處理大量小文件

小文件是如何產生的: 動態分區插入數據的時候,會產生大量的小文件,從而導致map數量的暴增 數據源本身就包含有大量的小文件 reduce個數越多,生成的小文件也越多 小文件的危害: 從HIVE角度來看的話呢,小文件越多,map的

原创 JVM的垃圾回收機制

JVM中的垃圾回收機制: JVM中的分代模型,根據object對象的存在時間分成了三種代 年輕代、老年代、持久代 年輕代中分爲兩大空間,Eden和S層(也就是存活層),存活層S分爲兩部分S0、S1. 官方建議年老代是年輕代的兩倍 年

原创 10個Java運行時常見的異常

java.lang.NullPointerException 這個異常的解釋是:程序遇上了空指針,簡單地說就是調用了未經初始化的對象或者是不存在的對象,這個錯誤經常出現在創建圖片,調用數組這些操作中,比如圖片未經初始化,或者圖片創建

原创 打不開磁盤“H:\centos-6.0-710\CentOS 64 位.vmdk”或它所依賴的某個快照磁盤

這是我在拷貝別人的虛擬機時候,有些資源鎖住了,需要刪除一些文件夾以及文件纔可以 vmware下啓動Centos虛擬機報錯虛擬無法打開磁盤

原创 Centos 7 LVM xfs文件系統修復

拷貝別人的虛擬機的時候出現的問題, Generating “/run/initramfs/rdsosreport.txt” Centos 7 LVM xfs文件系統修復

原创 Spark性能優化指南——高級篇

數據傾斜調優 調優概述 有的時候,我們可能會遇到大數據計算中一個最棘手的問題——數據傾斜,此時Spark作業的性能會比期望差很多。數據傾斜調優,就是使用各種技術方案解決不同類型的數據傾斜問題,以保證Spark作業的性能。 數據傾

原创 spark筆記

1、spark架構與作業執行流程簡介 運行spark最簡單的方法就是通過local模式(即僞分佈模式) ./bin/run-example org.apache.examples.SparkPi local 2、基於Standa

原创 HIVE優化

問題導讀: 1、Hive整體架構優化點有哪些? 2、如何在MR階段進行優化? 3、Hive在SQL中如何優化? 4、Hive框架平臺中如何優化?一、整體架構優化現在hive的整體框架如下,計算引擎不僅僅支持Map/Reduce,並

原创 大數據面試題彙總版

作者                     大數據面試題及答案 彙總版                                     當前版本: Ver 1.0 製作單位:   編寫人

原创 Hadoop1000條筆記總彙

作者 筆記彙總 Zookeeper用於集羣主備切換。 YARN讓集羣具備更好的擴展性。 Spark沒有存儲能力。 Spark的Master負責集羣的資源管理,Slave用於執行計算任務。 Hadoop從2.x開始,把存儲和計算分離開