原创 Hadoop核心組件

Hadoop核心組件之分佈式文件系統HDFS 概述 源自於Google的GFS論文,論文發表於2003年10月 HDFS是GFS的克隆版 HDFS特點:擴展性&容錯性&海量數據存儲 特性 將文件切分成指定大小的數據塊並以多

原创 MapJoin和ReduceJoin實現案例

MapJoin 適用場景: 一張大表和一張小表 小表的定義:在Hive中,是由hive.mapjoin.smalltable.filesize參數決定的,該參數的默認值爲10M。 特點: 在Map端完成Join,沒有Shuffle

原创 Flume實戰案例之日誌採集

目標 將A服務器上的日誌實時採集到B服務器 技術選型 配置文件 A服務器Flume配置文件:exec_memory_avro.conf exec_memory_avro.sources = exec_source exec_me

原创 Spark SQL的執行計劃

Spark SQL的架構 實例分析 spark-sql> explain extended select * from emp e inner join dept d on e.deptno = d.deptno where e

原创 使用Zeppelin訪問Mysql數據實現可視化

下載 官網地址 需要科學上網 目錄 下載解壓後可以看到以下目錄結構 2.修改配置 我們進入到conf目錄下,複製zeppelin-env.sh.template文件命名爲zeppelin-env.sh$ cp zeppeli

原创 Hive實戰案例

離線作業執行流程 通過MapReduce進行數據清洗,得到ETL數據 創建Hive表,加載ETL數據 進行各種維度的統計,並寫入到Hive表中 將Hive表中的數據導出到MySql(optional,可利用Sqoop框架實現該功

原创 Spark Standlone模式環境搭建

設置配置文件$SPARK_HOME/conf/spark-env.sh $ cd $SPARK_HOME/conf $ cp spark-env.sh.template spark-env.sh $ vim spark-env

原创 Spring框架實現原理

爲什麼要使用Spring 衆所周知,現在最流行的三大框架就是Spring、Spring MVC和Mybaits,那麼爲什麼要使用Spring?使用Spring給我們帶來了什麼好處呢?我帶着這個問題查了一些資料,其實回答的內容都是大同小

原创 python3+scrapy簡單爬蟲入門

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/79422694 安裝python 1、到官網下載選擇對應版

原创 shiro教程之編程式授權

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/54705845 一、權限認證的核心要素 權限認證

原创 Spring+SpringMVC+MyBaits+Druid+Maven項目整合

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/53896927 建立maven支持的web projec

原创 nginx常用命令

進入sbin目錄後執行以下命令. 1. 啓動nginx: ./nginx 2. 關閉nginx: ./nginx -s quit 3. 重啓nginx: ./nginx -s reload 4. 指定配置文件:

原创 jodd.mail.MailException: Failed to connect; java.net.SocketException: Connection reset

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/81564965 背景: 阿里雲服務器 x 2 ngin

原创 json基本操作

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/53975926 JSON兩種格式: 1、jsonObje

原创 Algorithms 之 歸併排序

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/80880102 歸併排序在平均、最好、最差的時間複雜度都是