原创 Hadoop核心組件
Hadoop核心組件之分佈式文件系統HDFS 概述 源自於Google的GFS論文,論文發表於2003年10月 HDFS是GFS的克隆版 HDFS特點:擴展性&容錯性&海量數據存儲 特性 將文件切分成指定大小的數據塊並以多
原创 MapJoin和ReduceJoin實現案例
MapJoin 適用場景: 一張大表和一張小表 小表的定義:在Hive中,是由hive.mapjoin.smalltable.filesize參數決定的,該參數的默認值爲10M。 特點: 在Map端完成Join,沒有Shuffle
原创 Flume實戰案例之日誌採集
目標 將A服務器上的日誌實時採集到B服務器 技術選型 配置文件 A服務器Flume配置文件:exec_memory_avro.conf exec_memory_avro.sources = exec_source exec_me
原创 Spark SQL的執行計劃
Spark SQL的架構 實例分析 spark-sql> explain extended select * from emp e inner join dept d on e.deptno = d.deptno where e
原创 使用Zeppelin訪問Mysql數據實現可視化
下載 官網地址 需要科學上網 目錄 下載解壓後可以看到以下目錄結構 2.修改配置 我們進入到conf目錄下,複製zeppelin-env.sh.template文件命名爲zeppelin-env.sh$ cp zeppeli
原创 Hive實戰案例
離線作業執行流程 通過MapReduce進行數據清洗,得到ETL數據 創建Hive表,加載ETL數據 進行各種維度的統計,並寫入到Hive表中 將Hive表中的數據導出到MySql(optional,可利用Sqoop框架實現該功
原创 Spark Standlone模式環境搭建
設置配置文件$SPARK_HOME/conf/spark-env.sh $ cd $SPARK_HOME/conf $ cp spark-env.sh.template spark-env.sh $ vim spark-env
原创 Spring框架實現原理
爲什麼要使用Spring 衆所周知,現在最流行的三大框架就是Spring、Spring MVC和Mybaits,那麼爲什麼要使用Spring?使用Spring給我們帶來了什麼好處呢?我帶着這個問題查了一些資料,其實回答的內容都是大同小
原创 python3+scrapy簡單爬蟲入門
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/79422694 安裝python 1、到官網下載選擇對應版
原创 shiro教程之編程式授權
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/54705845 一、權限認證的核心要素 權限認證
原创 Spring+SpringMVC+MyBaits+Druid+Maven項目整合
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/53896927 建立maven支持的web projec
原创 nginx常用命令
進入sbin目錄後執行以下命令. 1. 啓動nginx: ./nginx 2. 關閉nginx: ./nginx -s quit 3. 重啓nginx: ./nginx -s reload 4. 指定配置文件:
原创 jodd.mail.MailException: Failed to connect; java.net.SocketException: Connection reset
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/81564965 背景: 阿里雲服務器 x 2 ngin
原创 json基本操作
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/53975926 JSON兩種格式: 1、jsonObje
原创 Algorithms 之 歸併排序
版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gates0087/article/details/80880102 歸併排序在平均、最好、最差的時間複雜度都是