原创 Spark Streaming性能優化: 如何在生成環境下應對流數據峯值鉅變

1、爲什麼引入Backpressure 默認情況下,Spark Streaming通過Receiver以生產者生產數據的速率接收數據,計算過程中會出現batch processing time > batch interval的情

原创 sed和awk的用法

sed和awk用法 Sed sed是一個很好的文件處理工具,本身是一個管道命令,主要是以行爲單位進行處理,可以將數據行進行替換、刪除、新增、選取等特定工作,下面先了解一下sed的用法 sed命令行格式爲: sed [-nefri]

原创 UserBehavior用戶行爲分析

1、數據來源 阿里雲天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=649 本數據集包含了2017年11月25日至2017年12月3日之間,約有一百萬隨機用戶的所有

原创 hive時間字段處理詳情

hive時間字段處理詳情 轉載自:https://blog.csdn.net/jsbylibo/article/details/83093292

原创 cm管理hadoop集羣hdfs切換用戶

使用CDH和CM管理hadoop集羣切換用戶 CDH和CM管理hadoop集羣后,創建很多用戶hdfs、hive、hue等等,上傳文件到hdfs發現登陸不了hdfs用戶。 [root@node01 localData]# su -

原创 CDH6.3配置安裝實操

環境要求 Redhat7.4安裝CDH6.3。CDH6與CDH5的安裝步驟一致,主要包括以下四部分: 1.安全前置準備,包括安裝操作系統、關閉防火牆、同步服務器時鐘等; 2.外部數據庫如MySQL安裝 3.安裝Cloudera

原创 SQL執行效率注意

** SQL提高查詢效率 ** 1.對查詢進行優化,應儘量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中對字段進行 null 值判斷,否則將導致引擎放棄使用

原创 歸併排序理解及實現

一、歸併排序理解 歸併排序非常重要,在計算機科學中,歸併排序是一種高效、通用、基於比較的排序算法。此外,歸併排序還是穩定的,因爲相同元素的相對次序在排序後不會發生變化。大概有兩個步驟: 1、將待排序的線性表不斷地切分成若干個子表,

原创 HIVE、Oracle種row_number開窗函數去重、分組排序

HIVE、Oracle、SQL Server中都有開窗函數,對於去重,分組,排序有很重要的作用。 一、函數使用 1、語法:ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUM

原创 oracle之with as 使用

項目中一個聚合查詢,真正進行查詢之前預先構造了一個臨時表,之後便可多次使用它做進一步的分析和處理 WITH Clause方法的優點 增加了SQL的易讀性,如果構造了多個子查詢,結構會更清晰;更重要的是:“一次分析,多次使用”,這也

原创 Impala和Hive的關係

原文鏈接:https://blog.csdn.net/yw59792649/article/details/78920611   Impala和Hive的關係    Impala是基

原创 Lucene文件檢索項目實戰

1、需求分析 假設有一批文檔,格式有DOC、DOCX、PPT、PPTX、TXT、PDF這幾種,實現一個類似百度文庫的文件檢索系統,需求如下。 (1)能夠對文件名進行檢索。 (2)能夠對文件內容進行檢索。 (3)能夠下載檢索到的文件

原创 三次握手四次揮手

簡明理解三次握手和四次揮手 三次握手與四次揮手分別對應TCP連接建立過程與斷開過程,先上TCP報文格式:   三次握手過程:   問題1: 爲什麼要三次握手? 答:三次握手的目的是建立可靠的通信信道,說到通訊,簡單來說就是

原创 ElasticSearch概述

1、ElasticSearch架構概述 ES優點: ES應用場景: ES核心概念: ES與RDBMS的比較: 文檔結構:

原创 數據庫表裏有數據如何修改字段類型

由於oracle等數據庫在表裏有數據時無法改變字段類型,於是使用下列方法,總體思路是:備份原表數據,刪除表數據,修改字段類型,將備份表的數據導入原表,刪除備份表,結束。 1、備份表數據 create table ST_DATA