台部落MrGrant

1、爲什麼引入Backpressure 默認情況下，Spark Streaming通過Receiver以生產者生產數據的速率接收數據，計算過程中會出現batch processing time > batch interval的情

2020-04-29 06:03:28

sed和awk用法 Sed sed是一個很好的文件處理工具，本身是一個管道命令，主要是以行爲單位進行處理，可以將數據行進行替換、刪除、新增、選取等特定工作，下面先了解一下sed的用法 sed命令行格式爲： sed [-nefri]

2020-04-29 06:03:28

1、數據來源阿里雲天池： https://tianchi.aliyun.com/dataset/dataDetail?dataId=649 本數據集包含了2017年11月25日至2017年12月3日之間，約有一百萬隨機用戶的所有

2020-04-28 07:35:57

hive時間字段處理詳情轉載自：https://blog.csdn.net/jsbylibo/article/details/83093292

2020-04-26 17:33:00

使用CDH和CM管理hadoop集羣切換用戶 CDH和CM管理hadoop集羣后，創建很多用戶hdfs、hive、hue等等，上傳文件到hdfs發現登陸不了hdfs用戶。 [root@node01 localData]# su -

2020-04-24 17:22:17

環境要求 Redhat7.4安裝CDH6.3。CDH6與CDH5的安裝步驟一致，主要包括以下四部分： 1.安全前置準備，包括安裝操作系統、關閉防火牆、同步服務器時鐘等； 2.外部數據庫如MySQL安裝 3.安裝Cloudera

2020-04-23 02:49:05

** SQL提高查詢效率 ** 1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中對字段進行 null 值判斷，否則將導致引擎放棄使用

2020-02-22 08:35:12

一、歸併排序理解歸併排序非常重要，在計算機科學中，歸併排序是一種高效、通用、基於比較的排序算法。此外，歸併排序還是穩定的，因爲相同元素的相對次序在排序後不會發生變化。大概有兩個步驟： 1、將待排序的線性表不斷地切分成若干個子表，

2020-02-22 08:35:12

HIVE、Oracle、SQL Server中都有開窗函數，對於去重，分組，排序有很重要的作用。一、函數使用 1、語法：ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUM

2020-02-22 08:35:12

項目中一個聚合查詢，真正進行查詢之前預先構造了一個臨時表，之後便可多次使用它做進一步的分析和處理 WITH Clause方法的優點增加了SQL的易讀性，如果構造了多個子查詢，結構會更清晰；更重要的是：“一次分析，多次使用”，這也

2020-02-22 08:35:12

原文鏈接：https://blog.csdn.net/yw59792649/article/details/78920611 Impala和Hive的關係　　Impala是基

2019-10-25 23:58:25

1、需求分析假設有一批文檔，格式有DOC、DOCX、PPT、PPTX、TXT、PDF這幾種，實現一個類似百度文庫的文件檢索系統，需求如下。（1）能夠對文件名進行檢索。（2）能夠對文件內容進行檢索。（3）能夠下載檢索到的文件

2019-10-25 23:58:25

簡明理解三次握手和四次揮手三次握手與四次揮手分別對應TCP連接建立過程與斷開過程，先上TCP報文格式：三次握手過程：問題1：爲什麼要三次握手？答：三次握手的目的是建立可靠的通信信道，說到通訊，簡單來說就是

2019-10-25 23:58:25

1、ElasticSearch架構概述 ES優點： ES應用場景： ES核心概念： ES與RDBMS的比較：文檔結構：

2019-10-25 23:58:25

由於oracle等數據庫在表裏有數據時無法改變字段類型，於是使用下列方法，總體思路是：備份原表數據，刪除表數據，修改字段類型，將備份表的數據導入原表，刪除備份表，結束。 1、備份表數據 create table ST_DATA

2019-10-25 23:58:25