台部落wangfutai91

原创 01-JAN-20轉化爲日期格式

SELECT TO_CHAR(TO_TIMESTAMP('01-JAN-20', 'dd-mon-yy', 'NLS_DATE_LA

2020-06-19 20:52:19

原创行轉列2

原數據目標數據： ---方法一 select t.name, sum(decode(t.sub, '語文',score, 0)) as "語文", sum(decode(t.sub, '數學',sc

2020-05-30 17:31:29

原创 IntelliJ IDEA安裝scala插件並創建scala示例

轉載：https://www.cnblogs.com/zhaojinyan/p/9524296.html 具體步驟如下： 1、找到與IntelliJ IDEA對應的scala版本如圖，在File下找到Settings 在彈出的對

2020-03-08 19:12:09

1

原创 oracle 行轉列

原來的數據是：期望的數據是： sql語句： insert into emp (EMPNO, ENAME, JOB, MGR, HIREDATE, SAL, COMM, DEPTNO) values ('7369', 'SMI

2019-05-11 22:13:41

原创 Linux shell之提取文件名和目錄名

用於字符串的讀取，提取和替換功能，可以使用用於字符串的讀取，提取和替換功能，可以使用{} 提取字符串 1、提取文件名 [root@localhost log]# var=/dir1/dir2/file.txt [root@localho

2019-04-05 07:33:40

原创 Linux下查看某個進程佔用的CPU、內存

1、用top命令指定固定的PID top -p 10997 查詢指定進程的PID ps -ef | grep zookeeper jim 10997 1959 0 12月14 pts/2 00:00:01 /usr

2019-04-05 07:33:40

1

原创 SparkSQL常用性能優化

一、代碼優化 1.在數據統計的時候選擇高性能算子。例如Dataframe使用foreachPartitions將數據寫入數據庫，不要每個record都去拿一次數據庫連接。通常寫法是每個partition拿一次數據庫連接。 /

2019-03-24 15:03:58

1

原创 Spark Sql 性能調優

對於某些工作負載，可以通過在內存中緩存數據或打開一些實驗選項來提高性能。在內存中緩存數據 Spark SQL可以通過調用spark.catalog.cacheTable(“tableName”)或使用內存中的列式格式來緩存表.dataF

2019-03-24 15:03:57

1

原创 spark面試問題收集

spark面試問題 1、spark中的RDD是什麼，有哪些特性 RDD（Resilient Distributed Dataset）叫做分佈式數據集，是Spark中最基本的數據抽象，它代表一個不可變、可分區、裏面的元素可並行計算的集合。

2019-03-24 05:45:46

2

原创 Hadoop之分塊、分片與shuffle機制詳解

一分塊（Block） HDFS存儲系統中，引入了文件系統的分塊概念（block），塊是存儲的最小單位，HDFS定義其大小爲64MB。與單磁盤文件系統相似，存儲在 HDFS上的文件均存儲爲多個塊，不同的是，如果某文件大小沒

2019-03-24 05:45:46

1

原创 Hive中跑MapReduce Job出現OOM問題分析及解決

一、引子今天在跑一段很複雜而且涉及數據量10多年的N個表join的長SQL時，發生了OOM的異常。由於一個map通常配置只有64MB或者128MB，則在Map階段出現OOM的情況很少見。所以一般發生在reduce階段。但是今天這個

2019-03-24 05:45:46

3

原创 hadoop中各組件的作用

Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+… 1.HDFS:分佈式文件系統，隱藏集羣細節，可以看做一塊兒超大硬盤主：namenode,secondarynamenode

2019-03-24 05:45:46

2

原创 hive中UDF、UDAF和UDTF使用

Hive進行UDF開發十分簡單，此處所說UDF爲Temporary的function，所以需要hive版本在0.4.0以上纔可以。一、背景：Hive是基於Hadoop中的MapReduce，提供HQL查詢的數據倉庫。Hive是一個很開放

2019-03-24 05:45:46

2

原创 Hadoop 2.0工作原理學習

1 HDFS簡介 1.1 Hadoop 2.0介紹 Hadoop是Apache的一個分佈式系統基礎架構，可以爲海量數據提供存儲和計算。Hadoop 2.0即第二代Hadoop系統，其框架最核心的設計是HDFS、MapReduce和YARN

2019-03-24 05:45:46

1

原创 hive優化

1.介紹　　首先，我們來看看Hadoop的計算框架特性，在此特性下會衍生哪些問題？數據量大不是問題，數據傾斜是個問題。 jobs數比較多的作業運行效率相對比較低，比如即使有幾百行的表，如果多次關聯多次彙總，產生十幾個jobs，耗時很長

2019-03-24 05:45:46

1