原创 01-JAN-20轉化爲日期格式

     SELECT TO_CHAR(TO_TIMESTAMP('01-JAN-20',                         'dd-mon-yy',                         'NLS_DATE_LA

原创 行轉列2

原數據 目標數據:   ---方法一 select t.name, sum(decode(t.sub, '語文',score, 0)) as "語文", sum(decode(t.sub, '數學',sc

原创 IntelliJ IDEA安裝scala插件並創建scala示例

轉載:https://www.cnblogs.com/zhaojinyan/p/9524296.html 具體步驟如下:  1、找到與IntelliJ IDEA對應的scala版本  如圖,在File下找到Settings   在彈出的對

原创 oracle 行轉列

原來的數據是: 期望的數據是:   sql語句: insert into emp (EMPNO, ENAME, JOB, MGR, HIREDATE, SAL, COMM, DEPTNO) values ('7369', 'SMI

原创 Linux shell之提取文件名和目錄名

用於字符串的讀取,提取和替換功能,可以使用用於字符串的讀取,提取和替換功能,可以使用{} 提取字符串 1、提取文件名 [root@localhost log]# var=/dir1/dir2/file.txt [root@localho

原创 Linux下查看某個進程佔用的CPU、內存

1、用top命令指定固定的PID top -p 10997 查詢指定進程的PID ps -ef | grep zookeeper jim 10997 1959 0 12月14 pts/2 00:00:01 /usr

原创 SparkSQL常用性能優化

一、代碼優化 1.在數據統計的時候選擇高性能算子。 例如Dataframe使用foreachPartitions將數據寫入數據庫,不要每個record都去拿一次數據庫連接。通常寫法是每個partition拿一次數據庫連接。       /

原创 Spark Sql 性能調優

對於某些工作負載,可以通過在內存中緩存數據或打開一些實驗選項來提高性能。 在內存中緩存數據 Spark SQL可以通過調用spark.catalog.cacheTable(“tableName”)或使用內存中的列式格式來緩存表.dataF

原创 spark面試問題收集

spark面試問題 1、spark中的RDD是什麼,有哪些特性 RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合。 

原创 Hadoop之分塊、分片與shuffle機制詳解

一  分塊(Block)       HDFS存儲系統中,引入了文件系統的分塊概念(block),塊是存儲的最小單位,HDFS定義其大小爲64MB。與單磁盤文件系統相似,存儲在 HDFS上的文件均存儲爲多個塊,不同的是,如果某文件大小沒

原创 Hive中跑MapReduce Job出現OOM問題分析及解決

一、引子 今天在跑一段很複雜而且涉及數據量10多年的N個表join的長SQL時,發生了OOM的異常。 由於一個map通常配置只有64MB或者128MB,則在Map階段出現OOM的情況很少見。所以一般發生在reduce階段。 但是今天這個

原创 hadoop中各組件的作用

Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…   1.HDFS:分佈式文件系統,隱藏集羣細節,可以看做一塊兒超大硬盤          主:namenode,secondarynamenode  

原创 hive中UDF、UDAF和UDTF使用

Hive進行UDF開發十分簡單,此處所說UDF爲Temporary的function,所以需要hive版本在0.4.0以上纔可以。 一、背景:Hive是基於Hadoop中的MapReduce,提供HQL查詢的數據倉庫。Hive是一個很開放

原创 Hadoop 2.0工作原理學習

1 HDFS簡介 1.1 Hadoop 2.0介紹 Hadoop是Apache的一個分佈式系統基礎架構,可以爲海量數據提供存儲和計算。Hadoop 2.0即第二代Hadoop系統,其框架最核心的設計是HDFS、MapReduce和YARN

原创 hive優化

1.介紹   首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題? 數據量大不是問題,數據傾斜是個問題。 jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次彙總,產生十幾個jobs,耗時很長