原创 01-JAN-20轉化爲日期格式
SELECT TO_CHAR(TO_TIMESTAMP('01-JAN-20', 'dd-mon-yy', 'NLS_DATE_LA
原创 行轉列2
原數據 目標數據: ---方法一 select t.name, sum(decode(t.sub, '語文',score, 0)) as "語文", sum(decode(t.sub, '數學',sc
原创 IntelliJ IDEA安裝scala插件並創建scala示例
轉載:https://www.cnblogs.com/zhaojinyan/p/9524296.html 具體步驟如下: 1、找到與IntelliJ IDEA對應的scala版本 如圖,在File下找到Settings 在彈出的對
原创 oracle 行轉列
原來的數據是: 期望的數據是: sql語句: insert into emp (EMPNO, ENAME, JOB, MGR, HIREDATE, SAL, COMM, DEPTNO) values ('7369', 'SMI
原创 Linux shell之提取文件名和目錄名
用於字符串的讀取,提取和替換功能,可以使用用於字符串的讀取,提取和替換功能,可以使用{} 提取字符串 1、提取文件名 [root@localhost log]# var=/dir1/dir2/file.txt [root@localho
原创 Linux下查看某個進程佔用的CPU、內存
1、用top命令指定固定的PID top -p 10997 查詢指定進程的PID ps -ef | grep zookeeper jim 10997 1959 0 12月14 pts/2 00:00:01 /usr
原创 SparkSQL常用性能優化
一、代碼優化 1.在數據統計的時候選擇高性能算子。 例如Dataframe使用foreachPartitions將數據寫入數據庫,不要每個record都去拿一次數據庫連接。通常寫法是每個partition拿一次數據庫連接。 /
原创 Spark Sql 性能調優
對於某些工作負載,可以通過在內存中緩存數據或打開一些實驗選項來提高性能。 在內存中緩存數據 Spark SQL可以通過調用spark.catalog.cacheTable(“tableName”)或使用內存中的列式格式來緩存表.dataF
原创 spark面試問題收集
spark面試問題 1、spark中的RDD是什麼,有哪些特性 RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合。
原创 Hadoop之分塊、分片與shuffle機制詳解
一 分塊(Block) HDFS存儲系統中,引入了文件系統的分塊概念(block),塊是存儲的最小單位,HDFS定義其大小爲64MB。與單磁盤文件系統相似,存儲在 HDFS上的文件均存儲爲多個塊,不同的是,如果某文件大小沒
原创 Hive中跑MapReduce Job出現OOM問題分析及解決
一、引子 今天在跑一段很複雜而且涉及數據量10多年的N個表join的長SQL時,發生了OOM的異常。 由於一個map通常配置只有64MB或者128MB,則在Map階段出現OOM的情況很少見。所以一般發生在reduce階段。 但是今天這個
原创 hadoop中各組件的作用
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+… 1.HDFS:分佈式文件系統,隱藏集羣細節,可以看做一塊兒超大硬盤 主:namenode,secondarynamenode
原创 hive中UDF、UDAF和UDTF使用
Hive進行UDF開發十分簡單,此處所說UDF爲Temporary的function,所以需要hive版本在0.4.0以上纔可以。 一、背景:Hive是基於Hadoop中的MapReduce,提供HQL查詢的數據倉庫。Hive是一個很開放
原创 Hadoop 2.0工作原理學習
1 HDFS簡介 1.1 Hadoop 2.0介紹 Hadoop是Apache的一個分佈式系統基礎架構,可以爲海量數據提供存儲和計算。Hadoop 2.0即第二代Hadoop系統,其框架最核心的設計是HDFS、MapReduce和YARN
原创 hive優化
1.介紹 首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題? 數據量大不是問題,數據傾斜是個問題。 jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次彙總,產生十幾個jobs,耗時很長