原创 java值傳遞與引用傳遞區別詳解

原文鏈接:https://blog.csdn.net/javazejian/article/details/51192130 java的值傳遞和引用傳遞在面試中一般都會都被涉及到,今天我們就來聊

原创 Spark Streaming中window滑動窗口的應用

Spark Streaming中window滑動窗口應用,Spark Streaming提供了滑動窗口操作的支持,從而讓我們可以對一個滑動窗口內的數據執行計算操作。每次掉落在窗口內的RDD的數據,會被聚合起來執行計算操作,然後生成的RDD

原创 Hive中常見的數據傾斜問題的處理

1、什麼是數據傾斜?        數據傾斜主要表現在,map/reduce程序執行時,reduce節點大部分執行完畢,但是有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因爲某一個key的條數比其他key多很多(

原创 Hive中小表和大表關聯(join)的性能分析

經常看到一些Hive優化的建議中說當小表與大表做關聯時,把小表寫在前面,這樣可以使Hive的關聯速度更快,提到的原因都是說因爲小表可以先放到內存中,然後大表的每條記錄再去內存中檢測,最終完成關聯查詢。這樣的原因看似合理,但是仔細推敲,又站

原创 Hive中的各種join關係和使用

hive編程是整個數據倉庫操作的核心,而各種業務之間的join是hive的核心,所以熟練明白滴掌握hive中的各種join是數據倉庫開發工程師必備的技能。 hive中的join只支持等值join,也就是說join on中的on裏面表之間連

原创 Hive日期轉換用法

參考網址:https://blog.csdn.net/lichangzai/article/details/19406215 1.日期函數UNIX時間戳轉日期函數: from_unixtime語法:from_unixtime(bigint

原创 Hive外部表和內部表區別以及相互轉換

Hive建表語句 其中external關鍵字用來區分內部表和外部表,location指定也可以不指定默認爲hive倉庫路徑 內部表 內部表默認的路徑實在hive默認指定的路徑,一般是在hdfs/user/hive/warehouse/

原创 Hive下查看錶佔用空間大小的方法

一、Hive下查看數據表信息的方法 方法1:查看錶的字段信息 desc table_name; 方法2:查看錶的字段信息及元數據存儲路徑 desc extended table_name; 方法3:查看錶的字段信息及元數據存儲路徑 des

原创 數據倉庫與數據集市的概念區別

1.爲什麼會出現數據倉庫和數據集市?      “數據倉庫”的概念可以追溯到80 年代中期。從本質上講,最初數據倉庫是想爲操作型系統到決策支持環境的數據流提供一種體系結構模型,並嘗試解決和這些數據流相關的各種問題。       在缺乏“數

原创 Hive之序列化與反序列化(SerDe)

序列化與反序列化的作用 1,序列化是對象轉化爲字節序列的過程; 2,反序列化是字節碼恢復爲對象的過程; 序列化的作用主要有兩個: (1)對象向的持久化;即把對象轉換成字節碼後保存文件; (2)對象數據的傳輸; 反序列化的主要作用: 對<

原创 sklearn.metrics中的評估方法介紹

accuracy_score 分類準確率分數是指所有分類正確的百分比。分類準確率這一衡量分類器的標準比較容易理解,但是它不能告訴你響應值的潛在分佈,並且它也不能告訴你分類器犯錯的類型。 形式: sklearn.metrics.accur

原创 Flink讀寫系列之-讀mysql並寫入mysql

       在Flink文檔中,提供connector讀取源數據和把處理結果存儲到外部系統中。但是沒有提供數據庫的connector,如果要讀寫數據庫,官網給出了異步IO(Asynchronous I/O)專門用於訪問外部數據,詳細可看

原创 Hive 時間日期處理總結

獲得當前日期的幾種用法: 1.先來一個比較老的,select unix_timestamp() ; 結果如下: 2.通過提示可知該用法已經被放棄了建議採用current_timestamp來替代。查結果如下: 3.如果當前時間爲int

原创 Apache Flink-常見問答

原文:https://blog.csdn.net/javajxz008/article/details/83011164   通常以下問題在Flink項目中經常被問到。 如果有更多問題,請查詢相關文檔或在社區中提問。 目錄: Apache

原创 linux系統用戶下的crontab任務不執行問題處理

原文:http://www.itdaan.com/blog/2013/12/25/622b7ed1fbe69646452bbb56276d3036.html 需求:需要每一天對數據庫做一個備份,oracle數據庫,linux系統。 備份命