原创 idea報 @Override is not allowed when implementing interface method解決方法
@Override is not allowed when implementing interface method的解決辦法: 第一種: 將Language level改成圖中所示 選擇Modules,修改“Language Leve
原创 一篇搞定hive窗口函數
語法: 分析函數 over(partition by 分組列 order by 排序列 rows between 開始位置 and 結束位置) 常用分析函數: 聚合類 avg()、sum()、max()、min() 排名類 ro
原创 hive sql經典面試題
1、數據 訪客 月份 訪問次數 A 2020-01 5 A 2020-01 15 B 2020-01 5 A 2020-02 8 B 2020-03 25 A
原创 hive關係操作符
關係操作符 關係操作符——比較操作數併產生TRUE或者FALSE,需要注意的是Hive的相等比較爲=,而不是= =。
原创 MapReduce相關問題
1.在高階數據處理中,往往無法把整個流程寫在單個MapReduce作業中,下列關於鏈接MapReduce作業的說法,不正確的是?()答案:A A. ChainReducer.addMapper()方法中,一般對鍵/值對發送設置成值傳遞,性
原创 idea創建普通maven+java工程
最近想把以前積累的零散java練習和學習的東西建一個項目整理出來上傳到碼雲託管,免得電腦掛了啥也找不到 配置是IDEA2018.3.4+java8+maven3.6.1,截圖記錄下步驟 第一步:File--> New-->Project
原创 idea用maven開發spark程序的pom.xml
我們用maven構建spark項目,需要使用maven來管理各個組件jar 需要找依賴的話,地址:https://mvnrepository.com/ <project xmlns="http://maven.apache.org/PO
原创 JAVA API獲取HANA Schema信息和表 主鍵 列名和列類型信息
獲取數據庫信息 獲取數據庫所有Schema 獲取所有表信息 獲取schema下所有的表 獲取表主鍵信息 獲取表中列值信息 package com.XXXSchema; import java.sql.*; public class
原创 搞定MapReduce編程模型
1. MapReduce編程模型 MapReduce是採用一種分而治之的思想設計出來的分佈式計算框架 一些複雜或計算量大的任務,單臺服務器無法勝任時,可將此大任務切分成一個個小的任務,小任務分別在不同的服務器上並行的執行;最終再彙
原创 Yarn資源調度系統入門
1. yarn介紹 Apache Hadoop YARN 是 apache Software Foundation Hadoop的子項目,爲分離Hadoop2.0資源管理和計算組件而引入。YARN的誕生緣於存儲於HDFS的數據需要更
原创 1.sqoop全量導入數據到hdfs
1.導出數據庫表全量數據到HDFS 在MySQL數據庫服務器中創建一個數據庫userdb, 然後在創建一張表 emp,添加點測試數據到表中 從MySQL數據庫服務器中的userdb數據庫下的emp表導入HDFS上 CREATE
原创 Azkaban工作流調度器原理
1. 爲什麼需要工作流調度系統 一個完整的數據分析系統通常都是由大量任務單元組成; shell腳本程序、java程序、mapreduce程序、hive腳本等 各任務單元之間存在時間先後及前後依賴關係 爲了很好地組織起這樣的複
原创 sqoop理論和安裝部署
1. Sqoop是什麼 ? Sqoop是apache旗下的一款 ”Hadoop和關係數據庫之間傳輸數據”的工具 導入數據 將MySQL,Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統 導出數據
原创 4.sqoop增量導入
1.增量導入hdfs 在實際工作當中,數據的導入很多時候都是全量的導入一次, 之後只需要導入增量數據即可,並不需要將表中的數據全部導入到hive或者hdfs當中去,肯定會出現重複的數據的狀況,所以我們一般都是選用一些字段進行增量的導入,爲
原创 5.創建Sqoop作業
Sqoop作業 將事先定義好的數據導入導出任務按照指定流程運行 語法 sqoop job (generic-args) (job-args) [-- [subtool-name] (subtool-args)] 1.1 創