原创 JAVA---程序運行順序(練習)

目錄 5 程序的運行順序 5.1分支結構 (1)if分支結構 (2)switch-case語句 5.2循環結構      (1)for循環 (2)while循環 (3)do-while循環 5 程序的運行順序 5.1分支結構 (1)if分

原创 Hive使用技巧

最近的工作主要集中在數據分析,建立數倉並進行數據的分析,故記錄一些相關技巧 1.collect_set/collect_list 兩者多進行列轉行,使得一個用戶的數據聚合到一起 不同點:collect_set去重,collect_list

原创 spark程序local模式運行OK,但是提交到yarn集羣報錯

代碼爲kafka傳參後流式運算,獲取hive數據,報錯的位置代碼爲     目前來看是讀取hive失敗,不知道爲什麼到yarn會出現這中問題 

原创 Kafka安裝和簡單測試

單機模式一個服務(broker)       下載:http://kafka.apache.org/downloads       上傳解壓:tar -zxvf ~/soft/kafka_2.11-0.10.1.0.tgz ~/soft/

原创 flume監聽文件數據--發送到kafka中

flume安裝:(略,見前面內容) kafka安裝:(略,見前面內容) 創建kafka topic bin/kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slav

原创 Flume安裝和簡單測試

下載地址 http://archive.apache.org/dist/flume/1.6.0/ 系統要求 Java運行時環境 - Java 1.8或更高版本 內存 - 源,通道或接收器使用的配置的足夠內存 磁盤空間 - 通道或接收器使用

原创 使用java代碼實現spark-submit進行計算-1

  [umecron@vm-kvm11288-app spark-warehouse]$ java -cp $CLASSPATH:/home/umecron/spark-warehouse/spark-launcher_2.11-2.3

原创 java代碼實現spark-submit運行計算-2(輸出結果)

{"data":[{"name":"200500_2"},{"name":"110001_3"},{"name":"210002_5"},{"name":"200500_6"},{"name":"106309_4"},{"name":"1

原创 apollo報錯

  apollo報錯  Sync config failed, will retry. Repository class com.ctrip.framework.apollo.internals.RemoteConfigReposit

原创 sql面試題---求個最佳解,不斷更新中

1.------------------------------------------------------------------------------------------------------- select * fro

原创 linux上mysql使用mysql -uroot -p輸入密碼無法登錄問題的解決

系統:CentOS MySQL版本:5.7.21  問題: Access denied for user 'root'@'localhost' (using password:YES)    注:不確定其他情況是否可以解決 1.停止當前m

原创 [轉載] spark優化 來自美團

[轉載] spark優化 來自美團 前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、 流式/實時計算、機器學習、圖計算等各種不同類型的計算操作

原创 大數據面試題1

Hadoop:負責數據存儲的節點,block默認保存幾份,通常與NameNode在一個節點啓動的進程,默認Block Size是多少,集羣的最主要的瓶頸,shuffle流程 Spark:Spark的四大組件,RDD的特點,RDD的緩存方法

原创 java大數據面試算法題

針對海量數據的處理,可以使用的方法非常多,常見的方法有Hash法、Bit-map(位圖)法、Bloom filter法、數據庫優化發、倒排索引法、外排序法、Trie樹、堆、雙層桶法以及MapReduce法等。其中Hash法、Bit-map

原创 SQL應用及誤區分析

SQL概述: SQL是結構化查詢語言(Structured Query Language)的簡稱,是一種關係型數據庫操縱語言,是所有關係型數據庫都採用的標準語言。 SQL語言可以氛圍4類,分別是DML(數據操縱語言)、DDL(數據定義語言