原创 spark簡單API入門

在Spark 2.0之前,Spark的主要編程接口是彈性分佈式數據集(RDD)。在Spark 2.0之後,RDD被數據集取代,數據集類似於RDD一樣強類型,但在底層有更豐富的優化。 Spark的shell用來學習API 啓動命令: ./

原创 Java中static作用

static修飾的內容不再屬於單個對象,而是屬於這個類和類綁定,並且單獨存放。當這個類同時有很多個實例化的對象時其中一個修改了這個static修飾的屬性時其他對象調用時值也會隨着改變; static變量  按照是否靜態的對類成員變量進行分

原创 Java中final關鍵字

1、修飾類    當用final修飾一個類時,表明這個類不能被繼承。也就是說,如果一個類你永遠不會讓他被繼承,就可以用final進行修飾。 2、修飾方法 在想明確禁止 該方法在子類中被覆蓋的情況下才將方法設置爲final的。即父類的fi

原创 Lambda操作list

1、利用stream().forEach()循環處理List; List<String> list = Lists.newArrayList();//新建一個List 用的google提供的Guava package com.goog

原创 Hive執行腳本時傳參

使用-hiveconf傳參 測試腳本 -- test.sql select 'Start Testing ...'; select ${hiveconf:day}, '${hiveconf:url}'; select 'Test

原创 Spark實現WordCount

首先,編寫第一個Spark應用程序 ,我們是如何建立起來的,其入口在哪裏呢,需要創建兩個對象。  一:val conf = new SparkConf()                             .setAppName("

原创 線程安全、線程同步、線程間通信

一、線程安全 多個線程在執行同一段代碼的時候,每次的執行結果和單線程執行的結果都是一樣的,不存在執行結果的二義性,就可以稱作是線程安全的。 講到線程安全問題,其實是指多線程環境下對共享資源的訪問可能會引起此共享資源的不一致性。因此,爲避免

原创 索引優化

1,創建索引 對於查詢佔主要的應用來說,索引顯得尤爲重要。很多時候性能問題很簡單的就是因爲我們忘了添加索引而造成的,或者說沒有添加更爲有效的索引導致。如果不加索引的話,那麼查找任何哪怕只是一條特定的數據都會進行一次全表掃描,如果一張表的數

原创 hive面試題

hive 內部表:加載數據到 hive 所在的 hdfs 目錄,刪除時,元數據和數據文件都刪除     外部表:不加載數據到 hive 所在的 hdfs 目錄,刪除時,只刪除表結構 (3)分區作用:防止數據傾斜 (4)UDF 函數:用戶自

原创 concat與concat_ws區別

select concat('大','小') as size from 表 查詢出結果爲:大小 select concat('大',NULL) as size from 表 查詢出結果爲:null concat中又一個參數爲NULL,查出

原创 hive中創建表命令

情況1:設置分區: DROP TABLE IF EXISTS adm_investor_activity; CREATE TABLE IF NOT EXISTS adm_investor_activity( investor_

原创 Hive數據傾斜

Hive數據傾斜問題: 傾斜原因: map輸出數據按Key Hash分配到reduce中,由於key分佈不均勻、或者業務數據本身的特點。】【等原因造成的reduce上的數據量差異過大。 1.1)key分佈不均勻 1.2)業務數據本身的特性

原创 堆內存與棧內存

java的內存分爲堆內存和棧內存   棧內存是指程序進入一個方法時,會爲這個方法單獨分配一塊私屬存儲空間,用於存儲這個方法內部的局部變量,當這個方法結束時,分配給這個方法的棧會釋放,這個棧中的變量也將隨之釋放。 堆是與棧作用不同的內存,一

原创 scp服務器文件到本地

  scp  [email protected]:/root/25007.* /opt/storm/dist

原创 postman 測試接口 cookie設置

1、打開頁面鏈接      檢查--控制檯: serverUrl="http://localhost:8081" 2、copy cookie的值   3、copy cookie到postman   結束!