原创 淺析JVM之GC

目錄GC3個特點分代收集年輕代(Young Gen)老年代(Tenure Gen)GC的4大算法GC算法總體概述Minor GC和Full GC的區別引用計數法複製算法(Copying)缺點標記清除(Mark-Sweep)缺點標記

原创 MR優化

目錄map階段優化充分利用Combiner選擇合理的Writable類型增加輸入文件的副本數,就是充分利用本地讀提前合併map小文件,減少map 數量提高block大小提高map輸出的Buffer合理配置map的Merge參數Co

原创 zookeeper java api

這裏寫目錄標題pom創建ZooKeeper客戶端創建子節點獲取子節點並監聽節點變化判斷Znode是否存在監聽服務器節點動態上下線 pom <dependencies> <dependency> <groupId>juni

原创 Hdfs的HA策略和FEDERATION與緩存Centralized Cache

這裏寫目錄標題HDFS中央緩存管理HA1.x2.xhadoop2.x Federation原理結構優勢 HDFS中央緩存管理 HDFS提供了一個高效的緩存加速機制——Centralized Cache Management,可以將

原创 flume單機版與監控Ganglia安裝

Flume Flume官網地址 http://flume.apache.org/ 文檔查看地址 http://flume.apache.org/FlumeUserGuide.html 下載地址 http://archive.ap

原创 spark內核解析2-核心組件

目錄Spark核心組件DriverExecutortaskpartition的數目BlockManager Spark核心組件 Driver Spark驅動器節點,用於執行Spark任務中的main方法,負責實際代碼的執行工作。D

原创 spark內核解析3-幾種部署模式

目錄運行模式Standalone模式Standalone ClientStandalone ClusterYarnYARN ClientYARN Cluster 運行模式 Spark支持3種集羣管理器(Cluster Manage

原创 yarn源碼解析

目錄yarn流程AM(appmaster)的工作機制調度器mr on yarn yarn流程 Client向RM發出請求 RM返回一個ApplicationID作爲迴應 Client向RM迴應Application Submi

原创 spark對各種數據源的操作

目錄RDD操作文件類型Sequence文件對象文件MySQL數據庫habse數據庫sparksql操作寫數據的4個選項JSON文件Parquet文件JDBCHive數據庫內嵌Hive應用外部Hive應用運行Spark SQL CL

原创 windows下配置hadoop

注意是配置,不是安裝 1 解壓hadoop安裝包 將你的在linux上安裝的hadoop-3.2.1.tar.gz這個壓縮包在windows下解壓 2 下載windows的bin https://github.com/srccod

原创 scala idea開發小技巧

在代碼後面加上 .var會自動生成變量 下圖中選中會自動帶返回值 每次選中都很煩? 點擊上個圖的Settings,打開Local definition

原创 創建線程幾種方法

目錄題繼承Thread實現 Runnable 接口匿名內部類函數式接口(java8新特性)實現Callable接口(concurrent包下新特性) 繼承Thread public class TestThread { p

原创 幾種數據結構對比

這裏寫目錄標題數組鏈表樹 數組 數組是有下標的,所以是存取有順序的 可以通過下標獲取 有下標查詢速度是很快的 每次增刪必須創建一個新的數組,把原來的數組元素copy過去,比較慢 鏈表 查詢慢 增刪快 樹

原创 RDD和DataFrame和DataSet

Dataset是具有強類型的數據集合,需要提供對應的類型信息 Dataset未來會取代RDD和DataFrame 概念 DataFrame=Dataset[Row] DataSet是強類型的。比如可以有Dataset[Person

原创 windows下安裝nc

nc官網 下載後解壓 把這個文件copy到C:\Windows\System32下面就可以了 打開cmd nc -l -p 9999