原创 Java集合工具包commons-collections
<dependency> <groupId>commons-collections</groupId> <artifactId>commons-collections</artifactId> <version>3.2
原创 bash shell知識點
大小寫轉換 # 將輸入的第一個參數轉爲大寫 answer=$(echo "$1" | tr [A-Z] [a-z]) echo "$1" "$answer" 遠程通信 ssh -Tq $IP << EOF COMM
原创 Lucene文件格式簡介
1、定義 Lucene中基本的概念包括index、document、field、term。 一個index包含一系列的documents; 一個document包含一系列的fields; 一個field包含一系列的terms; 一個ter
原创 性能指標TP99
原文鏈接:https://www.cnblogs.com/guodongdidi/p/6018356.html 首先給出Google到的答案: The tp90 is a minimum tim
原创 HFile校驗
HBase 表大小統計: hbase org.apache.hadoop.hbase.mapreduce.RowCounter test:standard HFile校驗: #]hbase hfile usage: HFile [-
原创 IO工具包commons-io
<dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.4</version> </de
原创 Java用數組實現隊列
數組實現隊列,實際是通過維護隊首和隊尾變量來實現一個循環數組,從而實現複雜度爲1的FIFO隊列。 interface Queue<T> { boolean add(T t) throws Exception; T t
原创 Java集合工具包com.google.guava:guava
<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>19.0</version> </
原创 Java集合工具類
<dependency> <groupId>commons-collections</groupId> <artifactId>commons-collections</artifactId> <version>3.2
原创 Linux Cron 表達式
Linux Cron表達式 Cron表達式的定義 Linux的Cron表達式支持分鐘、小時、月的某天、月份、周當中的某天,最小的粒度到分鐘、最大的粒度到月份和周的某天。 編輯一個linux定時任務: crontab -e 每位的意義
原创 Java多線程 - 內置鎖與高級鎖機制
當多線程共享一個資源變量的時候,需要對線程加以控制,以保證線程是安全的,共享的資源被有效的使用。 內置鎖(監視鎖) synchronized作用域代碼塊上,是一種內存可見的內置鎖。 synchronized是一種可重入鎖:同一個線程可以獲
原创 Spark 閉合函數清理
來看下面的函數 def coalesce(numPartitions: Int, shuffle: Boolean = false, partitionCoalescer: Option[Partiti
原创 RDD repartition過程源碼閱讀
將rdd的分區數量由少變多,需要調用repartition算子。 /** * reparition實際調用coalesce,並且shuffle=true / def repartition(numPartition
原创 大數據文件格式揭祕:Parquet、Avro、ORC
Parquet、Avro、ORC格式 相同點 基於Hadoop文件系統優化出的存儲結構 提供高效的壓縮 二進制存儲格式 文件可分割,具有很強的伸縮性和並行處理能力 使用schema進行自我描述 屬於線上格式,可以在Hadoop節點之
原创 數據結構 - 樹 - B樹、B+樹
前言 動態查找樹主要有:二叉查找樹(Binary Search Tree),平衡二叉查找樹(Balanced Binary Search Tree),紅黑樹(Red-Black Tree ),B-tree/B+-tree/ B*-tree