原创 Java集合工具包commons-collections

<dependency> <groupId>commons-collections</groupId> <artifactId>commons-collections</artifactId> <version>3.2

原创 bash shell知識點

大小寫轉換 # 將輸入的第一個參數轉爲大寫 answer=$(echo "$1" | tr [A-Z] [a-z]) echo "$1" "$answer"   遠程通信 ssh -Tq $IP << EOF COMM

原创 Lucene文件格式簡介

1、定義 Lucene中基本的概念包括index、document、field、term。 一個index包含一系列的documents; 一個document包含一系列的fields; 一個field包含一系列的terms; 一個ter

原创 性能指標TP99

原文鏈接:https://www.cnblogs.com/guodongdidi/p/6018356.html 首先給出Google到的答案: The tp90 is a minimum tim

原创 HFile校驗

 HBase 表大小統計: hbase org.apache.hadoop.hbase.mapreduce.RowCounter test:standard HFile校驗: #]hbase hfile usage: HFile [-

原创 IO工具包commons-io

<dependency>     <groupId>commons-io</groupId>     <artifactId>commons-io</artifactId>     <version>2.4</version> </de

原创 Java用數組實現隊列

數組實現隊列,實際是通過維護隊首和隊尾變量來實現一個循環數組,從而實現複雜度爲1的FIFO隊列。 interface Queue<T> { boolean add(T t) throws Exception; T t

原创 Java集合工具包com.google.guava:guava

<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>19.0</version> </

原创 Java集合工具類

<dependency> <groupId>commons-collections</groupId> <artifactId>commons-collections</artifactId> <version>3.2

原创 Linux Cron 表達式

Linux Cron表達式 Cron表達式的定義 Linux的Cron表達式支持分鐘、小時、月的某天、月份、周當中的某天,最小的粒度到分鐘、最大的粒度到月份和周的某天。 編輯一個linux定時任務: crontab -e 每位的意義

原创 Java多線程 - 內置鎖與高級鎖機制

當多線程共享一個資源變量的時候,需要對線程加以控制,以保證線程是安全的,共享的資源被有效的使用。 內置鎖(監視鎖) synchronized作用域代碼塊上,是一種內存可見的內置鎖。 synchronized是一種可重入鎖:同一個線程可以獲

原创 Spark 閉合函數清理

  來看下面的函數 def coalesce(numPartitions: Int, shuffle: Boolean = false, partitionCoalescer: Option[Partiti

原创 RDD repartition過程源碼閱讀

  將rdd的分區數量由少變多,需要調用repartition算子。 /** * reparition實際調用coalesce,並且shuffle=true / def repartition(numPartition

原创 大數據文件格式揭祕:Parquet、Avro、ORC

  Parquet、Avro、ORC格式 相同點 基於Hadoop文件系統優化出的存儲結構 提供高效的壓縮 二進制存儲格式 文件可分割,具有很強的伸縮性和並行處理能力 使用schema進行自我描述 屬於線上格式,可以在Hadoop節點之

原创 數據結構 - 樹 - B樹、B+樹

前言 動態查找樹主要有:二叉查找樹(Binary Search Tree),平衡二叉查找樹(Balanced Binary Search Tree),紅黑樹(Red-Black Tree ),B-tree/B+-tree/ B*-tree