原创 哈夫曼樹(Huffman Tree) 實現

假設有n個權值,則構造出的哈夫曼樹有n個葉子結點。 n個權值分別設爲 w1、w2、…、wn,則哈夫曼樹的構造規則爲: (1) 將w1、w2、…,wn看成是有n 棵樹的森林(每棵樹僅有一個結點); (2) 在森林中選出兩個根結點的權值最小的

原创 系統學習hive programming,第四章----表和數據庫定義

/* *    Lee 2013.11.12翻譯  《programming hive》 第四章節 Getting Started   @page表示 翻譯原文頁碼 */ @page 49   Hive 提供一種名爲HSQL的方言, 不

原创 Hive 典型的中表內數據除重寫法

insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , r

原创 拓撲排序--關鍵路徑實現

本文是圖論算法的補充, 詳見我另一篇博客  圖的算法 截止目前 我是實現了 最小生成樹,最短路徑,遍歷,拓撲排序和關鍵路徑算法。 一再強調 圖上的算法不依賴於圖的具體實現,我給出了鄰接矩陣和鄰接表上的實現作爲參考 開始之前,回顧一下上期我

原创 系統學習hive programming,第二章---使用Hive CLI命令

/* *    Lee 2013.11.11翻譯  《programming hive》 第二章節 Getting Started   @page表示 翻譯原文頁碼 */ @@page 29 使用 hive --help可以看到hive

原创 hive 大數據 除重問題研究

存量表: store 增量表:  incre 字段: 1. p_key   除重主鍵 2. w_sort  排序依據 3. info    其他信息 方法一(union all + row_number()over ): insert

原创 主要內排序算法排序算法,平臺,實現

摘要: 通過實現一個排序平臺,產生隨機數,公平的比較各種排序用時。 順帶回憶一下主要的內排序算法。 實現一個類,產生隨機數、統計排序時間 package lee.sort; import java.util.Random; pu

原创 系統學習hive programming,第三章----數據類型,見表

/* *    Lee 2013.11.11翻譯  《programming hive》 第三章節Data Types and File Formats  @page表示 翻譯原文頁碼 */ @@ pa

原创 系統學習hive programming,第五章,操作數據

/* *    Lee 2013.11.14翻譯  《programming hive》 第五章節HiveQL: Queries    */                             第

原创 sqoop使用

sqoop 是進出hadoop的重要工具。 用sqoop從RDBMS中導入數據 sqoop import                                           \      -D oozie.job.id=

原创 hive函數參考手冊

原文見:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.內置運算符 1.1關係運算符 運算符 類型 說明 A = B 所有原始類型 如果A與B相等

原创 棧,隊列,並查集等算法工具實現(1)

最近總有朋友問我,爲什麼寫的算法使用的是lee.tools包下的棧和隊列。  爲了好玩啊,JAVA是有一套集合框架,實現了棧,隊列,集合,優先隊列等常用的數據結構,但爲了掌握這些工具的使用,最好的方法就是自己寫一套。公佈一下lee.too

原创 圖上常用的算法集合

上篇 介紹了圖的常用API 和實現了 圖的兩種方式 下面完成圖的常用算法 圖的遍歷 ——》深度優先 廣度優先 最小生成樹——》 Prim算法 Kruskral算法 圖的最短路徑 --> Dijstra 算法  Floyd算法 圖的拓撲排序

原创 棧,隊列,並查集等算法工具實現(3)

接上,並查集是處理合並問題有力的工具,讀者自己百度,參考 Kruskral算法尋找最小生成樹中的應用 並差集的實現: package lee.tools; public class UF { int[] id; int[] size;

原创 小根堆 JAVA實現,真正的堆排序是怎麼樣煉成的

package lee.tools; public class MinHeap { public int[] arr; int size; public int end; public MinHeap(){ size =