原创 哈夫曼樹(Huffman Tree) 實現
假設有n個權值,則構造出的哈夫曼樹有n個葉子結點。 n個權值分別設爲 w1、w2、…、wn,則哈夫曼樹的構造規則爲: (1) 將w1、w2、…,wn看成是有n 棵樹的森林(每棵樹僅有一個結點); (2) 在森林中選出兩個根結點的權值最小的
原创 系統學習hive programming,第四章----表和數據庫定義
/* * Lee 2013.11.12翻譯 《programming hive》 第四章節 Getting Started @page表示 翻譯原文頁碼 */ @page 49 Hive 提供一種名爲HSQL的方言, 不
原创 Hive 典型的中表內數據除重寫法
insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , r
原创 拓撲排序--關鍵路徑實現
本文是圖論算法的補充, 詳見我另一篇博客 圖的算法 截止目前 我是實現了 最小生成樹,最短路徑,遍歷,拓撲排序和關鍵路徑算法。 一再強調 圖上的算法不依賴於圖的具體實現,我給出了鄰接矩陣和鄰接表上的實現作爲參考 開始之前,回顧一下上期我
原创 系統學習hive programming,第二章---使用Hive CLI命令
/* * Lee 2013.11.11翻譯 《programming hive》 第二章節 Getting Started @page表示 翻譯原文頁碼 */ @@page 29 使用 hive --help可以看到hive
原创 hive 大數據 除重問題研究
存量表: store 增量表: incre 字段: 1. p_key 除重主鍵 2. w_sort 排序依據 3. info 其他信息 方法一(union all + row_number()over ): insert
原创 主要內排序算法排序算法,平臺,實現
摘要: 通過實現一個排序平臺,產生隨機數,公平的比較各種排序用時。 順帶回憶一下主要的內排序算法。 實現一個類,產生隨機數、統計排序時間 package lee.sort; import java.util.Random; pu
原创 系統學習hive programming,第三章----數據類型,見表
/* * Lee 2013.11.11翻譯 《programming hive》 第三章節Data Types and File Formats @page表示 翻譯原文頁碼 */ @@ pa
原创 系統學習hive programming,第五章,操作數據
/* * Lee 2013.11.14翻譯 《programming hive》 第五章節HiveQL: Queries */ 第
原创 sqoop使用
sqoop 是進出hadoop的重要工具。 用sqoop從RDBMS中導入數據 sqoop import \ -D oozie.job.id=
原创 hive函數參考手冊
原文見:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.內置運算符 1.1關係運算符 運算符 類型 說明 A = B 所有原始類型 如果A與B相等
原创 棧,隊列,並查集等算法工具實現(1)
最近總有朋友問我,爲什麼寫的算法使用的是lee.tools包下的棧和隊列。 爲了好玩啊,JAVA是有一套集合框架,實現了棧,隊列,集合,優先隊列等常用的數據結構,但爲了掌握這些工具的使用,最好的方法就是自己寫一套。公佈一下lee.too
原创 圖上常用的算法集合
上篇 介紹了圖的常用API 和實現了 圖的兩種方式 下面完成圖的常用算法 圖的遍歷 ——》深度優先 廣度優先 最小生成樹——》 Prim算法 Kruskral算法 圖的最短路徑 --> Dijstra 算法 Floyd算法 圖的拓撲排序
原创 棧,隊列,並查集等算法工具實現(3)
接上,並查集是處理合並問題有力的工具,讀者自己百度,參考 Kruskral算法尋找最小生成樹中的應用 並差集的實現: package lee.tools; public class UF { int[] id; int[] size;
原创 小根堆 JAVA實現,真正的堆排序是怎麼樣煉成的
package lee.tools; public class MinHeap { public int[] arr; int size; public int end; public MinHeap(){ size =