原创 兩個字符串比較求最優算法

背景如下: 1.Char1是一個由各種字母組成的字符串 2.Char2是另外一個相對較短的字符串 問題: 什麼方法能最快的查出是否所有小字符串裏的字母在大字符串裏都有? 例如: Char1:ASQWERTYZXCVBPLK Char2:

原创 storm與hadoop的對比

   hadoop 是實現了 mapreduce 的思想,將數據切片計算來處理大量的離線數據。 hadoop處理的數據必須是已經存放在 hdfs 上或者類似 hbase 的數據庫中,所以 hadoop 實現的時候是通過移動計算到這些存放數

原创 Storm簡述及集羣安裝

     Storm 集羣類似於一個 Hadoop 集羣。然而你在 Hadoop 的運行“MapReduce job”, 在storm 上你運行 “topologies (不好翻譯)”。“job”和“topologies ”本身有很 大的

原创 hive 如何處理科學計數法

說明:Hive中int , float , double這些數值類型在存儲大額度數字時,在前端展現上總是使用科學計數法來表示,這樣搞的挺煩。舉例說明樣例數據:select lte_drop_rate from t_table limit

原创 shell腳本中的數學運算

shell中的賦值和操作默認都是字符串處理,在此記下shell中進行數學運算的幾個特殊方法,以後用到的時候可以來看,呵呵 1、錯誤方法舉例 a) var=1+1 echo $var 輸出的結果是1+1,悲劇,呵呵 b) v

原创 Linux下vsftp的安裝及配置

首先下載vsftp http://pkgs.org/download/vsftpd 這裏下載的版本爲:vsftpd-2.2.2-12.el6_5.1.x86_64.rpm 1.查看是否安裝vsftp  rpm -qa | grep v

原创 MapReduce編程之實現多表關聯

多表關聯和單表關聯類似,它也是通過對原始數據進行一定的處理,從其中挖掘出關心的信息。如下 輸入的是兩個文件,一個代表工廠表,包含工廠名列和地址編號列;另一個代表地址表,包含地址名列和地址編號列。 要求從輸入數據中找出工廠名和地址名的對應關

原创 Storm計算結果是如何存放的

Storm計算的結果存放在哪裏?     剛開始接觸Storm的時候,往往都會有這麼一個疑問:“Storm處理後 的計算結果是保存在哪裏呢?”是內存中還是在其它的地方?     官方給出的解釋是:Storm不負責保存計算結果,計算結果

原创 hive如何處理多分隔符數據

問題描述:     大數據維穩需求中,客戶提供的測試數據爲多個字符做分隔符('|#'),在pig中會直接報錯,hive中只認第一個分隔符。 由於數據量比較大(160G),在文本中替換成單個字符分隔符已不現實,以下提供兩個方案解決這一