原创 求所有最大公共子序列的算法實現

本文給出了傳統的DP(dynamic programming,動態規劃)算法進行求解的過程,並用c語言實現。另外參考一篇論文實現了其中的一種打印所有最大公共子序列的算法,這個算法比起傳統的算法而言,時間複雜度大大降低. 一:LCS解

原创 如何在linux shell中嵌入hbase命令

我們經常在shell腳本程序中用<<EOF重定向輸入,將我們輸入的命令字符串作爲一個執行程序的輸入,這樣,我們就不需要在那個程序環境中手工輸入命令,以便自動執行我們需要的功能。將hbase的命令嵌入到shell中,可以在shell中如下書

原创 Hbase 統計表行數的3種方式總結

有些時候需要我們去統計某一個hbase表的行數,由於hbase本身不支持SQL語言,只能通過其他方式實現。可以通過一下幾種方式實現hbase表的行數統計工作: 1.count命令 最直接的方式是在hbase shell中執行count的命

原创 hadoop常用的壓縮算法總結和實驗驗證

壓縮格式總表 壓縮格式 工具 算法 擴展名 是否可切分 DEFLATE N/A DEFLATE .deflate No gzip gzip DEFLATE .gz No b

原创 linux的環境變量文件enviroment 、profile、bashrc和bash_profile的區別

(1)/etc/profile: 此文件爲系統的每個用戶設置環境信息,當用戶第一次登錄時,該文件被執行. 並從/etc/profile.d目錄的配置文件中搜集shell的設置。  (2)/etc/env

原创 Programming in scala學習筆記(一)First step in scala

1.Unit類似void,函數沒有返回值就用Unit代替   2.參數args // Say hello to the first argument println("Hello, "+ args(0)+"!") 以上兩行保存成scala

原创 腳本ssh連接自動填密碼(expect)

Linux ssh下執行ssh命令遠程登錄其他機器,總是需要輸入密碼,如果人工去登錄,輸入密碼那還可以,但是讓程序自動化登錄遠程ssh服務器,並執行命令着就比較麻煩了。 Linux下有個程序是expect,它可以模擬鍵盤,輸入文本。 1

原创 Hbase Bulk Loading與HBase API方式分析和對比

1.概述 往hbase中批量加載數據的方式有很多種,最直接方式是調用hbase的API用put方法插入數據;另外一種是用MapReduce的方式從hdfs上加載數據,調用TableOutputFormat 類在reduce中直接生成put

原创 hive-TextInputformat自定義分隔符

前言 在一次利用sqoop將關係型數據庫Oracle中的數據導入到hive的測試中,出現了一個分割符的問題。oracle中有字段中含有\n換行符,由於hive默認是以’\n’作爲換行分割符的,所以用sqoop將oracle中數據導入到hi

原创 集羣磁盤損壞導致hadoop文件丟失的概率計算

    在與客戶溝通的時候,經常會有客戶詢問關於hadoop的安全問題。由於hadoop的底層的磁盤不做raid或者僅僅是做raid 0,客戶認爲磁盤損壞容易造成數據丟失。你跟客戶闡述採用3副本機制,客戶也會說:即使3副本也會有3塊不同節

原创 一目瞭然的幾種join方式舉例

以表A和表B舉例 表A: 表B:  UserID 作爲 foreign key 1.內連接(inner join) 2.左外連接(left outer join) 3.右外連接(right outer join)

原创 MapReduce的Reduce side Join

1. 簡介 reduce side  join是所有join中用時最長的一種join,但是這種方法能夠適用內連接、left外連接、right外連接、full外連接和反連接等所有的join方式。reduce side  join不僅可以

原创 MapReduce的Map side join

當有一個大表join小表的時候,可以選擇用Map side join。該方式只用到了map階段,不需要reduce。 適用場景: 1-小表很小,可以放在內存中,不會導致JVM的堆溢出; 2-內連接或者大數據在左邊的左外連接。 原理:

原创 HDFS和Hbase誤刪數據恢復

1.hdfs的回收站機制     客戶有時會誤刪一些數據,在生產環境下,誤刪數據會造成非常嚴重的後果。     在hdfs上有一個回收站的設置,可以將刪除的數據存在目錄”/user/$<username>/.Trash/”中,設置回收站的

原创 HDFS的快照原理和Hbase基於快照的表修復

      前一篇文章《HDFS和Hbase誤刪數據恢復》主要講了hdfs的回收站機制和Hbase的刪除策略。根據hbase的刪除策略進行hbase的數據表恢復。本文主要介紹了hdfs的快照原理和根據快照進行的數據恢復。 1.Hdfs的快