原创 hive中文註釋亂碼問題

開始的時候使用hive-0.7.1在建表的時候使用如下語句 hive>createtable t1(c1 string comment '列1'); 然後查看該表 hive>describet1; 其中的註釋變成了亂碼。 後來

原创 Hive與表操作有關的語句

1.創建表的語句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT

原创 Linux TOP-查看CPU使用率,系統資源使用

top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源佔用狀況,類似於Windows的任務管理器。下面詳細介紹它的使用方法。 top -01:06:48 up 1:22, 1 user, load average:

原创 shell 引號 轉義符 通配符 特殊字符

shell使用引號(單引號/雙引號)和反斜線("\")用於向shell解釋器屏蔽一些特殊字符.     shell轉義符有三種,不只是 \ 。 單引號、雙引號、反斜槓。 ‘’(單引號) 又叫硬轉義,其內部所有的shell 元字符、

原创 Linux監控命令全覆蓋

from :http://blog.jobbole.com/81173/ 1.1 top 1.1.1 命令說明 Top 命令能夠實時監控系統的運行狀態,並且可以按照cpu、內存和執行時間進行排序   1.1.2 參數說明 命

原创 IO不再神祕

隨着所有的在高可用服務器設計上的炒作,以及nodejs背後的風行,我想關注一些IO的設計模式,卻一直沒有足夠的時間。現在正在完成的一些研究,我想最好記下這些資料以備查。讓我們跳上IO bus兜風去。 各種各樣的I/O 根據操作

原创 海量數據處理算法—Bit-Map

1. Bit Map算法簡介         來自於《編程珠璣》。所謂的Bit-map就是用一個bit位來標記某個元素對應的Value, 而Key即是該元素。由於採用了Bit爲單位來存儲數據,因此在存儲空間方面,可以大大節省。

原创 Bloom Filter

Bloom Filter的中文翻譯叫做布隆過濾器,是1970年由布隆提出的。它實際上是一個很長的二進制向量和一系列隨機映射函數。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的算法,缺點是有

原创 TOP-查看CPU使用率,系統資源使用

top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源佔用狀況,類似於Windows的任務管理器。下面詳細介紹它的使用方法。 top -01:06:48 up 1:22, 1 user, load average:

原创 Linux基礎篇之文本、數據流處理命令(sed uniq grep awk wc)

1 awk:文本和數據處理工具 awk擅長於對數據進行分析並生成報告,簡單來說awk就是把文件逐行的讀入,以空格爲默認分隔符將每行切片,切開的部分再進行各種分析處理。 使用方法:awk '{pattern + action}' {f

原创 十道海量數據處理面試題與十個方法大總結

第一部分、十道海量數據處理面試題 1、海量日誌數據,提取出某日訪問百度次數最多的那個IP。       首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以

原创 大數據計算:如何僅用1.5KB內存爲十億對象計數

爲了更好地理解已經明確基數的大數據集的挑戰,我們假設你的日誌文件包含16個字符的ID,並且你想統計不同ID的數量.例如: 4f67bfc603106cb2 這16個字符需要用128位來表示。6萬5千個ID將需要1MB的空間。我們每天

原创 hadoop的balancer

在線上的hadoop集羣運維過程中,hadoop 的balance工具通常用於平衡hadoop集羣中各datanode中的文件塊分佈,以避免出現部分datanode磁盤佔用率高的問題(這問題也很有可能導致該節點CPU使用率較其他服務器高

原创 zookeeper javaAPI

安裝和配置詳解 本文介紹的 Zookeeper 是以 3.2.2 這個穩定版本爲基礎,最新的版本可以通過官網 http://hadoop.apache.org/zookeeper/來獲取,Zookeeper 的安裝非常簡單,下面將從單

原创 hadoop2.0 公平調度器(fair-scheduler)配置

如果是第一次接觸hadoop2.0版本的 Fairshare scheduler , 最好先看一下他的官方文檔: http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn