原创 chukwa配置安裝過程(1)
chukwa配置安裝過程(1) 1: tar zxvf chukwa-0.4.0.tar.gz 需要被監控的節點都有分發一份,每個節點都將會運行一個collector 2: 修改 ./chukwa-0.4.0/conf/chukwa-e
原创 hadoop作業map過程調優使用到的參數筆記
參數:io.sort.mb(default 100) 當map task開始運算,併產生中間數據時,其產生的中間結果並非直接就簡單的寫入磁盤。 而是會利用到了內存buffer來進行已經產生的部分結果的緩存, 並在內存buffer中進行一些
原创 Hive使用一段時間後Hadoop集羣佔用空間暴增的原因
我使用的是hive。 所有的數據也是在hive中 load data inpath 導入的 導入的數據時保存到虛擬路徑 hdfs:////user/hive/warehouse 以一個表一個文件夾的形式 兩天來一直面對着一個困惑 從
原创 K-means聚類方法
K-means聚類方法 就是把空間內點,分成K類。同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。 用均值來代表類中心,並用于衡量與新點的距離。 初始值: 根據先驗知識找到K個均值,做迭代初始值。 迭代公式: 1:從n個
原创 基於Hadoop的一些工具一句話介紹
Pig 是在MapReduce上構建的查詢語言(SQL-like),適用於大量並行計算。 Chukwa 是基於Hadoop集羣中監控系統,可以用他來分析和收集系統中的數據(日誌) Hive 是DataW
原创 Hive HBase整合使用
Hive HBase整合使用 將Hive中的數據導入到HBase中 wiki上的介紹鏈接如下: http://wiki.apache.org/hadoop/Hive/HBaseIntegration 各版本要求: hadoop-0
原创 使用mysql查詢純真IP庫的方法
爲了把點格式的ip地址轉換成整數表示的ip地址,創建如下MYSQL函數: create function ip_calc(ip varchar(20)) returns bigint(20) return substring_ind
原创 [2] Scribe的安裝和簡單使用例子
Scribe的安裝 一、安裝前提: 1: libevent 解壓縮安裝 ./configure make make install 2: boost (版本>=1.36) 解壓縮安裝 ./configure make make i
原创 Linux下常用的命令
顯示當前目錄下各個文件的大小 ll -h (相對於 ls -lh) 顯示當前目錄下各個文件夾的文件總大小 ls | xargs du -sh 當前服務器的空間使用情況 df -h 當前文件夾下所有文件總大小 du -smh
原创 [4] Scribe使用例子3
中央Scribe服務器故障情況下,從屬Scribe服務器會本地緩存日誌,待 中央Scibe服務器恢復後再傳送日誌。 測試過程如下: 1:首先啓動中央Scribe服務器 ./bin/scribed examples/example2ce
原创 淘寶開源實時數據傳輸平臺TimeTunnel
TimeTunnel是一個高效的、可靠的、可擴展的實時數據傳輸平臺,廣泛應用於實時日誌收集、數據實時監控、廣告效果實時反饋、數據庫實時同步等領域。TimeTunnel基於發佈\訂閱的消息模型開發,支持消息多用戶訂閱 。 開源地址
原创 修改Hadoop集羣的備份數
之前dfs.replication值爲3,運行一段時間之後我使用完了磁盤空間, 所以呢,現在我想通過降低備份的個數來釋放空間。 那麼對於之前存儲的文件會自動把備份數改爲1嗎? 還是需要手動執行命令來執行呢? dfs.replicati
原创 [3] Scripe使用例子2
這個例子展示多個Scribe實例的情況下如何記錄日誌的。 本例子通過一臺服務器上不同的端口啓用Scribe服務來模擬多臺Scribe服務器的運作情況的。 1:創建用於存放日誌文件的目錄 mkdir /tmp/scribetest1
原创 [1] Facebook Scribe簡介
Facebook Scribe簡介 Scribe是用來收集日誌的服務器.它可以擴展到大規模的機器集羣中,無論是網絡故障還是服務器節點故障,都不會對日誌收集造成影響.大規模集羣系統中每個節點服務器上都運行了一個Scribe服務,這個Sc
原创 Sqoop配置安裝
Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關係型數據庫中