原创 chukwa配置安裝過程(1)

chukwa配置安裝過程(1) 1: tar zxvf chukwa-0.4.0.tar.gz 需要被監控的節點都有分發一份,每個節點都將會運行一個collector 2: 修改 ./chukwa-0.4.0/conf/chukwa-e

原创 hadoop作業map過程調優使用到的參數筆記

參數:io.sort.mb(default 100) 當map task開始運算,併產生中間數據時,其產生的中間結果並非直接就簡單的寫入磁盤。 而是會利用到了內存buffer來進行已經產生的部分結果的緩存, 並在內存buffer中進行一些

原创 Hive使用一段時間後Hadoop集羣佔用空間暴增的原因

我使用的是hive。 所有的數據也是在hive中 load data inpath 導入的 導入的數據時保存到虛擬路徑 hdfs:////user/hive/warehouse 以一個表一個文件夾的形式 兩天來一直面對着一個困惑 從

原创 K-means聚類方法

K-means聚類方法 就是把空間內點,分成K類。同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。 用均值來代表類中心,並用于衡量與新點的距離。 初始值: 根據先驗知識找到K個均值,做迭代初始值。 迭代公式: 1:從n個

原创 基於Hadoop的一些工具一句話介紹

      Pig 是在MapReduce上構建的查詢語言(SQL-like),適用於大量並行計算。       Chukwa 是基於Hadoop集羣中監控系統,可以用他來分析和收集系統中的數據(日誌)       Hive 是DataW

原创 Hive HBase整合使用

Hive HBase整合使用 將Hive中的數據導入到HBase中 wiki上的介紹鏈接如下: http://wiki.apache.org/hadoop/Hive/HBaseIntegration   各版本要求: hadoop-0

原创 使用mysql查詢純真IP庫的方法

  爲了把點格式的ip地址轉換成整數表示的ip地址,創建如下MYSQL函數: create function ip_calc(ip varchar(20)) returns bigint(20) return substring_ind

原创 [2] Scribe的安裝和簡單使用例子

  Scribe的安裝 一、安裝前提: 1: libevent  解壓縮安裝 ./configure make make install 2: boost (版本>=1.36) 解壓縮安裝 ./configure make make i

原创 Linux下常用的命令

  顯示當前目錄下各個文件的大小 ll -h  (相對於 ls -lh) 顯示當前目錄下各個文件夾的文件總大小 ls | xargs du -sh 當前服務器的空間使用情況  df -h 當前文件夾下所有文件總大小 du -smh

原创 [4] Scribe使用例子3

中央Scribe服務器故障情況下,從屬Scribe服務器會本地緩存日誌,待 中央Scibe服務器恢復後再傳送日誌。 測試過程如下: 1:首先啓動中央Scribe服務器 ./bin/scribed examples/example2ce

原创 淘寶開源實時數據傳輸平臺TimeTunnel

TimeTunnel是一個高效的、可靠的、可擴展的實時數據傳輸平臺,廣泛應用於實時日誌收集、數據實時監控、廣告效果實時反饋、數據庫實時同步等領域。TimeTunnel基於發佈\訂閱的消息模型開發,支持消息多用戶訂閱 。 開源地址

原创 修改Hadoop集羣的備份數

之前dfs.replication值爲3,運行一段時間之後我使用完了磁盤空間, 所以呢,現在我想通過降低備份的個數來釋放空間。 那麼對於之前存儲的文件會自動把備份數改爲1嗎? 還是需要手動執行命令來執行呢? dfs.replicati

原创 [3] Scripe使用例子2

這個例子展示多個Scribe實例的情況下如何記錄日誌的。 本例子通過一臺服務器上不同的端口啓用Scribe服務來模擬多臺Scribe服務器的運作情況的。 1:創建用於存放日誌文件的目錄 mkdir /tmp/scribetest1

原创 [1] Facebook Scribe簡介

  Facebook Scribe簡介 Scribe是用來收集日誌的服務器.它可以擴展到大規模的機器集羣中,無論是網絡故障還是服務器節點故障,都不會對日誌收集造成影響.大規模集羣系統中每個節點服務器上都運行了一個Scribe服務,這個Sc

原创 Sqoop配置安裝

Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關係型數據庫中