原创 Flume NG 學習筆記(七)Sink Processors(故障轉移與負載均衡)測試

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。目錄(?)[+]Sink groups允許組織多個sink到一個實體上。 Sink processors能夠提供在組內所有Sink之間實現負載均衡的能力,而且在失敗的情況下能夠進行故障轉移

原创 Python開發簡單爬蟲

Python開發簡單爬蟲         源碼網址:  http://download.csdn.NET/detail/hanchaobiao/9860671一、爬蟲的簡介及爬蟲技術價值       1.什麼是爬蟲:         一段自

原创 Flume NG 學習筆記(八)Interceptors(攔截器)測試

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。目錄(?)[+]攔截器主要是對事件的header信息信息操作,要麼直接忽略他,要麼修改他的數據一、Event Serializersfile_roll sink 和hdfs sink 都支

原创 我的友情鏈接

51CTO博客開發超級磊磊

原创 Flume NG 學習筆記(十) Transaction、Sink、Source和Channel開發

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。目錄(?)[+]一、Transaction interfaceTransaction接口是基於flume的穩定性考慮的。所有主要的組件(sources、sinks、channels)都必須

原创 Flume NG 學習筆記(四)Source配置

首先、這節水的東西就比較少了,大部分是例子。一、Avro Source與Thrift SourceAvro端口監聽並接收來自外部的Avro客戶流的事件。當內置Avro 去Sinks另一個配對Flume代理,它就可以創建分層採集的拓撲結構。官

原创 hive 導出數據到 csv

導出命令:hive -e " select concat_ws(',',nvl(name,''),nvl(phone,''),nvl(id,''),org) as dt from souche">souche1.csv 編碼轉換:linux

原创 爬蟲之header

有些網站不會同意程序直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以爲了完全模擬瀏覽器的工作,我們需要設置一些Headers 的屬性。 首先,打開我們的瀏覽器,調試瀏覽器F12,我用的是Chrome,打開網絡監聽,示意如

原创 R語言筆記 日期值

日期值通常以字符串的形式輸入到R中,然後轉化爲以數值形式存儲的日期變量。函數as.Date()用於執行這種轉化。其語法爲as.Date(x, "input_format"),其中x是字符型數據,input_format則給出了用於讀入日期的

原创 R 語言筆記 頻數表和列聯表

我們將着眼於類別型變量的頻數表和列聯表,以及相應的獨立性檢驗、相關性的度量、圖形化展示結果的方法還將連帶使用vcd包和gmodels包中的函數。數據來自vcd包中的Arthritis數據集library(vcd)一維列聯表可以使用table

原创 greenplum日常維護手冊

1. 數據庫啓動:gpstart常用可選參數: -a : 直接啓動,不提示終端用戶輸入確認 -m:只啓動master 實例,主要在故障處理時使用2. 數據庫停止:gpstop:常用可選參數:-a:直接停

原创 sql 修改表

修改表 如果你創建了一個表後發現自己犯了一個錯誤,或者是應用的需求發生了變化,那麼你可以刪除這個表然後重新創建它。但是如果這個表已經填充了好多數據了,或者是該表已經被其它數據庫對象引用,(比如一個外鍵約束) 那這可不是一個方便的選項。因

原创 R 假設檢驗及R實現

假設檢驗及R實現7.1假設檢驗概述對總體參數的具體數值所作的陳述,稱爲假設;再利用樣本信息判斷假設足否成立,這整個過程稱爲假設檢驗。7.1.1理論依據假設檢驗之所以可行,其理淪背景是小概率理論。小概率事件在一次試驗中兒乎是不可能發生的,但是

原创 linux 防火牆

(1) 重啓後永久性生效:開啓:chkconfig iptables on關閉:chkconfig iptables off(2) 即時生效,重啓後失效:開啓:service iptables start關閉:service iptable

原创 datastage 分析日誌獲取表記錄條數

DataStage通過分析日誌獲取Job插入目標表的記錄數這只是一種不太好的方法,也許還有更好、更簡便的方法。這種方法要求每次運行Job之前刪除已有的日誌信息,否則無法統計出正確的記錄數。當然,在Job跑完之後,可以在shell備份本次Jo