原创 awk 常用命令

1、統計列數 cat XX |awk -F"\t" '{print NF}' |more 2、對某一列的值進行判斷 cat xx |awk -F "," '{if($2=="3"){ print $2}}' |more持續更新。。

原创 hadoop 計算 pv uv

使用hadoop 進行頁面的pv uv 計算 不推薦的做法  將訪問者的cookie放在hashmap中進行去重計算uv,因爲當訪問量大時,會將hashmap撐爆,報出 java.lang.OutOfMemoryError: Java h

原创 apache 配置---- 同一個域名配置多個root目錄

由來: 有個數據系統的域名被領導分給其他組用了,這系統只能用ip訪問了,本想改完apache配置,和documentroot後就沒問題了,哪知道這機器上還有其他項目 需求: 同一個ip下需要有多個documentroot 方法: 使用別名

原创 Thrift學習筆記—IDL基本類型

 thrift 採用IDL(Interface Definition Language)來定義通用的服務接口,並通過生成不同的語言代理實現來達到跨語言、平臺的功能。在thrift的IDL中可以定義以下一些類型:基本數據類型,結構體,

原创 hive 常用命令

1、查看錶結構信息   desc formatted table_name;   desc table_name; 查看關聯文件: desc ext

原创 HDFS 讀取、寫入、遍歷目錄獲取文件全路徑、append

1、從HDFS中讀取數據 Configuration conf = getConf(); Path path = new Path(pathstr); FileSystem fs = FileSystem.get(conf);

原创 windows配置thrift開發環境

1)安裝thrift:到thrift官網下載exe文件,然後將文件重命名爲thrift.exe,拷貝到c:\windows目錄下,然後就可以在dos環境下使用了            如:thrift -gen java D:\mywor

原创 javax.mail 發郵件 添加附件

都是javax.mail 的使用,沒有太多要講的,代碼貼上自己試驗吧 private MimeMessage mailMessage; // 郵件對象 private Multipart mp;// 附件添加的組件 private L

原创 HBase-scan API 通過scan讀取表中數據

直接貼代碼啦 /** * * @param zkIp * @param zkPort * @param tablename * @param startRow 傳null掃全表 * @param stopR

原创 hive 各種 join (left outer join、join、full outer join)

一、概念 1、左連接 left outer join 以左邊表爲準,逐條去右邊表找相同字段,如果有多條會依次列出。 2、連接join 找出左右相同同的記錄。 3、全連接 full outer  join 包括兩個表的join結果,左邊在右

原创 讀書勵志貼

最近不想讀書,寫個帖子激勵一下吧 之後每個月貼一本看完的書(把看完和在看的都貼一下),加油! 2014年11月: 《託福詞彙》 2014年12月 《spark大數據處理》 點贊 收藏 分享 文章舉報

原创 shell中獲取時間,作爲目錄格式

最近寫了一個小程序,需要用到時間,遍歷作爲目錄的一部分 #!/bin/bash for i in {1..30} do date=`date +%Y/%m/%d -d " $i days ago " ` echo $date done

原创 Hadoop多目錄輸入,join,進入reduce,數據流分析

前言 在做需求時,經常遇到多個目錄,也就是多個維度進行join,這裏分析一下,數據是怎麼流動的。 1、多目錄輸入 使用MultipleInputs.addInputPath()  對多目錄制定格式和map 2、數據流分析 map按行讀入數

原创 hadoop 多目錄輸入,map到reduce如何排序

使用MultipleInputs.addInputPath 對多個路徑輸入 現在假設有三個目錄,並使用了三個mapper去處理, 經過map處理後,輸出的結果會根據key 進行join, 如果使用TextPair,會根據第一個字段jion

原创 hadoop 計數器

一、hadoop有很多自帶的計數器,相信看過運行log的都會看到各種數據 二、用戶自定義計數器 在開發中經常需要記錄錯誤的數據條數,就可以用計數器來解決。 1、定義:用一個枚舉來定義一組計數器,枚舉中的每個元素都是一個計數器 在main類