原创 MapReduce的輸入處理類

MapReduce輸入的處理類 FileInputFormat是所有以文件作爲數據源的InputFormat實現的基類,FileInputFormat保存作爲job輸入的所有文件,並 實現了對輸入文件計算splits的方法。至於獲得記錄的

原创 MapReduce的NlineInputFormat

默認情況下在對輸入文件進行拆分時,會按block塊的大小分成多個InputSplit,InputSplit的數量取決於block的大小。每 個map進程處理一個InputSplit,InputSplit中有多少行記錄就會調用多少次map函

原创 日誌收集框架比較

原创 awk使用

awk是一個強大的文本分析工具,相對於grep的查找,sed的編輯,awk在其對數據分析並生成報告時,顯得尤爲強大。簡單來說awk就是把文件逐行的讀入,以空格爲默認分隔符將每行切片,切開的部分再進行各種分析處理。awk有3個不同版本: a

原创 solr學習

solr是一個基於lucene的搜索引擎,可以實現全文搜索。它對外提供類似於Web-service的API接口,可以通過http請求 進行操作。 solr可以很方便的實現一個站內搜索功能(http://zookeeper.apache.o

原创 Java8-初識Lambda表達式與函數式接口

Java8被稱作Java史上版本更新變化最大的一個版本。其中包含很多重要的新特性,最核心的就是增加了Lambda表達式和Stream API。這兩者也可以結合在一起使用。首先來看下什麼是Lambda表達式。 Lambda表達式,維基百科

原创 MapReduce的KeyValueTextInputFormat

如果行中有分隔符,那麼分隔符前面的作爲key,後面的作爲value;如果沒有分隔符,那麼整行作爲key,value爲空 當輸入數據的每一行是兩列,並用tab分離的形式的時候,KeyValueTextInputformat處理這種格式的文件

原创 MapReduce的DBInputFormat

使用MapReduce直接從關係型數據庫中取數據,需要將數據庫驅動包放到hadoop的classpath下, 執行hadoop classpath可以查看路徑信息,放到顯示的任一個路徑下即可。 package com.bigdata.h

原创 Java Nio 零拷貝

傳統的IO處理方式 上下文切換包括:用戶空間(User space),內核空間(Kemel space) 首先,當讀取一個硬盤上的文件時,上下文會從用戶空間切換到內核空間,由內核空間以DMA(Direct Memory Access)直接

原创 shell學習

Shell是用戶與Linux操作系統溝通的橋樑 Linux的Shell種類衆多,這裏我們學習的是bash,也就是Bourne Again Shell,由於易用和免費,Bash在日常工作中被 廣泛使用,同時,Bash也是大多數Linux系統

原创 Git命令使用筆記

Git中文件管理三種狀態: 已修改(modified) 在工作目錄中修改Git文件 已暫存(staged) 對已經修改的文件執行暫存操作,存入暫存區 已提交(committed) 將已暫存的文件執行Git提交操作,存入本地版本庫 Git

原创 crontab命令使用

基本格式 :  *  *  *  *  *  command  分 時 日 月 周 命令  第1列表示分鐘1~59 每分鐘用*或者 */1表示  第2列表示小時1~23(0表示0點)  第3列表示日期1~31  第4列表示月份1~12 

原创 常用shell命令

文本查找與替換 創建hello文件,內容爲hello you hello me echo hello you hello me > hello 將hello文件中第一個hello替換爲welcome,但是並沒改變hello文件原內容 se

原创 kafka學習

kafka是由LinkedIn開發,主要是用來處理Linkedin的大面積活躍數據流處理(activity stream).  此類的數據經常用來反 映網站的一些有用的信息,比如PV,頁面展示給哪些用戶訪問,用戶搜索什麼關鍵字最多,這類信

原创 date命令使用

date命令的幫助信息  [root@localhost source]# date --help 用法:date [選項]... [+格式]  或:date [-u|--utc|--universal] [MMDDhhmm[[CC]YY