原创 mapreduce代碼整理之簡單的kmeans聚類

我們的目標是將如下座標點分成兩類,可以很清楚地看到這個數據可以很明確的分爲兩類。要分類的數據在kmeans.txt裏,初始中心在cluster.center.conf.txt裏,把這兩個文件都上傳到hdfs中。 Utils.java i

原创 HDFS之刪除數據

import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop

原创 用java生成一個表白二維碼

之前對二維碼粗略的看了一下覺得可以自己實現一個二維碼用來表白,程序員的浪漫。 其實生成一個二維碼非常簡單幾個類就可以搞定 import java.io.File; import java.nio.file.Path; import jav

原创 hadoop之map shuffle reducer 過程

轉載自http://bit1129.iteye.com/blog/2184239 深入Spark Shuffle之前,首先總結下Hadoop MapReduce的Shuffle過程,瞭解了Hadoop MR的shuffle過程,

原创 hadoopAPI之FileSystem和FSDataInputStream對象

這個程序將一個文件讀取兩編利用了FileSystem的open方法創建一個InputStream賦值給FSDataInputStream。 import java.io.IOException; import java.net.URI;

原创 如何在hbase中快速插入10萬條數據

    我們知道每一條put操作實際上都是一個rpc操作,它將客戶端數據傳送到服務器然後返回。這只是折小數據量的操作,如果有一個應用需要插入十萬行數據 到hbase表中,這樣處理就太不合適了。     hbase的api配備了一個客戶端的

原创 mapreduce代碼整理之MyInputFormat(自定義InputFormat)

自定義的InputFormat可以更好的讀入數據,用textinputformat就只能讀取一行,本程序主要實現了讀取多行的情況。 MboxFileFormat.java import java.io.IOException; impo

原创 Hbase之getroworbefore()函數

現在表emp1中插入如下兩條數據 那麼我們要運用函數getroworbefore把這兩條數據查出來 import java.io.IOException; import java.util.Scanner; import org.a

原创 java實現簡單的網絡爬蟲(爬取電影天堂電影信息)

在最開始,我們要在網上下載所用到的jar包,應爲這只是一個簡單的網絡爬蟲所以很多包裏的內容沒有用到。 下面幾個包就可以了。並且要引入這些包。 主類Bigdata.javaimport org.htmlparser.util.Parser

原创 mapreduce代碼整理之實現壓縮輸出減少網絡傳輸

在mian函數裏這樣寫public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.s

原创 mapreduce代碼整理之sort

本編文章主要運用mapreduce中的機制進行排序 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.

原创 HDFS之SequenceFile的讀寫操作

本文代碼參考hadoop權威指南里第四章hadoop的i/o操作 SequenceFile寫操作: import java.io.IOException; import java.net.URI; import org.apache.h

原创 hadoopAPI之LineReader類

在keams算法代碼裏發現其中用了一個LineReader類中的readline方法故查看api 代碼中用了第三個方法創建了一個lineReader實例在調用lineReader實例的readline(String)方法把輸入流fs

原创 mapreduce代碼整理之mywritable(自定義writable)

這個程序包含四個類: MyWritable.java 自定義mywritable 把(張三 李四)作爲一個writable讀入。 import java.io.DataInput; import java.io.DataOutput;

原创 HDFS之filestatus(查看hdfs裏的數據信息)

FileTest.java 本程序列出了hdfs裏的test.txt的信息 import java.io.IOException; import java.net.URI; import org.apache.hadoop.fs.Fil