原创 Spark學習筆記之淺釋
概述: Spark是一個基於內存計算的開源集羣計算系統,目的是讓數據分析更加快速。 Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的小團隊開發。使用的語言 是Scala,項目的core部分的代碼只有63個Sca
原创 Hive控制Reduce個數
1. Hive自己如何確定reduce數: reduce個數的設定極大影響任務執行效率,不指定reduce個數的情況下,Hive會猜測確定一個reduce個數,基於以下兩個設定: hive.exec.reducers.bytes.pe
原创 MapReduce編程之數據去重
數據去重主要是爲了掌握和利用並行化思想來對數據進行有意義的篩選。統計大數據集上的數據種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及數據去重。下面就進入這個實例的MapReduce程序設計。 package com.
原创 MapReduce編程之倒排索引
任務要求: //輸入文件格式 18661629496 110 13107702446 110 1234567 120 2345678 120 987654 110 2897839274 18661629496
原创 Linux、hive、sqoop常用腳本
一、Linux常用腳本 1.查看進程 ps -ef|grep -i tom 2.SCP從遠程複製到本地目錄 scp root@/172.19.2.75:/home/root/full.tar.gz /home/dai
原创 MapReduce程序之實現單表關聯
設計思路 分析這個實例,顯然需要進行單表連接,連接的是左表的parent列和右表的child列,且左表和右表是同一個表。 連接結果中除去連接的兩列就是所需要的結果——"grandchild--grandparen
原创 hive UDF自動增長列函數
1.導入Eclipse編碼jar包 hadoop-auth-2.4.0.2.1.3.0-563.jar hadoop-common-2.4.0.2.1.3.0-563.jar hive-exec-0.13.
原创 系統監控軟件Ganglia的安裝
1、實驗環境 Centos6.4 2、安裝rrdtool(注rrdtool-1.5.3不支持3.6.1) 1 2 #安裝ganglia相關包 yum -y install apr-de
原创 MapReduce編程之WordCount
//mapreduce程序 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.con
原创 HBase Shell的基本用法
hbase提供了一個shell的終端給用戶交互。使用命令hbaseshell進入命令界面。通過執行 help可以看到命令的幫助信息。 以網上的一個學生成績表的例子來演示hbase的用法。 name grad
原创 正則表達式基礎用法
正則表達式:符合一定規則的表達式,用特定符號來表達一些代碼。 特點:用於一些特定的符號來表示一些代碼操作,這樣可以簡化書寫 作用:專門用於操作字符串。 優點:可以簡化對字符串的複雜操作。 缺點:符
原创 hadoop2.7完全分佈式安裝
1、安裝JDK1.7+ 2、SSH互信免登陸 3、/etc/profile HADOOP_PREFIX=/opt/hadoop JAVA_HOME=/opt/jdk1.7 PATH=$PATH:$JAVA_HOME/bin:$HA
原创 Scala與JAVA交互
Scala的一個強項在於可以很簡單的於已有的Java代碼交互,所有java.lang中的類都已經被自動導入了,而其他的類需要顯式聲明導入。來看看演示代碼吧。我們希望對日期進行格式化處理,比如說用法國的格式。Java類庫定義了一系列很有用的
原创 推薦引擎mahout安裝與配置
一、硬件環境 操作系統:Linux ubuntu-13.04-desktop-i386 jdk安裝版本:jdk-7u51-linux-i586 Hadoop版本:Hadoop-1.1.1(一個Namenode,三個Datanode
原创 JAVA基礎學習之多線程
進程與線程 進程:就是正在進行的程序。其實就是一個應用程序運行時的內存空間。 線程:線程就是進程當中的一個控制單元或執行路徑。進程負責空間的標示,而線程負責執行應用程序的執行順序。 當一個進程中出現多個線程是就是多線程。每個線程在