原创 Scala 編程—第五節:函數與閉包

1.函數定義 如下,定義一個函數,用來比較兩數大小得出最大值 def max(x: Int, y: Int): Int = { if (x> y) x else y } 以上述定義的函數爲例,看下scala函數的基本構成

原创 Scala 編程—第四節:集合操作(List、Set、Map、Tuple、Option)

1.列表 1.1 List定義及特點 // 字符串類型List scala> val language = List("java", "scala", "python") language: List[String] = List

原创 Scala 編程—第六節:類和對象(一)

前言:        類和對象的相關知識比較多,筆者分爲兩篇來介紹,本篇即第一篇主要介紹類定義及對象創建、getter/setter、類主構造器、輔助構造器。 1.類定義及創建對象 1.1 類 定義類 // 採用關鍵字class定

原创 Scala 編程—第二節:數據類型及操作、流程控制

1.Scala 數據類型 Scala 與 Java有着相同的數據類型,下表列出了 Scala 支持的數據類型 數據類型 描述 Byte 8位有符號補碼整數。數值區間爲 -128 到 127 Short 16位有

原创 Scala 編程—第三節:數組 Array

Scala 語言中提供的數組是用來存儲固定大小的同類型元素,數組對於每一門編程語言來說都是重要的數據結構之一。 數組的第一個元素索引爲0,最後一個元素的索引爲元素總數減1。 1.定長數組 // 定義一個長度爲10的數值數組 sca

原创 3.Spark Core 應用解析之RDD概念及創建

1.RDD爲什麼會產生?         RDD是Spark的基石,是實現Spark數據處理的核心抽象。那麼RDD爲什麼會產生呢?         Hadoop的MapReduce是一種基於數據集的工作模式,面向數據,這種工作模式

原创 hive join 查詢

beeline 方式連接hive $ beeline -u jdbc:hive2://localhost:10000/test_db -n harvey -p 數據準備 customers 表 0: jdbc:hive2:/

原创 Python 操作 MySQL 之 PyMySQL

1.pymysql 介紹        Python 中連接 MySQL 服務器有兩個庫,分別爲 PyMySQL 和 MySQLdb,        PyMySQL 是在 Python 3.x 版本中用於連接 MySQL 服務器的

原创 hive 中 order by、sort by、distribute by 、cluster by 區別

1. select 語法 Hive 中的 SELECT 基礎語法和標準SQL語法基本一致,支持 WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查詢等。語法如下: [WITH Comm

原创 Linux Crontab 定時執行shell腳本

前面的博客中,筆者說了,如何在shell腳本中執行maven生成的可執行jar,博客地址:maven 生成可執行jar並使用shell腳本運行 下面,筆者說下,如何使用Linux 中的Crontab來定時執行shell腳本,也是工

原创 使用Log4j將日誌實時寫入Flume

需求:使用Flume實時收集WebServer或者其它服務器上通過log4j產生的日誌 Agent選型:Log4jAppender的使用 創建一個maven項目,pom.xml文件中引入依賴 <dependency> <g

原创 Flume 架構及部署

1.Flume概述 Flume是由 Cloudera 提供的一個分佈式、高可靠、高可用的服務,用於分佈式的海量日誌的高效收集、聚合、移動系統。簡單來說,Flume 就是一個針對日誌數據進行採集和彙總的一個工具(把日誌從A地方移動到

原创 Flume 使用exec及avro方式實現數據收集

導讀:       本篇博客筆者主要介紹如何使用exec實現數據收集到HDFS、使用avro方式實現數據收集及整合exec和avro實現數據收集。 Flume 官方文檔:http://flume.apache.org/Flume

原创 maven 生成可執行jar並使用shell腳本運行

創建maven項目,利用maven項目生成可執行jar,需要使用maven-assembly-plugin插件來完成,pom.xml文件配置如下 <?xml version="1.0" encoding="UTF-8"?> <pr

原创 hive 常用統計分析函數

前言:        hive中提供了很多的的統計分析函數,實際中經常用來進行統計分析,如下筆者整理了常用的一些分析函數,並附以相關實例. 博客參考連接:http://lxw1234.com/archives/2015/07/36