原创 JAVA實現map轉成XML格式

JAVA實現map集合轉成XML格式 例如: 代碼塊 import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.

原创 Hadoop實現100W數據取最大值

代碼實現 pom.xml文件配置 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoo

原创 CentOS7.0安裝Hadoop僞分佈集羣

Hadoop簡要介紹 Hadoop 是Apache基金會下一個開源的分佈式計算平臺,它以分佈式文件系統HDFS和MapReduce算法爲核心,爲用戶提供了系統底層細節透明的分佈式基礎架構。 Hadoop生態圖 安裝包下載

原创 Sparkstreaming之KafKa持久化offsets到Zookpeer數據讀取

SparkStreaming+Kafka的兩種模式receiver模式和Direct模式 Sparkstreming + kafka recevier模式理解 receiver模式理解: 在SparkStreaming程序運

原创 Spark實現ALS最小二乘法

ALS算法流程: 初始化數據集和Spark環境 切分測試機和檢驗集 訓練ALS模型 驗證結果 檢驗滿足結果,直接推薦商品,否則繼續訓練ALS模型 數據集的含義 數據根式 用戶ID,產品ID,評分 1,11,2 1,12,3

原创 Hbase參數調優

注: 前面兩個是在hbase-env.sh文件中,其它的都是hbase-site.xml中 HBase Master Maximum Java heap size Hmaster進程最大使用堆空間大小,默認1G,如果內存充裕可調到

原创 Hive性能調優

概述 Hive是一個數據倉庫基礎工具在Hadoop中用來處理結構化數據。它架構在Hadoop之上,總歸爲大數據,並使得查詢和分析方便。並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 Hive 構

原创 Spark SQL實現自定義聚合函數

概述 spark自定義聚合函數需要繼承一個抽象類UserDefinedAggregateFunction,並需要重寫屬性和方法: inputSchema:函數的參數列表,不過需要寫成StructType的格式 bufferSch

原创 Spark實現自定義累計器

前述 Spark中因爲算子中的真正邏輯是發送到Executor中去運行的,所以當Executor中需要引用外部變量時,需要使用廣播變量。累機器相當於統籌大變量,常用於計數,統計。 注意事項 1、能不能將一個RDD使用廣播變量廣播出

原创 大數據之Azkaba任務調度

概述 爲什麼需要工作流調度系統 1.一個完整的數據分析系統通常都是由大量任務單元組成:shell腳本程序,java程序,mapreduce程序、hive腳本等 2.各任務單元之間存在時間先後及前後依賴關係 3.爲了很好地組織起

原创 CentOS7.0安裝Hadoop

Hadoop簡要介紹 Hadoop 是Apache基金會下一個開源的分佈式計算平臺,它以分佈式文件系統HDFS和MapReduce算法爲核心,爲用戶提供了系統底層細節透明的分佈式基礎架構。 Hadoop生態圖 安裝包下載 h

原创 SpringBoot+RabbitMQ集成

RabbitMQ基本原理 MQ全稱爲Message Queue, 是一種分佈式應用程序的的通信方法,它是消費-生產者模型的一個典型的代表,producer往消息隊列中不斷寫入消息,而另一端consumer則可以讀取或者訂閱隊列中的

原创 Scala編程之Actor

概述 什麼是Actor? 一個actor是一個容器,它包含 狀態, 行爲,信箱,子Actor 和 監管策略,所有這些包含在一個ActorReference(Actor引用)裏。一個actor需要與外界隔離才能從actor模型中獲益,

原创 Hadoop按日期統計訪問次數

MapReduce編程主要組件 InputFormat類:分割成多個splits和每行怎麼解析。 Mapper類:對輸入的每對<key,value>生成中間結果。 Combiner類:在map端,對相同的key進行合併。 Part

原创 K-近鄰算法(KNN)

K-近鄰算法(Knn) 其原理爲在一個樣本空間中,有一些已知分類的樣本,當出現一個未知分類的樣本,則根據距離這個未知 樣本最近的k個樣本來決定。 舉例:愛情電影和動作電影,它們中都存在吻戲和動作,出現一個未知分類的電影,將根