台部落定格我的天空

JAVA實現map集合轉成XML格式例如：代碼塊 import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.

2020-06-02 20:22:03

代碼實現 pom.xml文件配置 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoo

2020-06-02 20:22:03

Hadoop簡要介紹 Hadoop 是Apache基金會下一個開源的分佈式計算平臺，它以分佈式文件系統HDFS和MapReduce算法爲核心，爲用戶提供了系統底層細節透明的分佈式基礎架構。 Hadoop生態圖安裝包下載

2020-06-02 20:21:52

SparkStreaming+Kafka的兩種模式receiver模式和Direct模式 Sparkstreming + kafka recevier模式理解 receiver模式理解：在SparkStreaming程序運

2019-10-25 19:42:58

ALS算法流程：初始化數據集和Spark環境切分測試機和檢驗集訓練ALS模型驗證結果檢驗滿足結果，直接推薦商品，否則繼續訓練ALS模型數據集的含義數據根式用戶ID，產品ID，評分 1,11,2 1,12,3

2019-06-24 19:14:15

注: 前面兩個是在hbase-env.sh文件中，其它的都是hbase-site.xml中 HBase Master Maximum Java heap size Hmaster進程最大使用堆空間大小，默認1G，如果內存充裕可調到

2019-06-10 21:45:42

概述 Hive是一個數據倉庫基礎工具在Hadoop中用來處理結構化數據。它架構在Hadoop之上，總歸爲大數據，並使得查詢和分析方便。並提供簡單的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。 Hive 構

2019-06-10 21:45:42

概述 spark自定義聚合函數需要繼承一個抽象類UserDefinedAggregateFunction，並需要重寫屬性和方法: inputSchema：函數的參數列表，不過需要寫成StructType的格式 bufferSch

2019-05-29 20:00:12

前述 Spark中因爲算子中的真正邏輯是發送到Executor中去運行的，所以當Executor中需要引用外部變量時，需要使用廣播變量。累機器相當於統籌大變量，常用於計數，統計。注意事項 1、能不能將一個RDD使用廣播變量廣播出

2019-05-29 20:00:12

概述爲什麼需要工作流調度系統 1.一個完整的數據分析系統通常都是由大量任務單元組成：shell腳本程序，java程序，mapreduce程序、hive腳本等 2.各任務單元之間存在時間先後及前後依賴關係 3.爲了很好地組織起

2019-05-29 20:00:12

Hadoop簡要介紹 Hadoop 是Apache基金會下一個開源的分佈式計算平臺，它以分佈式文件系統HDFS和MapReduce算法爲核心，爲用戶提供了系統底層細節透明的分佈式基礎架構。 Hadoop生態圖安裝包下載 h

2019-05-01 00:49:48

RabbitMQ基本原理 MQ全稱爲Message Queue, 是一種分佈式應用程序的的通信方法，它是消費-生產者模型的一個典型的代表，producer往消息隊列中不斷寫入消息，而另一端consumer則可以讀取或者訂閱隊列中的

2019-04-18 19:13:15

概述什麼是Actor？一個actor是一個容器，它包含狀態，行爲，信箱，子Actor 和監管策略，所有這些包含在一個ActorReference（Actor引用）裏。一個actor需要與外界隔離才能從actor模型中獲益，

2019-04-11 19:06:12

MapReduce編程主要組件 InputFormat類：分割成多個splits和每行怎麼解析。 Mapper類：對輸入的每對<key,value>生成中間結果。 Combiner類：在map端，對相同的key進行合併。 Part

2019-04-10 19:01:08

K-近鄰算法（Knn）其原理爲在一個樣本空間中，有一些已知分類的樣本，當出現一個未知分類的樣本，則根據距離這個未知樣本最近的k個樣本來決定。舉例：愛情電影和動作電影，它們中都存在吻戲和動作，出現一個未知分類的電影，將根

2019-04-10 19:01:08