原创 Redis的集羣指南和配置參數

本文參考了Redis的英文官方指南 http://redis.io/topics/cluster-tutorial 1. 集羣功能 - 能夠自動把數據切分到集羣的各個節點 - 當集羣中的部分節點故障或者無法與集羣通訊時,集羣仍然可以繼續運

原创 Spark編程指南入門之Java篇五-數據重組Shuffle介紹

9. 數據重組Shuffle介紹 Spark的某些操作會觸發數據重組Shuffle事件。Shuffle是Spark對各分區的數據進行重新分佈的機制,是一個複雜而且代價較高的操作,因爲一般需要在執行器和數據節點之間進行數據複製。9.1 背景

原创 Spark編程指南入門之Java篇三-常用Transformations操作

7. 常用的轉換Transformations操作 7.1 JavaRDD JavaRDD<R> map(Function<T,R> f) 將數據集的每一個元素按指定的函數f轉換爲一個新的RDD JavaRDD<T> filter(Fun

原创 Spark編程指南入門之Java篇二-基本操作

4. RDD的操作 4.1 基本操作 RDD有2種類型的操作,一種是轉換transformations,它基於一個存在的數據集創建出一個新的數據集;另一種是行動actions,它通過對一個存在的數據集進行運算得出結果。例如,map方法是轉

原创 Redis的2種持久化方式Snapshot(RDB)和Append-only file(AOF)的配置和對比

- Redis有2種持久化的方式,一種是Snapshot(RDB),就是保存某一時刻的數據在磁盤;另外一種是append-only file(AOF

原创 Kafka Streams實戰-KTable API

本文會介紹: 流和表的關係 數據更新和KTable的配置 聚合、窗口和流表連接 全局KTable 1. 流和表的關係 1.1 數據更新流 假設我們有一個股票價格的數據流,每個數據包含股票的ID,timestamp和股價,要把這些數據寫入到

原创 Kafka Streams實戰-流和狀態

本文會介紹: 有狀態操作 使用狀態存儲 連接兩個流 Kafka Streams的timestamps 1. 有狀態操作 1.1 轉換處理器 KStream.transformValues是最基本的有狀態方法,下圖展示了它工作的原理: 此

原创 Kafka Streams實戰-開發入門

本文會介紹: Kafka Streams APIs Kafka Streams的Hello World例子 深入探索基於Kafka Streams的ZMart應用程序 把輸入流拆分爲多個流 1. Streams APIs Kafka有兩類

原创 Kafka的可靠性數據傳輸

可靠的數據傳輸是系統的一個必要屬性,就像性能一樣,必須從一開始就設計到系統中。Apache Kafka在可靠的數據傳輸方面非常靈活,支持非常多的配置參數。 1. 可靠性保證 當我們討論可靠性時,通常會提到保證這個術語。最著名的可靠性保證A

原创 Spark機器學習之協同過濾算法使用-Java篇

協同過濾通常用於推薦系統,這些技術旨在填補用戶和項目關聯矩陣裏面缺少的值。Spark目前實現基於模型的協同過濾,其中模型的用戶和項目由一組小的潛在因素所描述,可用於預測缺少的值。Spark使用交替最小二乘

原创 HDFS集羣整合Kerberos配置步驟

1 概述本文檔用於HDFS集羣整合Kerberos配置的詳細步驟說明,版本分別爲2.7.3和1.16。2 前提條件假設已有安裝配置好的HDFS集羣和YARN,本文使用4臺服務器,角色分別爲:192.168.1.10:NameNode、Se

原创 SparkSQL編程指南之Java篇二-數據源(上)

Spark SQL通過DataFrame接口支持各種不同數據源的操作。一個DataFrame可以進行相關的轉換操作,也可以用於創建臨時視圖。註冊DataFrame爲一個臨時視圖可以允許你對其數據執行SQL

原创 Spark集羣安裝配置步驟

本文使用3臺測試服務器,下面是各服務器的角色: - node1:Worker - node2:Worker - node3:Master, Worker1. 配置hosts文件 本文使用RedHat是在

原创 官方HDFS架構設計原理說明(上)

玩了HDFS已經有好多年了,之前一直都是邊學邊用,直到現在才真正有時間記錄一下學到的知識O(∩_∩)O 1. 引言 HDFS全稱是Hadoop Distributed File System,Hadoop分佈式文件系統,顧名思義它是一個分

原创 官方HDFS架構設計原理說明(下)

玩了HDFS已經有好多年了,之前一直都是邊學邊用,直到現在才真正有時間記錄一下學到的知識O(∩_∩)O 6. 文件系統元數據的持久化 HDFS的命名空間是由命名節點NameNode來存儲的。NameNode使用了一個叫EditLog的事務