台部落煉心_

本文參考了Redis的英文官方指南 http://redis.io/topics/cluster-tutorial 1. 集羣功能 - 能夠自動把數據切分到集羣的各個節點 - 當集羣中的部分節點故障或者無法與集羣通訊時，集羣仍然可以繼續運

2020-02-25 01:38:50

9. 數據重組Shuffle介紹 Spark的某些操作會觸發數據重組Shuffle事件。Shuffle是Spark對各分區的數據進行重新分佈的機制，是一個複雜而且代價較高的操作，因爲一般需要在執行器和數據節點之間進行數據複製。9.1 背景

2020-02-25 01:38:50

7. 常用的轉換Transformations操作 7.1 JavaRDD JavaRDD<R> map(Function<T,R> f) 將數據集的每一個元素按指定的函數f轉換爲一個新的RDD JavaRDD<T> filter(Fun

2020-02-25 01:38:50

4. RDD的操作 4.1 基本操作 RDD有2種類型的操作，一種是轉換transformations，它基於一個存在的數據集創建出一個新的數據集；另一種是行動actions，它通過對一個存在的數據集進行運算得出結果。例如，map方法是轉

2020-02-25 01:38:50

- Redis有2種持久化的方式，一種是Snapshot(RDB)，就是保存某一時刻的數據在磁盤；另外一種是append-only file(AOF

2020-02-25 01:38:50

本文會介紹：流和表的關係數據更新和KTable的配置聚合、窗口和流表連接全局KTable 1. 流和表的關係 1.1 數據更新流假設我們有一個股票價格的數據流，每個數據包含股票的ID，timestamp和股價，要把這些數據寫入到

2019-02-01 16:39:51

本文會介紹：有狀態操作使用狀態存儲連接兩個流 Kafka Streams的timestamps 1. 有狀態操作 1.1 轉換處理器 KStream.transformValues是最基本的有狀態方法，下圖展示了它工作的原理：此

2018-12-14 16:03:27

本文會介紹： Kafka Streams APIs Kafka Streams的Hello World例子深入探索基於Kafka Streams的ZMart應用程序把輸入流拆分爲多個流 1. Streams APIs Kafka有兩類

2018-11-14 00:05:10

可靠的數據傳輸是系統的一個必要屬性，就像性能一樣，必須從一開始就設計到系統中。Apache Kafka在可靠的數據傳輸方面非常靈活，支持非常多的配置參數。 1. 可靠性保證當我們討論可靠性時，通常會提到保證這個術語。最著名的可靠性保證A

2018-09-18 01:03:32

協同過濾通常用於推薦系統，這些技術旨在填補用戶和項目關聯矩陣裏面缺少的值。Spark目前實現基於模型的協同過濾，其中模型的用戶和項目由一組小的潛在因素所描述，可用於預測缺少的值。Spark使用交替最小二乘

2018-08-22 01:50:33

1 概述本文檔用於HDFS集羣整合Kerberos配置的詳細步驟說明，版本分別爲2.7.3和1.16。2 前提條件假設已有安裝配置好的HDFS集羣和YARN，本文使用4臺服務器，角色分別爲：192.168.1.10：NameNode、Se

2018-08-22 01:50:33

Spark SQL通過DataFrame接口支持各種不同數據源的操作。一個DataFrame可以進行相關的轉換操作，也可以用於創建臨時視圖。註冊DataFrame爲一個臨時視圖可以允許你對其數據執行SQL

2018-08-22 01:50:33

本文使用3臺測試服務器，下面是各服務器的角色： - node1：Worker - node2：Worker - node3：Master, Worker1. 配置hosts文件本文使用RedHat是在

2018-08-22 01:50:33

玩了HDFS已經有好多年了，之前一直都是邊學邊用，直到現在才真正有時間記錄一下學到的知識O(∩_∩)O 1. 引言 HDFS全稱是Hadoop Distributed File System，Hadoop分佈式文件系統，顧名思義它是一個分

2018-08-22 01:50:33

玩了HDFS已經有好多年了，之前一直都是邊學邊用，直到現在才真正有時間記錄一下學到的知識O(∩_∩)O 6. 文件系統元數據的持久化 HDFS的命名空間是由命名節點NameNode來存儲的。NameNode使用了一個叫EditLog的事務

2018-08-22 01:50:33