kafka 0.10.2 快速入門（譯）

Step 1: 下載代碼

下載0.10.2.0版本並且解壓它。

> tar -xzf kafka_2.10-0.10.2.0.tgz

> mv kafka_2.10-0.10.2.0 kafka

> cd kafka

Step 2: 啓動服務

運行kafka需要使用Zookeeper，所以你需要先啓動Zookeeper，如果你沒有Zookeeper，你可以使用kafka自帶打包和配置好的Zookeeper。

> bin/zookeeper-server-start.sh config/zookeeper.properties

現在啓動kafka服務

> bin/kafka-server-start.sh config/server.properties &

Step 3: 創建一個主題(topic)

創建一個名爲“test”的Topic，只有一個分區和一個備份：

> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

創建好之後，可以通過運行以下命令，查看已創建的topic信息：

> bin/kafka-topics.sh --list --zookeeper localhost:2181

> test

或者，除了手動創建topic外，你也可以配置你的broker，當發佈一個不存在的topic時自動創建topic。

Step 4: 發送消息

Kafka提供了一個命令行的工具，可以從輸入文件或者命令行中讀取消息併發送給Kafka集羣。每一行是一條消息。

運行producer（生產者）,然後在控制檯輸入幾條消息到服務器。

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

> This is a message

> This is another message

Step 5: 消費消息

Kafka也提供了一個消費消息的命令行工具，將存儲的信息輸出出來。

> bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning

> This is a message

> This is another message

如果你有2臺不同的終端上運行上述命令，那麼當你在運行生產者時，消費者就能消費到生產者發送的消息。

所有的命令行工具有很多的選項，你可以查看官方文檔來了解更多的功能。

Step 6: 設置多個broker集羣

到目前，我們只是單一的運行一個broker,，沒什麼意思。對於Kafka,一個broker僅僅只是一個集羣中的一個, 所有讓我們多設幾個broker.

首先爲每個broker創建一個配置文件:

> cp config/server.properties config/server-1.properties

> cp config/server.properties config/server-2.properties

現在編輯這些新建的文件，設置以下屬性：

config/server-1.properties:

broker.id=1

listeners=PLAINTEXT://:9093

log.dir=/tmp/kafka-logs-1

config/server-2.properties:

broker.id=2

listeners=PLAINTEXT://:9094

log.dir=/tmp/kafka-logs-2

broker.id是集羣中每個節點的唯一且永久的名稱，我們修改端口和日誌分區是因爲我們現在在同一臺機器上運行，我們要防止broker在同一端口上註冊和覆蓋對方的數據。

我們已經運行了zookeeper和剛纔的一個kafka節點，所有我們只需要在啓動2個新的kafka節點。

> bin/kafka-server-start.sh config/server-1.properties &

> bin/kafka-server-start.sh config/server-2.properties &

現在，我們創建一個新topic，把備份設置爲：3

> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic

好了，現在我們已經有了一個集羣了，我們怎麼知道每個集羣在做什麼呢？運行命令“describe topics”

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic

>

> Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:

>

> Topic: my-replicated-topic Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0

這是一個解釋輸出，第一行是所有分區的摘要，每一個線提供一個分區信息，因爲我們只有一個分區，所有隻有一條線。

"leader"：該節點負責所有指定分區的讀和寫，每個節點的領導都是隨機選擇的。

"replicas":備份的節點，無論該節點是否是leader或者目前是否還活着，只是顯示。

"isr"：備份節點的集合，也就是活着的節點集合。

我們運行這個命令，看看一開始我們創建的那個節點：

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic test

Topic:test PartitionCount:1 ReplicationFactor:1 Configs:

Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0

沒有驚喜，剛纔創建的topic（主題）沒有Replicas（副本），所以是0。

讓我們來發布一些信息在新的topic上：

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my-replicated-topic

>

> my test message 1

>

> my test message 2

現在，消費這些消息。

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --from-beginning --topic my-replicated-topic

>

> my test message 1

>

> my test message 2

我們要測試集羣的容錯，kill掉leader，Broker1作爲當前的leader，也就是kill掉Broker1。

> ps aux | grep server-1.properties

>

> 7564 ttys002 0:15.91 /System/Library/Frameworks/JavaVM.framework/Versions/1.8/Home/bin/java..

>

> kill -9 7564

備份節點之一成爲新的leader，而broker1已經不在同步備份集合裏了。

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic

>

> Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:

>

> Topic: my-replicated-topic Partition: 0 Leader: 2 Replicas: 1,2,0 Isr: 2,0

但是，消息仍然沒丟：

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --from-beginning --topic my-replicated-topic

> ...

> my test message 1

> my test message 2

Step 7: 使用 Kafka Connect 來導入/導出數據

從控制檯寫入和寫回數據是一個方便的開始，但你可能想要從其他來源導入或導出數據到其他系統。對於大多數系統，可以使用kafka Connect，而不需要編寫自定義集成代碼。Kafka Connect是導入和導出數據的一個工具。它是一個可擴展的工具，運行連接器，實現與自定義的邏輯的外部系統交互。在這個快速入門裏，我們將看到如何運行Kafka Connect用簡單的連接器從文件導入數據到Kafka主題，再從Kafka主題導出數據到文件，首先，我們首先創建一些種子數據用來測試：

> echo -e "foo\nbar" > test.txt

接下來，我們開始2個連接器運行在獨立的模式，這意味着它們運行在一個單一的，本地的，專用的進程。我們提供3個配置文件作爲參數。第一個始終是kafka Connect進程，如kafka broker連接和數據庫序列化格式，剩下的配置文件每個指定的連接器來創建，這些文件包括一個獨特的連接器名稱，連接器類來實例化和任何其他配置要求的。

> bin/connect-standalone.sh config/connect-standalone.properties

>

> config/connect-file-source.properties

>

> config/connect-file-sink.properties

這是示例的配置文件，使用默認的本地集羣配置並創建了2個連接器：第一個是導入連接器，從導入文件中讀取併發布到Kafka主題，第二個是導出連接器，從kafka主題讀取消息輸出到外部文件，在啓動過程中，你會看到一些日誌消息，包括一些連接器實例化的說明。一旦kafka Connect進程已經開始，導入連接器應該讀取從

test.txt和寫入topicconnect-test,導出連接器從主題connect-test讀取消息寫入到文件test.sink.txt我們可以通過驗證輸出文件的內容來驗證數據數據已經全部導出：

> cat test.sink.txt

> foo

> bar

注意，導入的數據也已經在Kafka主題connect-test裏,所以我們可以使用該命令查看這個主題：

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic connect-test --from-beginning

> {"schema":{"type":"string","optional":false},"payload":"foo"}

> {"schema":{"type":"string","optional":false},"payload":"bar"}

> ...

連接器繼續處理數據，因此我們可以添加數據到文件並通過管道移動：

> echo "Another line" >> test.txt

你應該會看到出現在消費者控臺輸出一行信息並導出到文件。

Step 8: 使用Kafka Stream來處理數據

Kafka Stream是kafka的客戶端庫，用於實時流處理和分析存儲在kafka broker的數據，這個快速入門示例將演示如何運行一個流應用程序。一個WordCountDemo的例子（爲了方便閱讀，使用的是java8 lambda表達式）

KTable wordCounts = textLines

// Split each text line, by whitespace, into words.

.flatMapValues(value -> Arrays.asList(value.toLowerCase().split("W+")))

// Ensure the words are available as record keys for the next aggregate operation.

.map((key, value) -> new KeyValue<>(value, value))

// Count the occurrences of each word (record key) and store the results into a table named "Counts".

.countByKey("Counts")

它實現了wordcount算法，從輸入的文本計算出一個詞出現的次數。然而，不像其他的WordCount的例子，你可能會看到，在有限的數據之前，執行的演示應用程序的行爲略有不同，因爲它的目的是在一個無限的操作，數據流。類似的有界變量，它是一種動態算法，跟蹤和更新的單詞計數。然而，由於它必須假設潛在的無界輸入數據，它會定期輸出其當前狀態和結果，同時繼續處理更多的數據，因爲它不知道什麼時候它處理過的“所有”的輸入數據。

現在準備輸入數據到kafka的topic中，隨後kafka Stream應用處理這個topic的數據。

> echo -e "all streams lead to kafka\nhello kafka streams\njoin kafka summit" > file-input.txt

接下來，使用控制檯的producer 將輸入的數據發送到指定的topic（streams-file-input）中，（在實踐中，stream數據可能會持續流入，其中kafka的應用將啓動並運行）

> bin/kafka-topics.sh --create \

--zookeeper localhost:2181 \

--replication-factor 1 \

--partitions 1 \

--topic streams-file-input

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic streams-file-input < file-input.txt

現在，我們運行 WordCount 處理輸入的數據：

> bin/kafka-run-class.sh org.apache.kafka.streams.examples.wordcount.WordCountDemo

不會有任何的STDOUT輸出，除了日誌，結果不斷地寫回另一個topic（streams-wordcount-output），demo運行幾秒，然後，不像典型的流處理應用程序，自動終止。

現在我們檢查WordCountDemo應用，從輸出的topic讀取。

> bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 \

--topic streams-wordcount-output \

--from-beginning \

--formatter kafka.tools.DefaultMessageFormatter \

--property print.key=true \

--property print.value=true \

--property key.deserializer=org.apache.kafka.common.serialization.StringDeserializer \

--property value.deserializer=org.apache.kafka.common.serialization.LongDeserializer

輸出數據打印到控臺（你可以使用Ctrl-C停止）：

all 1

streams 1

lead 1

to 1

kafka 1

hello 1

kafka 2

streams 2

join 1

kafka 3

summit 1

第一列是message的key，第二列是message的value，要注意，輸出的實際是一個連續的更新流，其中每條數據（即：原始輸出的每行）是一個單詞的最新的count，又叫記錄鍵“kafka”。對於同一個key有多個記錄，每個記錄之後是前一個的更新。

站內首發文章

code_GK

發佈了25 篇原創文章 · 獲贊 5 · 訪問量 3萬+

私信關注

kafka 0.10.2 快速入門（譯）

Step 1: 下載代碼

Step 2: 啓動服務

Step 3: 創建一個主題(topic)

Step 4: 發送消息

Step 5: 消費消息

Step 6: 設置多個broker集羣

Step 7: 使用 Kafka Connect 來導入/導出數據

Step 8: 使用Kafka Stream來處理數據

python gdal 安裝使用（Windows， python 3.6.8）

sqoop1.4.6命令使用（一）

hadoop is not allowed to impersonate hadoop

sqoop1.4.6安裝部署

linux命令隨筆（1）

linux命令隨筆（5）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

kafka 0.10.2 快速入門（譯）

Step 1: 下載代碼

Step 2: 啓動服務

Step 3: 創建一個主題(topic)

Step 4: 發送消息

Step 5: 消費消息

Step 6: 設置多個broker集羣

Step 7: 使用 Kafka Connect 來 導入/導出 數據

Step 8: 使用Kafka Stream來處理數據

Step 7: 使用 Kafka Connect 來導入/導出數據