Kafka日記(二)Kafka的安裝和使用

##kafka安裝和啓動

****kafka的背景知識已經講了很多了,讓我們現在開始實踐吧,假設你現在沒有KafkaZooKeeper環境。
此篇摘自http://orchome.com,更多資料可以訪問查看。

Step 1: 下載代碼

下載1.1.0版本並且解壓它。

> tar -xzf kafka_2.11-1.1.0.tgz
> cd kafka_2.11-1.1.0

Step 2: 啓動服務

運行kafka需要使用Zookeeper,所以你需要先啓動Zookeeper,如果你沒有Zookeeper,你可以使用kafka自帶打包和配置好的Zookeeper。

> bin/zookeeper-server-start.sh config/zookeeper.properties
[2013-04-22 15:01:37,495] INFO Reading configuration from: config/zookeeper.properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig)
...

現在啓動kafka服務

> bin/kafka-server-start.sh config/server.properties &
[2013-04-22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties)
[2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 (kafka.utils.VerifiableProperties)
...

Step 3: 創建一個主題(topic)

創建一個名爲“test”的Topic,只有一個分區和一個備份:

> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

創建好之後,可以通過運行以下命令,查看已創建的topic信息:

> bin/kafka-topics.sh --list --zookeeper localhost:2181
test

或者,除了手工創建topic外,你也可以配置你的broker,當發佈一個不存在的topic時自動創建topic。

Step 4: 發送消息

Kafka提供了一個命令行的工具,可以從輸入文件或者命令行中讀取消息併發送給Kafka集羣。每一行是一條消息。
運行producer(生產者),然後在控制檯輸入幾條消息到服務器。

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
This is a message
This is another message

Step 5: 消費消息

Kafka也提供了一個消費消息的命令行工具,將存儲的信息輸出出來。

> bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning
This is a message
This is another message

如果你有2臺不同的終端上運行上述命令,那麼當你在運行生產者時,消費者就能消費到生產者發送的消息。

Step 6: 設置多個broker集羣

到目前,我們只是單一的運行一個broker,沒什麼意思。對於Kafka,一個broker僅僅只是一個集羣的大小,所有讓我們多設幾個broker。

首先爲每個broker創建一個配置文件:

> cp config/server.properties config/server-1.properties 
> cp config/server.properties config/server-2.properties

現在編輯這些新建的文件,設置以下屬性:

config/server-1.properties: 
    broker.id=1 
    listeners=PLAINTEXT://:9093 
    log.dir=/tmp/kafka-logs-1

config/server-2.properties: 
    broker.id=2 
    listeners=PLAINTEXT://:9094 
    log.dir=/tmp/kafka-logs-2

broker.id是集羣中每個節點的唯一且永久的名稱,我們修改端口和日誌目錄是因爲我們現在在同一臺機器上運行,我們要防止broker在同一端口上註冊和覆蓋對方的數據。

我們已經運行了zookeeper和剛纔的一個kafka節點,所有我們只需要在啓動2個新的kafka節點。

> bin/kafka-server-start.sh config/server-1.properties &
... 
> bin/kafka-server-start.sh config/server-2.properties &
...

現在,我們創建一個新topic,把備份設置爲:3

> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic

好了,現在我們已經有了一個集羣了,我們怎麼知道每個集羣在做什麼呢?運行命令“describe topics”

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic    PartitionCount:1    ReplicationFactor:3    Configs:
Topic: my-replicated-topic    Partition: 0    Leader: 1    Replicas: 1,2,0    Isr: 1,2,0

輸出解釋:第一行是所有分區的摘要,其次,每一行提供一個分區信息,因爲我們只有一個分區,所以只有一行。

  • “leader”:該節點負責該分區的所有的讀和寫,每個節點的leader都是隨機選擇的。
  • “replicas”:備份的節點列表,無論該節點是否是leader或者目前是否還活着,只是顯示。
  • “isr”:“同步備份”的節點列表,也就是活着的節點並且正在同步leader。

我們運行這個命令,看看一開始我們創建的那個節點:

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic test
Topic:test    PartitionCount:1    ReplicationFactor:1    Configs:
Topic: test    Partition: 0    Leader: 0    Replicas: 0    Isr: 0

這並不奇怪,剛纔創建的主題沒有Replicas,並且在服務器“0”上,我們創建它的時候,集羣中只有一個服務器,所以是“0”。

讓我們來發布一些信息在新的topic上:

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my-replicated-topic
 ...
my test message 1
my test message 2
^C

現在,消費這些消息。

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --from-beginning --topic my-replicated-topic
 ...
my test message 1
my test message 2
^C

我們要測試集羣的容錯,kill掉leader,Broker1作爲當前的leader,也就是kill掉Broker1。

> ps | grep server-1.properties
7564 ttys002    0:15.91 /System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home/bin/java... 
> kill -9 7564

在Windows上使用:

> wmic process where "caption = 'java.exe' and commandline like '%server-1.properties%'" get processid
ProcessId
6016
> taskkill /pid 6016 /f

備份節點之一成爲新的leader,而broker1已經不在同步備份集合裏了。

> bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic    PartitionCount:1    ReplicationFactor:3    Configs:
Topic: my-replicated-topic    Partition: 0    Leader: 2    Replicas: 1,2,0    Isr: 2,0

但是,消息仍然沒丟:

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --from-beginning --topic my-replicated-topic
...
my test message 1
my test message 2
^C

Step 7: 使用 Kafka Connect 來 導入/導出 數據

從控制檯寫入和寫回數據是一個方便的開始,但你可能想要從其他來源導入或導出數據到其他系統。對於大多數系統,可以使用kafka Connect,而不需要編寫自定義集成代碼。

Kafka Connect是導入和導出數據的一個工具。它是一個可擴展的工具,運行連接器,實現與自定義的邏輯的外部系統交互。在這個快速入門裏,我們將看到如何運行Kafka Connect用簡單的連接器從文件導入數據到Kafka主題,再從Kafka主題導出數據到文件。

首先,我們首先創建一些“種子”數據用來測試,(ps:種子的意思就是造一些消息,片友秒懂?):

echo -e "foo\nbar" > test.txt

windowns上:

> echo foo> test.txt
> echo bar>> test.txt

接下來,我們開始2個連接器運行在獨立的模式,這意味着它們運行在一個單一的,本地的,專用的進程。我們提供3個配置文件作爲參數。首先是Kafka Connect處理的配置,包含常見的配置,例如要連接的Kafka broker和數據的序列化格式。其餘的配置文件都指定了要創建的連接器。包括連接器唯一名稱,和要實例化的連接器類。以及連接器所需的任何其他配置。

> bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties config/connect-file-sink.properties

kafka附帶了這些示例的配置文件,並且使用了剛纔我們搭建的本地集羣配置並創建了2個連接器:第一個是源連接器,從輸入文件中讀取併發布到Kafka主題中,第二個是接收連接器,從kafka主題讀取消息輸出到外部文件。

在啓動過程中,你會看到一些日誌消息,包括一些連接器實例化的說明。一旦kafka Connect進程已經開始,導入連接器應該讀取從

test.txt

和寫入到topic

connect-test

,導出連接器從主題

connect-test

讀取消息寫入到文件

test.sink.txt

. 我們可以通過驗證輸出文件的內容來驗證數據數據已經全部導出:

more test.sink.txt
 foo
 bar

注意,導入的數據也已經在Kafka主題

connect-test

裏,所以我們可以使用該命令查看這個主題:

bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic connect-test --from-beginning
 {"schema":{"type":"string","optional":false},"payload":"foo"}
{"schema":{"type":"string","optional":false},"payload":"bar"}
...

連接器繼續處理數據,因此我們可以添加數據到文件並通過管道移動:

echo "Another line" >> test.txt

你應該會看到出現在消費者控臺輸出一行信息並導出到文件

Step 8: 使用Kafka Stream來處理數據

Kafka Stream是kafka的客戶端庫,用於實時流處理和分析存儲在kafka broker的數據,這個快速入門示例將演示如何運行一個流應用程序。一個WordCountDemo的例子(爲了方便閱讀,使用的是java8 lambda表達式)

KTable wordCounts = textLines
    // Split each text line, by whitespace, into words.
    .flatMapValues(value -> Arrays.asList(value.toLowerCase().split("W+")))

    // Ensure the words are available as record keys for the next aggregate operation.
    .map((key, value) -> new KeyValue<>(value, value))

    // Count the occurrences of each word (record key) and store the results into a table named "Counts".
    .countByKey("Counts")

它實現了wordcount算法,從輸入的文本計算出一個詞出現的次數。然而,不像其他的WordCount的例子,你可能會看到,在有限的數據之前,執行的演示應用程序的行爲略有不同,因爲它的目的是在一個無限的操作,數據流。類似的有界變量,它是一種動態算法,跟蹤和更新的單詞計數。然而,由於它必須假設潛在的無界輸入數據,它會定期輸出其當前狀態和結果,同時繼續處理更多的數據,因爲它不知道什麼時候它處理過的“所有”的輸入數據。

現在準備輸入數據到kafka的topic中,隨後kafka Stream應用處理這個topic的數據。

> echo -e "all streams lead to kafka\nhello kafka streams\njoin kafka summit" > file-input.txt

接下來,使用控制檯的producer 將輸入的數據發送到指定的topic(streams-file-input)中,(在實踐中,stream數據可能會持續流入,其中kafka的應用將啓動並運行)

> bin/kafka-topics.sh --create \
            --zookeeper localhost:2181 \
            --replication-factor 1 \
            --partitions 1 \
            --topic streams-file-input
> cat /tmp/file-input.txt | ./bin/kafka-console-producer --broker-list localhost:9092 --topic streams-file-input

現在,我們運行 WordCount 處理輸入的數據:

> ./bin/kafka-run-class org.apache.kafka.streams.examples.wordcount.WordCountDemo

不會有任何的STDOUT輸出,除了日誌,結果不斷地寫回另一個topic(streams-wordcount-output),demo運行幾秒,然後,不像典型的流處理應用程序,自動終止。

現在我們檢查WordCountDemo應用,從輸出的topic讀取。

> ./bin/kafka-console-consumer --zookeeper localhost:2181 
            --topic streams-wordcount-output 
            --from-beginning 
            --formatter kafka.tools.DefaultMessageFormatter 
            --property print.key=true 
            --property print.key=true 
            --property key.deserializer=org.apache.kafka.common.serialization.StringDeserializer 
            --property value.deserializer=org.apache.kafka.common.serialization.LongDeserializer

輸出數據打印到控臺(你可以使用Ctrl-C停止):

all     1
streams 1
lead    1
to      1
kafka   1
hello   1
kafka   2
streams 2
join    1
kafka   3
summit  1
^C

第一列是message的key,第二列是message的value,要注意,輸出的實際是一個連續的更新流,其中每條數據(即:原始輸出的每行)是一個單詞的最新的count,又叫記錄鍵“kafka”。對於同一個key有多個記錄,每個記錄之後是前一個的更新。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章