背景

基於Kafka消息隊列的兩級協調調度架構

Kafka內部爲了協調內部的consumer和kafka connector的工作實現了一個複製協議，主要工作分爲兩個步驟：

通過worker(consumer或connect)獲取自身的topic offset等元數據信息，交給kafka的broker完成Leader/Follower選舉
worker Leader節點獲取到kafka存儲的partation和member信息，來進行二級分配，實現結合具體業務的負載均衡分配

從功能實現上兩級調度，一級調度負責將Leader選舉，二級調度則是worker節點完成每個成員的任務的分配

主要是學習這種架構設計思想，雖然這種方案場景非常有限

基於消息隊列實現分佈式協調設計

一級協調器設計：一級協調器主要是指的Coordinator部分，通過記錄成員的元數據信息，來進行Leader選舉，比如根據offset的大小來決定誰是Leader
二級協調器設計：二級協調器主要是指的Leader任務分配部分， worker節點獲取到所有的任務和節點信息，就可以根據合適的算法來進行任務的分配，最終廣播到消息隊列

值得我們學習的地方，通常在kafka這種場景下，如果要針對不同的業務實現統一調度，還是蠻麻煩的，所以比如將具體任務的分配工作從架構中遷移出去，在broker端只負責通用層的Leader選舉即可，將具體業務的分配工作，從主業務架構分離出去，由具體業務去實現

代碼實現

核心設計

根據設計，我們抽象出: MemoryQueue、Worker、 Coordinator、GroupRequest、GroupResponse、Task、Assignment集合核心組件

MemoryQueue: 模擬消息隊列實現消息的分發，充當kafka broker角色
Worker: 任務執行和具體業務二級協調算法
Coordinator: 位於消息隊列內部的一個協調器，用於Leader/Follower選舉
Task: 任務
Assignment: Coordnator根據任務信息和節點信息構建的任務分配結果
GroupRequest: 加入集羣請求
GroupResponse: 響應信息

MemoryQueue

核心數據結構

// MemoryQueue 內存消息隊列
type MemoryQueue struct {
    done             chan struct{}
    queue            chan interface{}
    wg               sync.WaitGroup
    coordinator      map[string]*Coordinator
    worker           map[string]*Worker
}

其中coordinator用於標識每個Group組的協調器，爲每個組都建立一個分配器

節點加入集羣請求處理

MemoryQueue 接收事件類型，然後根據事件類型進行分發，如果是GroupRequest事件，則分發給handleGroupRequest進行處理
handleGroupRequest內部先獲取對應group的coordinator，然後根據當前信息buildGroupResponse發回消息隊列

事件分發處理

func (mq *MemoryQueue) handleEvent(event interface{}) {
    switch event.(type) {
    case GroupRequest:
        request := event.(GroupRequest)
        mq.handleGroupRequest(&request)
    case Task:
        task := event.(Task)
        mq.handleTask(&task)
    default:
        mq.Notify(event)
    }
    mq.wg.Done()
}

加入Group組請求處理

其中Coordnator會調用自己的getLeaderID方法，來根據當前組內的各成員的信息來選舉一個Leader節點

// getGroupCoordinator 獲取指定組的協調器
func (mq *MemoryQueue) getGroupCoordinator(group string) *Coordinator {
    coordinator, ok := mq.coordinator[group]
    if ok {
        return coordinator
    }
    coordinator = NewCoordinator(group)
    mq.coordinator[group] = coordinator
    return coordinator
}

func (mq *MemoryQueue) handleGroupRequest(request *GroupRequest) {
    coordinator := mq.getGroupCoordinator(request.Group)
    exist := coordinator.addMember(request.ID, &request.Metadata)
    // 如果worker之前已經加入該組, 就不做任何操作
    if exist {
        return
    }
    // 重新構建請求信息
    groupResponse := mq.buildGroupResponse(coordinator)
    mq.send(groupResponse)
}

func (mq *MemoryQueue) buildGroupResponse(coordinator *Coordinator) GroupResponse {
    return GroupResponse{
        Tasks:       coordinator.Tasks,
        Group:       coordinator.Group,
        Members:     coordinator.AllMembers(),
        LeaderID:    coordinator.getLeaderID(),
        Generation:  coordinator.Generation,
        Coordinator: coordinator,
    }
}

Coordinator

核心數據結構

// Coordinator 協調器
type Coordinator struct {
    Group      string
    Generation int
    Members    map[string]*Metadata
    Tasks      []string
    Heartbeats map[string]int64
}

Coordinator內部通過Members信息，來存儲各個worker節點的元數據信息，然後Tasks存儲當前group的所有任務, Heartbeats存儲workerd額心跳信息， Generation是一個分代計數器，每次節點變化都會遞增

通過offset選舉Leader

通過存儲的worker的metadata信息，來進行主節點的選舉

// getLeaderID 根據當前信息獲取leader節點
func (c *Coordinator) getLeaderID() string {
    leaderID, maxOffset := "", 0
    // 這裏是通過offset大小來判定，offset大的就是leader, 實際上可能會更加複雜一些
    for wid, metadata := range c.Members {
        if leaderID == "" || metadata.offset() > maxOffset {
            leaderID = wid
            maxOffset = metadata.offset()
        }
    }
    return leaderID
}

Worker

核心數據結構

// Worker 工作者
type Worker struct {
    ID          string
    Group       string
    Tasks       string
    done        chan struct{}
    queue       *MemoryQueue
    Coordinator *Coordinator
}

worker節點會包含一個coordinator信息，用於後續向該節點進行心跳信息的發送

分發請求消息

worker接收到不同的事件類型，根據類型來進行處理, 其中handleGroupResponse負責接收到服務端Coordinator響應的信息，裏面會包含leader節點和任務信息，由worker 來進行二級分配, handleAssign則是處理分配完後的任務信息

// Execute 接收到分配的任務進行請求執行
func (w *Worker) Execute(event interface{}) {
    switch event.(type) {
    case GroupResponse:
        response := event.(GroupResponse)
        w.handleGroupResponse(&response)
    case Assignment:
        assign := event.(Assignment)
        w.handleAssign(&assign)
    }
}

GroupResponse根據角色類型進行後續業務邏輯

GroupResponse會將節點分割爲兩種：Leader和Follower, Leader節點接收到GroupResponse後需要繼續進行分配任務，而Follower則只需要監聽事件和發送心跳

func (w *Worker) handleGroupResponse(response *GroupResponse) {
    if w.isLeader(response.LeaderID) {
        w.onLeaderJoin(response)
    } else {
        w.onFollowerJoin(response)
    }
}

Follower節點

Follower節點進行心跳發送

// onFollowerJoin 當前角色是follower
func (w *Worker) onFollowerJoin(response *GroupResponse) {
    w.Coordinator = response.Coordinator
    go w.heartbeat()
}
// heartbeat 發送心跳
func (w *Worker) heartbeat() {
    // timer := time.NewTimer(time.Second)
    // for {
    //     select {
    //     case <-timer.C:
    //         w.Coordinator.heartbeat(w.ID, time.Now().Unix())
    //         timer.Reset(time.Second)
    //     case <-w.done:
    //         return
    //     }
    // }
}

Leader節點

Leader節點這個地方我將調度分配分爲兩個步驟：
1）通過節點數和任務數將任務進行分片
2）將分片後的任務分配給各個節點，最終發送回隊列

// onLeaderJoin 當前角色是leader, 執行任務分配併發送mq
func (w *Worker) onLeaderJoin(response *GroupResponse) {
    fmt.Printf("Generation [%d] leaderID [%s]\n", response.Generation, w.ID)
    w.Coordinator = response.Coordinator
    go w.heartbeat()
    // 進行任務分片
    taskSlice := w.performAssign(response)

    // 將任務分配給各個worker
    memerTasks, index := make(map[string][]string), 0
    for _, name := range response.Members {
        memerTasks[name] = taskSlice[index]
        index++
    }

    // 分發請求
    assign := Assignment{LeaderID: w.ID, Generation: response.Generation, result: memerTasks}
    w.queue.send(assign)
}

// performAssign 根據當前成員和任務數
func (w *Worker) performAssign(response *GroupResponse) [][]string {

    perWorker := len(response.Tasks) / len(response.Members)
    leftOver := len(response.Tasks) - len(response.Members)*perWorker

    result := make([][]string, len(response.Members))

    taskIndex, memberTaskCount := 0, 0
    for index := range result {
        if index < leftOver {
            memberTaskCount = perWorker + 1
        } else {
            memberTaskCount = perWorker
        }
        for i := 0; i < memberTaskCount; i++ {
            result[index] = append(result[index], response.Tasks[taskIndex])
            taskIndex++
        }
    }

測試數據

啓動一個隊列，然後加入任務和worker，觀察分配結果

    // 構建隊列
    queue := NewMemoryQueue(10)
    queue.Start()

    // 發送任務
    queue.send(Task{Name: "test1", Group: "test"})
    queue.send(Task{Name: "test2", Group: "test"})
    queue.send(Task{Name: "test3", Group: "test"})
    queue.send(Task{Name: "test4", Group: "test"})
    queue.send(Task{Name: "test5", Group: "test"})

    // 啓動worker, 爲每個worker分配不同的offset觀察是否能將leader正常分配
    workerOne := NewWorker("test-1", "test", queue)
    workerOne.start(1)
    queue.addWorker(workerOne.ID, workerOne)

    workerTwo := NewWorker("test-2", "test", queue)
    workerTwo.start(2)
    queue.addWorker(workerTwo.ID, workerTwo)

    workerThree := NewWorker("test-3", "test", queue)
    workerThree.start(3)
    queue.addWorker(workerThree.ID, workerThree)

    time.Sleep(time.Second)
    workerThree.stop()
    time.Sleep(time.Second)
    workerTwo.stop()
    time.Sleep(time.Second)
    workerOne.stop()

    queue.Stop()

運行結果: 首先根據offset, 最終test-3位Leader, 然後查看任務分配結果，有兩個節點2個任務，一個節點一個任務，然後隨着worker的退出，又會進行任務的重新分配

Generation [1] leaderID [test-1]
Generation [2] leaderID [test-2]
Generation [3] leaderID [test-3]
Generation [1] worker [test-1]  run tasks: [test1||test2||test3||test4||test5]
Generation [1] worker [test-2]  run tasks: []
Generation [1] worker [test-3]  run tasks: []
Generation [2] worker [test-1]  run tasks: [test1||test2||test3]
Generation [2] worker [test-2]  run tasks: [test4||test5]
Generation [2] worker [test-3]  run tasks: []
Generation [3] worker [test-1]  run tasks: [test1||test2]
Generation [3] worker [test-2]  run tasks: [test3||test4]
Generation [3] worker [test-3]  run tasks: [test5]
Generation [4] leaderID [test-2]
Generation [4] worker [test-1]  run tasks: [test1||test2||test3]
Generation [4] worker [test-2]  run tasks: [test4||test5]
Generation [5] leaderID [test-1]
Generation [5] worker [test-1]  run tasks: [test1||test2||test3||test4||test5]

總結

其實在分佈式場景中，這種Leader/Follower選舉，其實更多的是會選擇基於AP模型的consul、etcd、zk等，本文的這種設計，與kafka自身的業務場景由很大的關係，後續有時間，還是繼續看看別的設計，從kafka connet借鑑的設計，就到這了

未完待續
關注公共號: 布衣碼農

更多精彩內容可以查看www.sreguide.com

Kafka兩級調度實現分佈式協調微服務任務分配Golang版

背景

基於Kafka消息隊列的兩級協調調度架構

基於消息隊列實現分佈式協調設計

代碼實現

核心設計

MemoryQueue

核心數據結構

節點加入集羣請求處理

事件分發處理

加入Group組請求處理

Coordinator

核心數據結構

通過offset選舉Leader

Worker

核心數據結構

分發請求消息

GroupResponse根據角色類型進行後續業務邏輯

Follower節點

Leader節點

測試數據

總結

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

nuget添加readme

微服務註冊中心註冊表與hashcode實現golang版

Kafka兩級調度實現分佈式協調微服務任務分配Golang版

基於2PC和延遲更新完成分佈式消息隊列多條事務Golang版本

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結