CVPR 2020 | 基於多智能體RL實現多輪連續交互，IteR-MRL使圖像分割算法達到醫用標準...

機器之心專欄

作者：Xuan Liao、Wenhao Li等

如何提高交互式圖像分割算法的效率？上海交大和華師大的研究者提出了一種基於多智能體深度強化學習的新型算法。

現有的交互式圖像分割算法雖然能迭代式地更新分割結果，但很大程度上忽略了對連續交互之間動態性的探索，造成分割效率大大降低。

在 CVPR 2020 的一篇論文中，來自上海交大和華師大的團隊聯合提出了一種基於多智能體深度強化學習（MARL）的新型交互式三維醫療圖像分割算法（IteR-MRL）。通過將迭代更新的交互式圖像分割的動態過程建模成馬爾可夫過程，並使用 MARL 解決，IteR-MRL 實現了更少的交互次數和更快的收斂速度，在多個醫療圖像數據集上超過了現有算法。

論文地址：https://arxiv.org/abs/1911.10334

現有交互式圖像分割策略的缺點

目前的三維圖像自動分割算法很難達到醫用標準。爲了得到更佳的分割結果，交互式的圖像分割策略成爲有價值的研究方向，此類策略通過引入少量的用戶提示實現對分割結果的迭代優化。

現有的交互式算法雖然能迭代式地對分割結果進行多輪更新，但它們仍然獨立地考慮每一輪更新的分割結果，很大程度上忽略了連續交互的動態性。

該研究的貢獻

爲了更好地利用交互式圖像分割的動態性，來自上海交大和華師大的團隊提出了一個基於深度強化學習的算法 IteR-MRL，將交互式醫療圖像分割的動態過程建模成一個馬爾科夫決策過程，然後用深度強化學習求解。該算法從整體上考慮分割更新序列，充分挖掘了交互分割前後的關聯。

由於體素級的圖像分割標註任務會造成單智能體的強化學習算法遭遇探索空間爆炸問題，因此該團隊採用多智能體模型，將每個圖像體素看作一個智能體。通過讓所有智能體共享同一個行爲策略，將探索空間減小到了可行的範圍。多智能體模型還能同時實現圖像體素的合作交互，從而有效地捕捉分割任務中體素之間的依賴性。

該研究的貢獻主要有以下三點：

（1）將交互式圖像分割任務建模成一個馬爾科夫決策過程，提出了全新的基於 MARL 的交互式三維醫療圖像分割框架，使得用戶的交互得到更有效地利用；

（2）通過分割概率的形式來保留分割結果的不確定性，豐富了之前分割結果的信息，也實現了更加精確和精細的分割調整；

（3）實驗表明，通過考慮連續兩次分割結果之間的相對增益，分割效果得到顯著提升，並具備更少的交互次數和更快的收斂速度。

方法概覽

迭代式交互圖像分割方法的流程圖。

該研究採用迭代更新的流程。首先向模型提供初始的粗分割結果（可以來自任意圖像分割算法或不精確的人工標註）。如果當前分割結果不符合預期，則用戶在錯誤區域標註關鍵性的提示信息，更新算法根據用戶提示再次更新分割結果。上述過程不斷迭代，直至用戶對優化後的分割結果滿意爲止。

基於 MARL 的交互式圖像分割框架（IteR-MRL）

IteR-MRL 算法圖示。

在每一步交互更新中，將包含圖像、之前分割結果和提示圖的當前狀態輸入到 FCN 網絡中，然後網絡根據其輸出的動作產生當前的分割結果。接着，用戶根據錯誤區域給出的提示點（紅點），進而生成新的提示圖。每一步的回報值都由環境決定，即分割的預測標籤和正確標籤。在 MARL 的設定中，體素被看作是互相協作的智能體。

1. 狀態設計