題目:PointPainting: Sequential Fusion for 3D Object Detection
文章鏈接:
https://arxiv.org/pdf/1911.10150.pdf
思路
在看PointPainting之前有想過把圖像的RGB屬性投影到點雲上,這樣每個點雲就不止有xyzr屬性,還有了RGB屬性,應該對精度提升有幫助,同時又不會有太多計算量。
這個文章剛構思的時候可能也嘗試了上面我講的方法。可能效果提升很小或者負面效果。
於是作者進一步思考,只加入RGB特徵是不是太少了,同時加入圖片的語義信息不是很好嗎。可解釋性也很強,比如人和路標,在點雲中很像,基本上是無法區分的,但是加入了語義信息,二者就容易區分很多了。
流程
- 圖片語義分割
- 點雲特徵融合
- 基於點雲的目標檢測
可能存在的問題
還沒有讀完,自己的疑惑:
- 語義分割標籤(官網上有語義分割的標籤)
- 語義分割精度如果不高的話,反而會起反作用。
- 語義分割精度如何,使用的是不是KITTI數據集上語義分割精度最高的模型。
- 特徵融合的耗費時間多不多?
- 文章中不是端到端的,能否做成端到端的。
類比
PointRCNN和這個方法的共同點是:兩者都想辦法增加點雲的語義信息,PointRCNN是通過點雲語義分割得到點雲的語義信息,而本文的方法是使用圖像增加點雲的語義特徵。
兩者可以同時使用,也就是把圖像特徵作爲PointRCNN的原始輸入。
其他
- 論文中沒有正面回答語義分割耗時多少,而是說採用上一張的圖片作爲當前幀的輸入,對結果幾乎沒有影響。但是無論怎樣,都應該說明耗時到底多少,讓讀者心中有數,而不是避而不談,誘導讀者(說誤導不太合適)。
- 語義分割任務的輸出是一個浮點數,量化成one hot指示類別。兩者都輸入到網絡,作者做了對比實驗,效果差距不大。完全可能是隨機因素造成的。