向量相似度度量(三):科普-爲什麼度量方式很重要


同樣,這個解釋來自於前述文章提到的論文。可能初做這個技術領域的人不是很在乎如何度量,只是找一個差不多的把系統搭起來。其實度量的好壞直接影響着最後的效果。下面的圖示可以很好的闡述這一點。

首先,我們看兩組直方圖,

  • 圖(a)使用了bin-by-bin的直方圖比較方式L1距離,即每個bin和另一個直方圖的對應bin作比較,絕對值求和。左圖的兩個直方圖距離爲4,右圖爲2,顯然L1距離顯示左圖中的兩個直方圖相似性要弱於右圖。
  • 圖(b)使用了cross-bin的直方圖比較方式quadratic-form distance,這個距離考慮的bin之間的關係,公式如下。它的比較結果依然會認爲左圖相似性弱於右圖。



但是,按照兩種距離度量的機制,我們可以比較容易的思考到,下圖比較方式會更加合理。圖(c)顯示,如果是bin和bin比較,那麼稍微錯一格進行比較,豈不是很完美?圖(d)也同樣,cross-bin的比較這樣比會更加合理。

爲什麼左圖的一對直方圖是很相似呢?從圖像的例子可以很容易的理解。大家知道圖像的8bit灰度值是0-255,如果直方圖是32個bin,代表對圖像做量化,量化步長爲8。如果有個圖像像素值是128(灰不溜秋的顏色),量化後(這裏方便起見直接除以8了)屬於bin=16。但是如果另一個另一個圖像的像素值是129,我們直觀看起來都會覺得這倆像素長得太像了,但是直方圖的結果卻是歸到了bin=17。這就帶來了上述例子的結果,圖像很相似,但是距離反而不小。



這篇文章很科普,很傻瓜,不過感覺很直觀能表達一個道理,權當一片文章吧。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章