谷歌通過概念向量來影響圖像搜索

谷歌最近公佈了“與你相像的醫療圖像”(Similar Medical Images Like Yours,SMILY)工具的研究工作進展,這個工具使用概念向量來增強醫療圖像的搜索。這項研究工作使用embedding技術進行基於圖像的搜索,用戶可以通過概念交互細化來影響搜索。

谷歌先後發表了兩篇論文。第一篇論文“組織病理學的相似圖像搜索:SMILY”(Similar Image Search for Histopathology: SMILY)關注的是深層神經網絡架構,主要用於創建搜索相似圖像所需的embedding。第二篇論文“在醫療決策過程中處理不完美算法的工具”(Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making)集中在人類交互方面,以便提升在第一篇論文中提及的工具的使用。用戶可以調整圖像中的概念數量,而這反過來通過增強embedding中的位置來影響相似圖像的選擇。

用於創建embedding的深度神經網絡是一種叫作深度排名網絡的架構。該網絡由三個並行的神經網絡組成,分別接收三個獨立的輸入。第一個神經網絡獲取被搜索的圖像,第二個神經網絡獲取與第一個同類的圖像,第三個神經網絡獲取不同類別的圖像。這三個網絡都會創建embedding,並經過訓練,用以縮短同類圖像與不同類圖像之間的距離。這個神經網絡架構可以爲300×300像素的圖像生成128維的embedding。谷歌表示:

我們使用大約5億張18000不同類別的“自然圖像”(例如狗、貓、樹、人造物體等)來訓練我們的網絡,因此它學會了通過計算和比較輸入圖像的embedding來區分相似和不同的圖像。

在第一篇論文“組織病理學的相似圖像搜索:SMILY”中,谷歌展示了用戶選擇圖像片段,爲圖像片段創建embedding,然後使用K近似算法從embedding空間檢索相似的圖像。但他們發現,用戶在搜索相似圖像時無法傳達搜索意圖,限制了工具的參與度。因此,第二篇論文繼續進行深入研究,以改進交互搜索。

在第二篇論文“在醫療決策過程中處理不完美算法的工具”中,谷歌引入了一個稱爲“按概念進行細化”的特性,以此來改進這個工具。這個特性使用embedding維度中的方向來表示概念。選取一組圖像樣本,並對具有概念或相反概念的圖像進行標記,確定方向,然後使用線性分類器在embedding空間中識別平面。然後進一步計算出平面的正交向量,也就是概念的方向。然後,用戶通過影響概念的流行程度對搜索進行補償,這樣會影響所選圖像生成的embedding,進而影響相似圖像的K近似選擇。

原文鏈接

Google Research Into Concept Vectors for Image Search

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章