谷歌HDR+研讀(四)

5基於示例的自動曝光
 

在下文中,我們將詳細介紹基於示例的自動曝光方法的實現細節。雖然這種處理方式應該對執行自己的自動曝光算法的人有興趣,但我們的經驗是,我們數據庫中大約5,000個場景的標籤質量和場景的多樣性決定了這些工程決策。而且,我們使用的場景描述符的細節很大程度上受到對效率的關注。

 曝光標籤 我們用兩次曝光來標記我們的自動曝光數據庫中的每個場景,短時間曝光高光和長時間曝光陰影,手調整以使用我們的曝光融合變體產生最令人愉快的色調映射結果[Mertens et al 。 2007年]。爲了表示這些曝光,我們使用兩個相應的伽瑪校正圖像的平均像素亮度,其作爲曝光融合的輸入。以這種方式表示曝光有助於將我們的標籤與絕對場景亮度或相機的靈敏度分離。作爲一種改進,我們計算兩次曝光的平均像素亮度。對於短時間曝光,我們使用L2規範(強調高亮度);對於長時間曝光,我們使用L0.5規範(強調陰影)。

場景描述 給定一個原始取景器框架作爲輸入,我們計算一個場景描述符並使用它來在我們的自動曝光數據庫中找到最相似的場景。我們使用的描述符編碼暴露決定所需的基本信息,但也有足夠的表達力來幫助區分場景類別。儘管我們的描述符比用於場景識別的計算機視覺中的典型描述符更簡單,例如[Oliva和Torralba 2001],但它在我們的系統中起着類似的作用。

請注意,消費自動曝光的原始幀會產生比使用色調映射的ISP處理幀更有用的描述符。對於移動設備上的相對廣角相機而言,由於漸暈,角落處的像素值通常比中心處的像素值低2 f-stop。此外,由於綠色通道是最敏感的,紅色和藍色通道值通常比綠色值低1 f-stop。爲了充分利用這種額外的動態範圍,我們的自動曝光方法在應用白平衡增益,鏡頭陰影校正等時保持像素值不變。在正常的成像流水線中,這種方法是不可接受的,因爲它會導致錯誤的顏色在突出顯示中轉移(通常轉向粉紅色)。然而,在自動曝光的情況下,未剪切的信號是有用的。

我們用來構建我們的描述符的核心特徵是空間加權圖像亮度分佈,這是在圖像的積極下采樣版本(25:1)上計算得出的。在下采樣過程中,我們通過多路複用拜耳色彩平面來執行一個簡單的去馬賽克,對兩個綠色通道取平均值。對於我們通常處理的12-13 Mpix輸入,此初始下采樣對應於縮略圖大小的160x120線性RGB圖像。

從這個下采樣圖像開始,我們減去黑色電平並使用ISP建議的白平衡增益,鏡頭陰影校正和3x3色彩校正矩陣(全部沒有限幅)來校正顏色。爲了捕獲多個空間頻率下的信息,我們製作下采樣圖像的副本,並將低通濾波器應用於副本。從這些空間尺度中的每一個,我們進一步下采樣(4:1)並提取兩個單通道圖像:RGB通道的最大值和平均值。我們還計算空間權重:一個固定的權重來支持圖像的中心(3:1,徑向衰減),以及一個強大的增強(40:1),其中檢測到人臉。總的來說,這個處理產生4個單通道線性40×30圖像和相應的權重圖。

接下來,我們對這些下采樣圖像進行歸一化處理,以便我們可以在具有不同亮度的場景之間匹配類似形狀的圖像亮度分佈。爲此,我們取圖像亮度值的對數,計算所有未剪切值的加權平均值,然後減去此平均值。

爲了提高效率,我們實施了兩項優化:

•我們修改第二個(4:1)下采樣操作以輸出每個像素的兩個亮度值。這可以讓我們在保留更高頻率亮度信息的同時更積極地進行降採樣。像往常一樣,我們首先對每個下采樣像素的4x4輸入像素進行平均。然後我們進行第二遍,將像素分成兩組:比平均亮度更亮的那些,以及那些更暗的。最後,我們計算每個組的平均值以及輸入樣本的哪一部分對應於每個組。這種“分裂像素”表示使我們能夠爲給定的下采樣級別生成更高質量的描述符。

•我們使用64個分位數來表示每個下采樣圖像的加權亮度分佈,而不是典型的直方圖。分位數包含足夠的信息來描述場景,但更加緊湊地存儲信息。對於長時間曝光情況,一組中的每個分位數表示加權像素的1/64。然而,在短曝光情況下,代表亮點的前8個分位數對應於更少的加權像素(大約1/512)。這具有雙重效果,即爲精彩部分添加精確度,併爲我們的距離度量指定更多權重。

我們最終的自動曝光描述符是一個256元素矢量,通過將4個下采樣圖像中的每一個的64個分位數連接起來而形成。

距離度量。爲了將輸入圖像匹配到我們的自動曝光數據庫,我們使用描述符之間的L1距離。因爲我們的描述符是從分位數建立的,這對應於地球移動者的距離[Cohen和Guibas 1997]總結了4個基本亮度分佈。在我們的實施中,我們在5,000個場景的數據庫中詳盡搜索,錄製從輸入到每個標記示例的L1距離。

需要額外注意處理剪裁的輸入像素。由於我們標記的示例是從傳統的HDR曝光包圍構建的,因此除了在幀中可見明亮光源時,其直方圖很少包含裁剪。但是,我們的輸入是在ISP控制的查看過程中捕獲的單個原始圖像,因此它通常會包含剪切的像素。爲了解決這個問題,我們跟蹤輸入圖像中剪切的像素部分(至少一個通道),並用它來確定哪些分位數被污染。然後我們在計算L1距離時忽略這些分位數。

混合曝光標籤。爲了確定用於輸入的短期和長期曝光,我們將例子的曝光標籤混合在我們的自動曝光數據庫中
它們匹配輸入。對於給定的標記示例i,我們將其權重計算爲min(max(2-di,0),1),其中di是距離
在輸入描述符和示例之間。這個計劃爲頂部匹配分配1的權重,對於任何距離爲雙倍或更多的示例,權重爲0。正如本文所述,我們也忽略了絕對亮度與當前場景的差異達到8倍以上的例子。這有助於保持對場景亮度的感知,避免例如不自然的日夜演繹。

目標亮度到整體曝光。到目前爲止,我們基於示例的自動曝光爲我們提供了短時間和長時間曝光的目標像素亮度(經過伽馬校正後)。爲了將這些轉化爲當前場景的整體曝光(曝光時間和增益的產物),我們使用我們的整理管道的輕量化模擬。該模擬告訴我們如何調整整體曝光(相對於用於捕捉輸入幀的參數),會影響最終伽馬校正後圖像的平均圖像亮度。由於整體曝光和場景亮度之間的映射是平滑和單調的,因此我們可以通過幾步平分來反轉此功能。

6與JPEG突發融合的比較

在我們的系統中,一個關鍵的設計決策是使用原始圖像作爲我們的對齊和合並算法的輸入,然後完成原始合併結果。使用原始圖像可以提高動態範圍,並簡單而準確地模擬傳感器噪聲。相比之下,大多數先前的突發融合方法,例如[Liu et al。 2014; Dabov等人2007; Maggioni等人2012],會消耗JPEG圖像,這些圖像已由攝影成像管道完成。

爲了將我們的系統與這種基於JPEG的方法進行比較,我們從30個原始猝發數據集開始,併爲所有方法應用相同的原始到JPEG精整管道。對於我們的方法,這意味着像往常一樣對原始連拍進行對齊和合並,但是替換不同的完成流水線。對於基於JPEG的方法,這意味着使用給定的整理管道從原始圖像突發生成JPEG輸入。這種實驗性的方法讓我們專注於對齊和合並算法的性能,而沒有整理流水線的混雜效應,整個流程的調整和整體質量差異很大。

實驗細節 我們用於評估的30個突發數據集是我們的數千個原始突發數據集的一個子集,將在發佈時發佈,幷包括主要論文中對應於圖3-11的10個突發數據集。這些爆發是爲了報道不同類型的場景,運動水平和亮度而拍攝的。這些連發被三種類型的相機捕獲,其原始圖像爲12-13 Mpix。

對於RAW轉JPEG轉換器,我們使用了dcraw [Coffin 2016],接着是質量等級爲98的JPEG編碼,這有效消除了由於壓縮造成的失真。雖然dcraw實現的流水線與Adobe Camera Raw等商業系統相比是基本的,但其可預測性和缺乏局部色調映射是分析的優勢。此外,由dcraw實現的AHD去馬賽克方法[Hirakawa和Parks 2005]在實踐中運行良好,是移動ISP使用的算法的代表。由於DNG格式和dcraw對顏色元數據的處理的限制,結果中的顏色再現有點令人滿意,但效果在各種方法中是一致的。另請注意,有些陣陣曝光不足。這來自我們對HDR場景的捕捉策略,以及由dcraw應用的保守全局色調映射,它將白色電平設置在第99百分位。

我們將我們的方法與來自學術文獻的幾種最先進的基於JPEG的連拍融合方法進行了比較:Liu等人提出的突發去噪方法的兩種變體。 [2014]以及CV-BM3D [Dabov et al。 2007年]。對於[Liu et al。 2014],作者使用他們的實現來處理我們的數據集,保持所有結果的固定設置。對於3個手動選擇的連拍,作者使用全局色調映射曲線使輸入變亮,與[Liu et al。 2014]爲處理“極端低光”場景。對於CV-BM3D,我們從BM3D網頁1運行作者的Matlab實現。由於此方法不包含自動設置關鍵噪聲水平參數的機制,因此我們對17個不同噪聲級別進行了網格搜索,並手動選擇了結果,這在視覺上似乎是降噪和細節丟失之間的最佳折衷。我們也嘗試與V-BM4D進行比較[Maggioni et al。 2012],但作者的實施無法處理我們的12-13 Mpix連拍。

爲了說明商用工具的性能,我們還將Adobe Photoshop CC 2015.1.2 [Adobe Inc. 2016]中基於JPEG的“Merge to HDR Pro”功能與啓用“ghost removal”的功能進行了比較,不再進行色調映射。雖然這個Pho-toshop功能也支持合併原始圖像,但我們發現HDR輸出不適合輸入到dcraw,因爲它已經部分應用了攝影處理。在我們的實驗中,Photo shop的JPEG和基於原始的結果在性質上是相似的,所以我們只在這個比較中包含基於JPEG的結果。我們還嘗試了Lightroom CC 2015中的“照片合併HDR”功能,但我們發現當輸入圖像全部具有相同的曝光時,此功能不具有去噪效果;輸出中的每個像素顯然都是從單個輸入幀導出的。

連拍融合結果總結我們在所有30種突發輔助材料中包含所有方法的全分辨率圖像結果,以便以1:1的放大倍數進行詳細檢查。這裏我們總結一下我們的高級研究結果,在圖3-5中給出了幾個說明性的爆發結果。這些數字中的作物大約爲600×600,所以我們鼓勵讀者積極地放大(300%或更多)以欣賞精細的像素級差異。

•一般來說,我們評估的所有方法都能夠處理由於相機抖動引起的平滑運動,從而獲得合理明亮的場景。隨着移動主體,更復雜的遮擋關係或光線較暗的場景,性能開始下降。

•我們發現Photoshop的合併功能是所有方法中最保守的,只實現了非常有限的去噪。 Photoshop最着名的工件是剪切像素區域的強烈彩色鬼魂。它也有時在重運動的邊界產生薄的“回聲”。

•[Liu et al。 2014]在運動邊界處顯示僞影,其中不同的合併量導致殘留噪聲水平的不連續性。這兩種方法偶爾也會出現鬼影僞影。在某些場景中,我們也發現了基於像素的快速變體[Liu et al。 2014]也顯示對比度的顯着損失,可能是由於金字塔混合中的問題。

•CV-BM3D對於30-脈衝串數據集的運動具有強大的表現力,產生典型的小波去噪結果,沒有任何可以明確歸因於運動的僞影。根據所選的噪音水平,結果可能看起來過於嘈雜或過平滑,但通常可獲得合理的平衡,但需要花費一些細節。對於較高的噪聲水平,殘差小波基函數在結果中有時可以在像素尺度上看到,並且孤立的熱像素有時通過去噪視覺上被誇大。

•我們的對齊和合並方法,如CV-BM3D,對運動非常穩健,30個數據集中沒有令人反感的僞影。當對齊確實發生故障時,我們的方法將優雅地分解到基本框架,並且所產生的去噪有時會出現運動模糊。在細節保存和去噪方面,我們的方法通常在此比較中主宰所有其他方法。我們將這一成功歸因於我們的穩健合併方法和通過處理原始圖像而啓用的精確噪聲模型。

提醒一下,此評估只是對齊和合並質量的比較。我們的論文代表了從捕捉策略到精加工的低光照和HDR成像的整個系統,該系統可在移動設備上高效運行,並可靠地生成無僞像結果。

運行時性能如表1所示,這些突發融合方法的性能在幾個數量級上差別很大。儘管平臺差異使得運行時間比較具有挑戰性,但很顯然,我們的方法和更快的基於像素的變體[Liu et al。 2014]比比較中的所有其他方法至少快一個數量級。在調整平臺差異後,我們的方法和基於像素的變體[Liu et al。 2014]仍然有大致相當的表現。但是,由於它們的實現不使用SIMD,它們可能有很大的優化空間。


7與原始突發融合的比較

從原始輸入開始的突發融合方法比從JPEG開始的突發融合方法更少見。迄今爲止,先前的基於原始的突發融合方法集中在聯合去馬賽克和合並多幀的益處上,例如[Farsiu et al。 2006; Heide等人2014],利用亞像素對準來恢復拜耳欠採樣損失的高頻成分。雖然我們的基於原始的方法比這些方法快幾個數量級,但我們對欠採樣的處理不夠精細 - 將像素對齊到2像素的倍數,並依靠我們強大的合併來處理混疊問題 - 限制了我們可以在最好的規模。

爲了將我們的系統與以前的原始突發融合方法進行比較,我們使用最近的FlexISP方法[Heide et al。 2014]作爲代表性例子,並在我們的小數據集上運行我們的方法。

實驗細節用於突發融合的FlexISP數據集包含5個脈衝串,分辨率範圍從0.4-1.8MPix,由降採樣或剪切更高分辨率的輸入幀生成。其中,2連發是合成的,通過翹曲和噪音添加到地面真實原始圖像中創建。額外的2次連發是來自靜態場景的18MPixdSLR圖像手持序列的小作物。最終的爆發是用3MPix機器視覺相機拍攝的手持人像序列中的一部分。沒有一個突發包含重要的場景動作或運動模糊。原始輸入框架由FlexISP作者提供。

請注意,雖然FlexISP論文[Heide et al。 2014]和輔助材料似乎暗示,否則所有FlexISP圖像爆裂融合結果僅使用每個爆發中的前8個圖像作爲輸入[Heide和Kautz 2016]。因此,我們限制我們使用每個爆發的前8個圖像的方法。

我們的方法和FlexISP之間最直接的比較將涉及保持原始到JPEG整理流水線不變(除了集成在FlexISP中的去馬賽克)。不幸的是,這種直接比較僅適用於合成爆發,原始到JPEG完成純粹由去馬賽克組成。對於FlexISP數據集中的其他爆發,線性預色調映射的FlexISP結果不可用,我們也無法完美地再現FlexISP的顏色和色調映射。儘管這種不匹配,視覺比較仍然是信息。

爆裂融合結果彙總我們在補充材料中包含所有5個爆發的結果,以便以1:1的放大倍數進行詳細檢查。我們還包括與BM3D的比較[Dabov et al。 2007]應用於去馬賽克的第一幀,FlexISP在其所有結果之前用作去噪[Heide和Kautz 2016]。在這裏,我們總結了我們的高級研究結果,圖6-8顯示了這些爆發中的3個結果。

•沒有結果顯示由於運動造成的僞影。這是預期的,因爲該數據集不包括重要的場景運動,運動模糊或由於相機運動引起的視差。除了人像(圖8)以外,FlexISP數據集中的所有連發都是靜態場景,人像場景中的動作溫和。

•用簡單的時間平均替代我們強大的時間合併產生了更多的去噪,沒有鬼影僞影,並且只有輕微的細節丟失。這表明我們的對齊方法適用於輕微運動的場景。這兩種合併策略之間的差異還說明了我們強大的合併行爲有多保守,特別是在信噪比非常低的場景中(圖6)。

•BM3D會產生過度平滑的結果,殘差小波基函數有時可見。這種去噪水平反映了FlexISP作者選擇的調整;噪音和細節之間的其他折衷也是可能的。也許更平滑的調整使得BM3D作爲FlexISP之前的降噪更有效。

•對於信噪比非常低的場景(圖6),我們的方法比FlexISP或BM3D的去噪更不積極。部分這是一個美學選擇。對於我們的方法通常處理的12-13 Mpix圖像,這種空間尺度下的亮度噪聲一般不會令人反感。我們減少的去噪也遵循一種保守的合併方法,旨在處理現實世界的場景運動。

•對於SNR低的場景(圖6-7),FlexISP可恢復輸入圖像中不可見的精細細節。儘管我們的去噪較弱,但BM3D和我們的方法都沒有恢復儘可能多的細節。這證明了亞像素對齊和聯合去馬賽克處理欠採樣的價值。然而,目前還不清楚這些結果在多大程度上歸結爲更逼真的場景。由於場景是平面的(圖6)或幾乎如此(圖7),因此FlexISP用於初始化其對齊的全局單應矩陣很好地解釋了子像素對齊[Heide and Kautz 2016]。

•對於具有中等信噪比的一個真實場景(圖8),我們的方法恢復了與FlexISP類似的細節量,並且聯合去馬賽克似乎不具備優勢。雖然很難從一次突發概括出來,但這可能反映了這樣的事實,即突發在SNR和空間範圍上更接近我們系統通常處理的輸入。

運行時性能FlexISP報告16路圖像[原文如此] 0.4MPix burst(總計6.4 Mpix)的時序。由於所有FlexISP突發融合圖像結果均使用BM3D作爲先前的去噪[Heide and Kautz 2016],因此我們將其與相應的定時進行比較。對於FlexISP的GPU實現,通過減少迭代次數和加速BM3D的近似值進行了優化,它們在250W桌面GPU上報告0.82秒,在11W平板電腦上報告爲16.7秒。假設線性縮放與輸入像素的數量相匹配,以匹配我們的系統處理的133 Mpix突發(表1),FlexISP的調整後的性能在桌面上爲14.5秒,在平板上爲295秒。相比之下,我們的系統需要1.8秒才能完成相應的工作量(對齊和合併爲1.7秒,從表1加上0.1秒進行去馬賽克)。總之,我們在2W移動CPU上的方法分別比桌面和平板電腦上的FlexISP快8.0倍和164倍。在每瓦性能基礎上,我們的方法分別比臺式機和平板電腦上的FlexISP高出約1000倍和900倍。


圖3:中等運動的低光場景下的爆發融合結果。 爲了便於閱讀,農作物一直更加明亮。 鼓勵讀者積極放大(300%或更多)。 我們的方法有效去噪,同時保留所有方法的最佳細節。 在對齊不成功的地方(最右邊作物中的前景人物),我們的結果會降低到出現運動模糊。 CV-BM3D可恢復較少的細節併產生稍微斑點的外觀,但運動時表現穩健。 Photoshop具有很小的去噪效果,可能是由於過於保守的去眼鏡效果。 [Liu et al。 2014]展示鬼影(面對中等作物),並顯示在運動邊界附近去噪量的不連續性(最右邊的作物)


圖4:突發融合結果,對於運動較大的室內場景。 鼓勵讀者積極放大(300%或更多)。 我們的方法在保留細節的同時進行去噪處理,並且儘管運動量大且輸入模糊,但沒有顯示合併的僞影。 CV-BM3D表現相當,但保留了更多的噪音。 Photoshop具有很小的去噪效果,可能是由於過於保守的去眼鏡效果。 [Liu et al。 2014]結果從不同的和更清晰的框架中獲取大多數圖像內容,但是融合後的結果被過度平滑,顯示出嚴重的後調和塊狀僞影(面部和腳部,最左側的兩個作物),並且還顯示出重影(最左邊的作物上的襯衫上的肉色, 在最右邊的作物上引導的橙色木質紋理)。


圖5:突變融合結果,用於運動變化明亮的戶外場景。 鼓勵讀者積極放大(300%或更多)。 對於這個明亮且相對較低的動態範圍場景而言,合併對於捕獲單個輸入幀提供了有限的改進。 我們的方法CV-BM3D和Photoshop的表現相當,其中去噪效果在低質感區域最爲明顯。 但是,Photoshop在裁剪的像素區域(中間裁剪)中引入了強烈的彩色重像僞影。 [Liu et al。 2014]展示塊狀文物(靠近左邊男人的背部,最左邊的作物),並犧牲比其他方法更細緻的細節。 基於像素的變體也會產生這種爆發(所有作物)的朦朧結果,也許與金字塔混合方法有關。


圖6:對於非常嘈雜的0.4 Mpix合成示例的原始突發融合結果。 每個突發幀都是通過用全局單應矩陣翹曲地面真實圖像生成的,然後添加合成噪聲。 鼓勵讀者放大.FlexISP恢復其他方法中不可見的精細細節(孤立的頭髮,衣服上的質地細膩,葉子上的條紋)。 用簡單的時間平均替代我們強大的時間合併產生了明顯更強的去噪,顯示了我們的穩健合併在像這樣的低SNR場景中的保守性。 雖然我們的方法恢復較少的細節,但它比FlexISP快幾個數量級。


圖7:使用ISO 12800的15 Mpix dSLR捕獲的0.8 Mpix作品的非常黑暗的靜態室內場景的原始爆裂融合結果。場景的裁剪部分幾乎是平面的。 鼓勵讀者放大.FlexISP恢復其他方法中不可見的精細細節(油漆罐上的小文本,其他方法不可見)。 用簡單的時間平均代替我們強大的時間合併增加了去噪的強度,但是損失了細節的輕微損失。 雖然我們的方法恢復較少的細節,但它比FlexISP快幾個數量級


圖8:使用3 Mpix機器視覺相機拍攝的1.8 Mpix黑色室內肖像作品的原始突發融合結果,具有輕微的自然場景運動。 鼓勵讀者放大。在這個例子中,我們的方法恢復了與FlexISP類似的細節。 我們的方法所表現出的良好對比度的改善部分歸因於我們的精整管線的銳化。 用一個簡單的時間平均代替我們強大的時間合併增加了去噪的強度並減少了色度混疊(分辨率圖,中間作物),但損失了細節的輕微損失。 在FlexISP結果中,前額(最左邊的裁剪)上的綠色像素僞像是由輸入中的熱點像素引起的。 由於去馬賽克造成的混淆現象在所有方法中都可見,我們的方法顯示出輕微的色度混疊,而BM3D和FlexISP顯示交叉影線圖案(右側區域分辨率圖表,中間裁剪)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章