谷歌HDR+研讀（二）

谷歌HDR+研讀（一）

4對齊框架

在我們的高分辨率流水線中，對齊包括從我們突發的每個交替（非參考）幀到所選參考幀的密集對應。這種通信問題已經得到充分研究，解決方案包括光流[Horn和Schunk 1981;盧卡斯和卡納德1981]，它在光滑性和亮度恆定性假設下進行迭代優化，最近的技術使用補丁或特徵描述符來構建和“密集”稀疏對應[Liu et al。 2011; Brox和Malik 2011]，或者使用圖像矯正和直接推理幾何和遮擋[Yamaguchi et al。 2014。在計算機視覺文獻中，光學流量技術主要通過建立基準的質量來評估[Baker et al。 2011; Menze和Geiger 2015]。因此，大多數技術都會生成高質量的通信信息，但是在提交時，計算成本很高，KITTI光流基準[Menze and Geiger 2015]的前5項技術需要每Mpix 1.7到107分鐘在桌面環境中。

不幸的是，我們對速度，內存和功耗的嚴格限制幾乎排除了所有這些技術。但是，由於我們的合併程序（第5節）對於小的和粗略的對齊錯誤都很強大，我們可以構建一個簡單的算法來滿足我們的要求。就像視頻壓縮系統一樣[Wiegand et al。 2003]，我們的方法旨在平衡計算成本和通信質量。我們的對齊算法在移動設備上每Mpix 24毫秒運行。我們使用類似於[Lewis 1995]的頻域加速度方法以及精心的工程來實現這一性能。

參考幀選擇 爲了解決由手和場景運動引起的模糊，根據基於原始輸入的綠色通道中的梯度的簡單度量，我們選擇參考幀爲突發子集中最銳利的幀。這遵循被稱爲幸運成像的一般策略[Joshi and Cohen 2010]。爲了最小化感知的快門時滯，我們從脈衝串的前3幀中選擇參考幀。

處理原始圖像 因爲我們的輸入包含拜耳原始圖像，所以對齊會帶來特殊的挑戰。原始圖像的四個顏色平面欠採樣，使對齊成爲不適合的問題。儘管我們可以對輸入進行去馬賽克，以估計每個像素的RGB值，但即使在所有突發幀上使用低質量的去馬賽克，運行起來也會非常昂貴。我們通過估計位移只能達到2個像素的倍數來繞過這個問題。受此約束的位移具有取代拜耳樣品具有重合顏色的便利特性。實際上，我們的方法將欠採樣問題推遲到我們的合併階段，其中由於混疊而引起的圖像不匹配被視爲與任何其他形式的未對齊相同。我們通過平均2×2塊Bayer RGGB樣本來實施該策略，以便我們調整降採樣的3 Mpix灰度圖像而不是12 Mpix原始圖像。

分層對齊 爲了將替代幀與我們的參考幀對齊，我們在下采樣到灰色原始輸入的四級高斯金字塔上執行從粗到精的對齊。如圖5所示，我們使用來自較粗糙比例的對齊作爲初始猜測，爲每個金字塔等級生成基於圖塊的對齊。每個參考圖塊的對齊方式是最小化以下距離度量的偏移量，以將其與備用圖像中的候選圖塊相關聯：

其中T是參考圖像的瓦片，I是替代圖像的較大搜索區域，p是用於對準的範數（1或2，稍後討論）的功率，n是瓦片的大小（8或 16，稍後討論）和（u0，v0）是由金字塔較粗糙層級的瓦片繼承的初始對齊。

等式1中的模型暗示了關於脈衝運動的幾個假設。我們假定分段平移，這在貼片接近單個像素時是有限的，但對於較大的貼片可能是一個限制性假設。通過最小化圖像塊之間的絕對誤差，而不是最大化正常化的互相關，我們不會改變亮度和對比度。然而，這不是一個缺點，因爲相機曝光是固定的，並且照明不可能在我們的突發持續時間內快速改變。

圖5：（a）一對3 Mpix灰度圖像。（b）我們多尺度對齊的中間和最終輸出，色調和飽和度表示位移的方向和大小（見插圖色環）。在最好的金字塔級別（右下角），圖塊爲32×32像素，最大位移爲64像素。飽和顏色的大區域表明分層算法是必不可少的; 我們的方法支持高達169像素的位移。儘管我們的位移包含錯誤，但它們便於計算並且足夠準確，可用作我們合併階段的輸入。

當粗對準跨越對象或運動邊界時，將粗對準上採樣到金字塔的下一個水平面具有挑戰性。特別是，當初始猜測周圍的搜索區域中沒有表示上採樣瓦片的最佳位移時，最近鄰居和雙線性內插等標準上採樣方法可能會失敗。在我們的系統中，我們通過評估每個上採樣對齊的多個假設來解決這個問題，選擇參考幀和交替幀之間的最小L1殘差對齊。我們以3個最近的粗尺度貼圖作爲候選對象，最近的相鄰貼圖加上每個維度中次最近的貼圖。這種方法在精神上與SimpleFlow類似[Tao et al。 2012]，它也使用圖像內容來通知上採樣。

在我們的方法中，我們對等式1中的抽取，色塊大小，搜索半徑以及標準的選擇做出了許多啓發式決策。一個關鍵決定是根據金字塔尺度進行不同的對齊。特別是，在粗尺度下，我們計算子像素對齊，最小化L2殘差，並使用大的搜索半徑。亞像素對齊在粗尺度上是有價值的，因爲它增加了初始化的準確性並允許積極的金字塔決定。在我們金字塔最好的規模下，我們改爲計算像素級別的對齊，最小化L1殘差，並將自己限制在一個小的搜索範圍內。這裏只需要像素級對齊，因爲我們當前的合併過程不能使用子像素對齊。更詳細的解釋這些決定，再加上描述如何用暴力實施快速計算D1，可以在補充中找到。

4.1快速子像素L2對齊

在粗尺度下，因爲我們使用更大的搜索半徑，所以只計算方程1將會非常昂貴。我們用算法技術解決這個問題，以更有效地計算D2。類似於可以加速歸一化互相關的方式[Lewis 1995]，方程1的L2版本可以用盒式濾波器和卷積來計算：

其中第一項是T的平方元素的總和，第二項是用尺寸爲n×n（與T的尺寸相同）的非歸一化盒濾波器過濾的I的平方元素，並且第三項與I和T的互相關成正比，用快速傅立葉變換有效地計算。有關完整的推導，請參閱補充資料。

計算出D2後，識別最小化位移誤差的整數位移（u，v）是便宜的。爲了產生運動的亞像素估計，我們將一個二元多項式擬合到（u，v）周圍的3×3窗口，並找出該多項式的最小值。這改善了擬合兩個可分離函數的標準方法[Stone et al。通過避免假設運動獨立地受限於各自的軸。在形式上，我們近似於：

其中A是2×2正半定矩陣，b是2×1向量，
c是標量。我們構造一個加權最小二乘問題
將多項式擬合到以（u，v）爲中心的D2的3×3補丁。求解這個系統相當於把D2的內積乘以一組6個3×3濾波器，這些濾波器是在補充中導出的，每個濾波器對應於（A，b，c）中的一個自由參數。該過程類似於[Farneba¨ck2002]的多項式展開法。一旦我們恢復了二次方的參數，它的最小值通過完成平方來完成：

向量μ表示必須添加到我們的整數位移（u，v）中的子像素轉換。

5合併幀

連拍攝影的關鍵前提是我們可以通過結合隨着時間的多個場景觀察來實現降噪。但是，爲了在攝影應用中有用，我們的合併方法必須對齊失敗時很有用。如圖6所示，雖然對齊對於幫助補償相機和物體運動很重要，但我們不能單獨依靠對齊，這可能會由於各種原因（例如遮擋，非剛性運動或照明變化）而失敗。

考慮到我們的性能目標，我們開發了一種合併方法，該方法基於對輸入切片進行操作的成對頻域時間濾波器，可以對未對齊進行強健的處理。在我們的設置中，引用中的每個圖塊都與從每個替換幀中獲取的一個圖塊合併，對應於我們的對齊結果。我們的方法通常使用來自Bayer原始輸入顏色平面的16×16瓦片，但對於非常黑暗的場景，低頻噪聲可能令人反感，我們使用32×32瓦片代替。

我們的方法從頻域視頻消噪技術中獲得靈感，這些技術可以在3D疊加匹配圖像補丁上運行[Kokaram 1993; Bennett和McMillan 2005; Dabov等人2007年a]。特別是Kokaram [1993]提出了一個經典的變體在3D DFT域進行維納濾波，衰減較小的係數更可能是噪聲。 V-BM3D [Dabov et al。 2007a]採用了類似的方法，將維納濾波器和類似運算符重新解釋爲有利於稀疏性的“收縮”運算符，該稀疏性是變換域中自然圖像的統計特性。該系列的技術對未對準很有效，因爲對於給定的空間頻率，任何不能歸因於預期噪聲水平的參考失配都將被抑制。

最近的傅里葉連拍累積方法[Delbracio和Sapiro 2015]使用類似的原理，但是在整個連拍中結合頻率內容更積極，以減少由於長時間曝光造成的運動模糊。在極端情況下，這種方法包括在突發中獲取每個空間頻率的最大值。我們認爲保留參考框架的運動模糊作爲攝影的一個有用特徵。而且，我們將曝光不足和幸運成像組合在一起使不必要的運動模糊變得不那麼常見。

雖然我們的合併方法繼承了頻域去噪的好處，但它以幾種方式偏離了以前的方法。首先，因爲我們處理原始圖像，所以我們有一個簡單的模型來描述圖像中的噪點。這通過讓我們更可靠地區分對齊失敗和噪聲來提高魯棒性。其次，我們不是在時間維上應用DFT或其他正交變換，而是使用更簡單的成對過濾器，將每個替代幀獨立地合併到參考幀上。雖然這種方法爲良好對齊的圖像犧牲了一些降噪功能，但通過對齊失敗來計算和降級會更便宜（參見圖7）。第三，由於該濾波器僅在時間維上運行，我們在單獨的後處理步驟中運行空間去噪，應用於2D DFT。第四，我們將濾鏡獨立應用於拜耳原始圖像的顏色平面，然後將濾波後的結果重新解釋爲新的拜耳圖像。這種方法雖然簡單但卻令人驚訝，但即使我們忽略拜耳解樣採樣，也幾乎沒有退化。在下文中，我們將詳細介紹這些要點並討論可能導致極端情況的工件。

噪聲模型和平鋪近似 因爲我們使用拜耳原始數據，所以噪聲對於每個像素都是獨立的，並且採用簡單的，與信號相關的形式。特別是，對於x的信號電平，噪聲方差σ可以表示爲Ax + B，接着是光子計數的泊松分佈物理過程[Healey和Kondepudy 1994]。參數A和B僅取決於我們直接控制的鏡頭的模擬和數字增益設置。爲了驗證這種傳感器噪聲模型，我們憑經驗測量了噪聲如何隨着不同的信號電平和增益設置而變化。

在應用我們濾波的變換域中，直接使用信號相關模型的噪聲是不切實際的，因爲DFT需要表示完整的協方差矩陣。儘管可以通過對輸入應用方差穩定變換來解決這個問題[Majekitalo and Foi 2013]，但爲了提高計算效率，我們將噪聲逼近爲給定圖塊內的獨立信號。對於每個圖塊，我們通過使用單個值（即圖塊中樣本的均方根（RMS））評估我們的噪聲模型來計算方差。使用RMS可將信號估計值偏向較亮的圖像內容。對於低對比度瓷磚，這與使用平均值相似;高對比度瓷磚將被更積極地過濾，就好像它們具有更高的平均信號電平。

強大的成對時間合併 我們的合併方法在空間頻率域上的圖像瓦片上運行。對於一個給定的參考瓦片，我們在該脈衝串上組裝一組相應的瓦片，每幀一個，並且計算它們各自的2D DFT作爲Tz（ω），其中ω=（ωx，ωy）表示空間頻率，z是幀索引，並且在不失一般性的情況下，我們以0幀爲參考。

如果我們的方法與其他基於頻率的去噪方法不同，則我們在時間維度上對幀進行配對處理。爲了建立直覺，在時間維度上合併的簡單方法是計算每個頻率係數的平均值。這種天真的平均濾波器可以被認爲是表達對去噪參考幀的估計：

雖然這在對齊成功的情況下表現良好，但對於對齊失敗並不穩健（參見圖6c）。由於2D DFT是線性的，因此該濾波器實際上等同於空間域中的時間平均值。

爲了增加魯棒性，我們改爲構造類似於等式5的表達式，但是包含了一個濾波器，可以讓我們控制交替幀的貢獻：

對於給定的頻率，Az控制我們將交替幀z合併到最終結果與返回參考幀的程度。這個總和的主體可以被重寫爲（1-Az）•Tz + Az•T0 以強調Az在Tz和T0之間控制線性。由於每個替代幀的貢獻是基於每個頻率進行調整的，所以對齊失敗可能是部分的，因爲一個空間頻率的被拒絕圖像內容不會破壞其他頻率。

我們現在剩下的任務是定義Az以衰減與參考不匹配的頻率係數。特別是，當Tz與T0的差異歸因於噪聲時，我們希望Tz對合並結果作出貢獻，當Tz由於對齊不良或其他問題而不同於T0時，Tz的貢獻將被抑制。換句話說，Az是一個縮小操作符。我們對Az的定義是經典Wiener濾波器的變體：

其中Dz（ω）= T0（ω）-Tz（ω），噪聲方差σ2由我們的噪聲模型提供，並且c是考慮到Dz構造中的噪聲方差的縮放的常數並且包括進一步的調諧因素（在我們的實施中，固定爲8）增加了噪聲降低，但以一些魯棒性爲代價。 Dz的構造將2D DFT樣本的數量的噪聲方差縮放n倍，對於窗函數（稍後描述）爲1/42的因子，並且將其定義爲2的因子作爲兩個瓦片的差異。我們嘗試了幾種可選的縮小算子，如硬閾值和軟閾值[Donoho 1995]，並且發現這種濾波器可以在降噪強度和視覺僞像之間提供最佳平衡。

我們發現我們的成對時間算子產生比完整3D DFT更高質量的圖像，特別是在對齊失敗的情況下。如圖7所示，單個不良對齊的框架使整個DFT變換域非稀疏，導致收縮算子拒絕來自所有交替幀的貢獻，而不是僅差對齊的貢獻。相比之下，我們的臨時操作員獨立評估每個替代幀的貢獻，讓我們在對齊失敗時更優雅地降級。我們的時態濾波還具有計算更便宜並且需要更少內存的優點。在進行下一步之前，可以計算並丟棄每個替代幀的貢獻。

圖7：對齊失敗的時間過濾行爲。

爲了說明，我們通過對單個噪聲像素（σ= 4）進行採樣來創建玩具序列。對齊成功（左列）時，與參考（第0幀）的所有差異均歸因於噪聲。在良好對齊的情況下，DFT域信號強烈集中在DC bin中。對於DFT（c）和我們強大的成對合並（e），應用類似於等式7的逐點縮小算子可以抑制噪聲。如（a）所示，參考幀處的濾波輸出信號非常接近真實信號。當對齊不成功時（右列），即使存在單個異常值（第5幀），兩個方法的行爲也會不同。在DFT域（d）中，異常值將所有係數提高到噪聲水平之上，即使信號非稀疏，這降低了收縮的有效性。相反，我們的成對時間濾波器（f）允許收縮對除了未對齊的幀之外的所有圖像都有效。最終的結果是，我們強大的成對合並具有比DFT更多的去噪，產生更接近真實信號（b）的輸出信號。對於DFT，單個異常值足以使結果保守地降低到噪聲參考信號。

空間去噪。由於我們上面的成對時間濾波器不執行任何空間濾波，因此我們將空間濾波應用爲2D DFT域中的單獨後處理步驟。從時間濾波結果開始，我們通過將與方程7相同形式的逐點收縮算子應用於空間頻率係數來執行空間濾波。爲了保守，我們通過假設所有N幀完美平均來限制去噪的強度。因此，我們將噪聲方差的估計更新爲σ2/ N。與人類視覺系統的經典研究一致，我們發現，我們可以比較低空間頻率內容更積極地過濾高空間頻率內容，而不會引入明顯的人爲因素。因此，我們應用了一個“噪聲整形”函數σ〜= f（ω）σ，該函數將有效噪聲電平調整爲ω的函數，從而增大其頻率的大小。我們通過定義一個分段線性函數來表示這個函數，將其調整爲最大化主觀圖像質量而不是SNR。

合併拜耳原料。請注意，到目前爲止，我們已經按照單通道圖像展示了我們的合併算法。但是，如上所述，我們的輸入和輸出都包含拜耳鑲嵌原始圖像。我們的設計以最簡單的方式處理原始圖像：我們使用常見的局部平移對齊方式獨立合併Bayer圖像的每個平面，並且我們不使用拜耳平面中比像素級更精確的對齊方式。調整到更高的精度將需要對齊和合並的插值，這將顯着增加計算成本。雖然我們的方法是快速有效的，但它不如多幀去馬賽克算法（例如[Farsiu et al.2006]）複雜，旨在恢復丟失拜耳欠採樣的高頻內容。
由於拜耳色彩平面欠採樣4倍，人們可能悲觀地認爲75％的幀會被平均拒絕，從而影響去噪。雖然我們的魯棒濾波器確實會拒絕不符合我們的噪聲模型的鋸齒圖像內容，但這種拒絕只發生在每個DFT bin的基礎上，並且混疊問題可能侷限於DFT bin的子集。在圖6中可以觀察到相同的行爲，儘管對齊不良（圖6c，底部），但我們的魯棒時間濾波器能夠在不引入任何可見重影的情況下顯着降低噪聲（圖6d，底部）。

重疊瓷磚 我們的合併方法在每個空間維度上重疊一半的瓷磚上進行操作。通過在重疊的瓷磚之間平滑地混合，我們避免了在瓷磚邊界處的視覺上令人討厭的不連續性。此外，我們必須將窗函數應用於切片，以避免在DFT域中操作時出現邊緣僞影。對於0≤x <n，我們使用修正的升餘弦窗口，1 - 1 cos（2π（x + 1）/ n），否則爲0。這與傳統定義不同：首先，餘弦變元的分母是n，而不是n-1。與傳統窗口不同，當使用n / 2個重疊樣本重複此功能時，所有圖塊的總貢獻總和爲每個位置一個。其次，窗口移動了一半以避免由修改後的分母導致的窗口中的零。窗口中的零點對應於對輸出沒有貢獻的像素，這意味着我們可以使用更小的圖塊大小（與相關聯的計算節省）來實現相同的結果。

僞影。我們觀察到由這個系統產生的幾類僞影。首先，如圖8所示，該濾波器往往無法抑制強烈高對比度特徵周圍的噪聲。這是高對比度特徵在空間DFT域中具有非稀疏表示的結果，降低了空間去噪的有效性。

其次，因爲我們的縮放功能從未完全拒絕對齊不良的瓷磚，所以有時會出現輕微的重影僞影，如圖9所示。根據我們的經驗，這些重影僞影很微妙，並且很難與運動模糊區分開來。

最後，我們的濾波器偶爾會產生通常與頻域濾波器相關的振鈴僞影。雖然振鈴通過我們的窗口化方法大大緩解，但在具有挑戰性的情況下，特別是在通過精加工管道中的銳化和其他步驟進行放大之後，可以看到分類吉布斯現象。在鄰近的低對齊的剪輯高光區域中，最常見的是鈴聲，這些高光顯示出高時空對比度。根據我們的經驗，響鈴對大多數場景的視覺效果可以忽略不計。

鹹魚半條

發佈了47 篇原創文章 · 獲贊 118 · 訪問量 39萬+

私信關注

谷歌HDR+研讀（二）

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

HTML 00 Tutorial

皮膚美白算法

谷歌HDR+研讀（四）

谷歌HDR+研讀（三）

Coursera吳恩達《卷積神經網絡》課程筆記（4）-- 人臉識別與神經風格遷移

Coursera吳恩達《卷積神經網絡》課程筆記（3）-- 目標檢測

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結