在SAR-Opt數據融合領域針對深度學習的SEN1-2數據集

The SEN1-2 Dataset for Deep Learning in SAR-Optical Data Fusion

Jul 2018 by M. Schmitt & L. H. Hughes & X. X. Zhu

(一)

關鍵詞

合成孔徑雷達(SAR)、光學遙感(optical remote sensing)、哨兵一號、哨兵二號、深度學習、數據融合

      0. 摘要

雖然在許多技術領域,深度學習爆發了一波影響力,但是在遙感領域生成足夠大量的訓練數據仍然是一個很有挑戰性的難題,尤其是涉及到來自於多種傳感器的帶有異質特徵的數據。舉一個例子,合成孔徑雷達(SAR)的數據和光學影像的融合就很能說明問題。在這篇文章中,我們推出了一個SEN1-2數據集,用來爲將深度學習應用到SAR-Opt數據融合領域提供助力。SEN1-2容納了 282,384 對兒(pairs of)呈對應關係的圖像塊兒(patches),空間上,來自全球,時間上則囊括了每一個氣象季節。拋開對數據集的詳細描述不談,我們還展示了幾個實例性的實際應用,像是SAR圖像着色、SAR-Opt圖像匹配,還包括把輸入的SAR圖像轉變成光學圖像。既然SEN1-2是此類首個大型開源數據集,我們相信它將會支撐在「遙感領域的深度學習」和「多傳感器數據融合」領域的長遠發展。

      1. 引言

在過去的幾年裏,深度學習在遙感領域嶄露頭角( Zhang et al., 2016, Zhu et al., 2017 ),這主要是因爲在遙感觀測結果和我們期待的地理信息之間存在着高度非線性的關係,這樣的關係用物理模型來解釋非常操蛋,但深度神經網絡卻可以模擬出來。深度學習在遙感這一塊最讓人感覺靠譜的方向之一應該就是數據融合( Schmitt and Zhu, 2016 ),這尤其適合SAR和光學數據的聯合研究,因爲它倆無論在幾何方面還是輻射測量的表徵上都截然不同。SAR系統基於距離測量(range measurements)並主要觀測目標場景的理化性質,光學圖像基於角度測量(angular measure- ments)觀測環境的化學特徵的信息。

爲了推動深度學習技術在SAR-Opt數據融合領域的發展,能夠搞一個完美對齊的圖像或圖像塊組成的大型數據集相當重要,但這需要在工程上作出很大的努力。與此同時,比起傳統的計算機視覺使用一些隨處可得的圖像就能玩得溜,遙感圖像一般頗爲昂貴,發射一顆遙感衛星要花好多錢,這就造成了圖像成本相對比較高的問題。不過,在2014年,情況被大大改善了,哨兵系列衛星的第一顆——搭載着SAR系統的哨兵一號A(Sentinel-1A)被歐洲空間局ESA送上太空,多說兩句,哨兵系列工程是哥白尼計劃的一部分,這一計劃最終目的是持續性地向終端用戶免費提供各種衛星的觀測數據。

利用這個新潮的大型遙感數據源,我們就在這篇文章了裏推出了被稱爲SEN1-2的數據集。它包括282,384對兒SAR-Opt圖像塊,這些圖像都是哨兵一號和哨兵二號的觀測結果。這些圖像塊範圍遍佈全球陸地,四季都有。這篇文章主要描述了一下數據集的製作過程,它的特點(characteristics)和特徵(features),還有一些用作實例的應用。

      2.哨兵一號、哨兵二號遙感數據集介紹

哨兵衛星是ESA的哥白尼工程的一部分,其目的是取代過去在氣候、海洋、陸地檢測的領域的遙感任務,以保持數據的連續性。爲了完成這一任務,六個不同的衛星投入運行,它們在地球觀測方面有不同的側重。在這些任務中,我們尤其關注哨兵一號和哨兵二號,因爲它們分別提供了合成孔徑雷達和光學遙感最常規的影像。

   2.1 哨兵一號

哨兵一號( Torres et al., 2012 )包括兩個極地軌道衛星,配備了C波段SAR遙感系統,使它們獲得了無視天氣情況進行觀測的能力。

哨兵一號以預編程模式運行,以避免衝突並向長期運行的程序生成具有一致性的數據存檔。取決於選擇四種特有的成像模式中的某一種,圖像分辨率最高可達五米,覆蓋四百公里內的區域,而且,哨兵一號在赤道附近能提供雙極化能力,重訪時間也非常短,大概一週。將衛星高度和姿態的高精度和基於距離的SAR系統的高精度相結合,哨兵一號具有高開箱即用( high out-of-the-box )的地理定位精度( Schubert et al., 2015 )。

對於我們數據集中的哨兵一號圖像,採用了最爲常規的干涉寬幅寬帶(IW)模式下采集,結果就是所謂的地面檢測(GRD)效果。這些圖像中每個像素都包含dB標度和σ0反向散射系統,採用的方向角爲五米,範圍是二十米。爲了簡化操作,我們把注意力集中在垂直極化(VV)數據上而把其他的極化拋到一邊。最後,對於精確的正射校正,恢復的軌道信息與三十米的SRTM-DEM或者是ASTER-DEM相結合,彌補了高緯度地區無法得到數據的缺陷。

終端用戶可能對數據做自己想要的預處理來使數據更適合自己的任務,因此,我們就沒有做什麼散斑過濾之類的工作。

   2.2 哨兵二號

哨兵二號( Drusch et al., 2012 )包括了在同一個極地軌道上的兩顆衛星,它們彼此相差180°,這項工程目的是爲SPOT和LandSat類型的多光譜圖像數據續命,所得到的數據提供了有關地球表面幾十年的信息。它的掃描寬幅達到290公里,當衛星運行在赤道面附近(僅有一顆)時,回訪時間大約是十天,有兩顆衛星是則是五天。在沒有云的時候,它尤其適合處在生長季節內的植被檢測。

對於我們所使用的哨兵二號衛星數據的部分來說,只涉及了紅色、綠色和藍色通道(也就是第4、3和2波段),用RGB來生成逼真的彩色圖像。哨兵二號的數據並非以衛星圖片的形式分發,而是精確的地理參考顆粒(granules),因此就省了我們做進一步處理。與SAR系統不同,光學圖像選擇數據必須參考雲層覆蓋的量,對於剛開始的選擇,在數據庫裏查詢,從而能使用那些雲層覆蓋率在一個百分點以下的顆粒。

(二)

 3. 數據集

爲產生一個多傳感器的SAR-Opt匹配對數據集,需要相當多有着空間線性關係的的遙感數據,而爲了採取一個儘量自動化的方式做到這一點,我們利用了用了一個遙感雲平臺 Google Earth Engine ( Gorelick et al., 2017 ),下面,我們將詳細描述這個數據集生成過程的每一個步驟。

   3.1 在 Google Earth Engine 上做的數據準備

從我們製作數據集的角度來看,Google Earth Engine 具有兩方面的優勢:一方面,它提供了很大覆蓋範圍的數據目錄,包括好幾PB的遙感影像,其中包括所有可用的哨兵衛星數據還有其他的開源地理數據,另一方面,GEE裏有一個功能很強大的編程接口,允許我們在Google的計算機中心做一些數據準備和分析工作。因此,我們使用它來挑選、準備並且下載哨兵一號和哨兵二號的影像,這些圖像我們隨後會製作成匹配對。基於GEE的圖像下載還有準備的工作流程我們展示在了Fig.1中。

Fig.1:GEE準備工作流程示意圖,半自動的

細節上,它包括以下幾步:

3.1.1. 隨機ROI採樣

爲了生成一個儘可能和我們的星球看起來比較相似的數據集,我們想採樣這樣一些區域,它們看起來就像是產生自全世界,爲了實現這一任務,我們使用了GEE中提供的ee.FeatureCollection.randomPoints()函數從一個均勻的空間區域隨機取樣。介於很多遙感觀測都把注意力放在城市區域而且城區也確實比農村包含有更復雜的可視信息,我們特地通過在地表泛泛地選100個點再從城區專門選50個點,人爲選定了一些城市區域。陸地和城區都是公共區域數據服務所提供的,標尺是1:50米。如果兩個點落在一個相當接近的地方,我們就去掉其中的一個,保證沒有重疊部分。

採樣來自於四個不同的種子值,分別是 1158, 1868, 1970, 2017 ,結果就是 Fig.2a 所展示的那樣的隨機ROI採樣結果。

3.1.2 數據選擇

在第二步,我們使用了GEE的工具去過濾圖像,來挑選出適合我們場景的哨兵一號和哨兵二號的圖像數據。我們想要只使用最近的2017年的數據,所以我們就把這一年分成了四個氣象季節:冬季(2016.12.1-2017.2.28)、春季(2017.3.1-2017.5.30)、夏季(2017.6.1-2017.8.31),還有秋季(2017.9.1-2017.11.30)。每一個季節都與四個隨機ROI之一聯繫在一起,這樣,提供給我們頂級的數據集結構( Fig.3 ):我們把最後的數據集劃分成四個界限相對明顯的組ROI,這樣命名:ROIs1158 spring、ROIs1868 summer、ROIs1970 fal、ROIs2017 winter。

Fig.3 數據集結構

而後,對於每一個ROI,我們給哨兵二號做了過濾,得到了雲層覆蓋的最大值不超過1%的數據,哨兵一號圖像的過濾結果則是得到了IW工作模式和VV極化方式。如果去雲的光學數據或者是VV-IW的SAR圖像中任意一個沒有處在可用狀態,這個ROI就被丟棄。如此一來,ROI的數量就從600個急劇減少到429個。舉個例子,所有被拋灑在南極洲的ROI都被不可避免地砍掉了,因爲哨兵二號的觀測範圍只能覆蓋到南緯56°到北緯83°。

3.1.3 圖像鑲嵌

通過持續地挑選圖像數據,我們使用GEE內置的ee.ImageCollection.mosaic()函數和ee.Image.clip()函數去爲每一個ROI創建單獨的圖像並修剪ROI的大小。簡而言之,ee.ImageCollection.mosaic()函數就是用來拼接那些部分重疊的圖像。在 2.2 部分中重點提了一下。我們只選擇了哨兵二號的4、3、2波段去創造RGB圖像。

3.1.4 圖像導出

最後,我們使用GEE的Export.image.toDrive函數導出了前幾步創建的圖像,數據格式是 GeoTiffs ,分辨率是10米。下載好的 GeoTiffs 然後再做預處理來應付更進一步的應用,具體一點是把灰度值控制在 ±2.5σ 的範圍內。把他們的區間限制在[0; 1]內用來表徵一個相對大的範圍。這些校正分別應用在所有的波段上。

3.1.5 一輪人工審查

我們接着在視覺上把所有個下載好的圖像看了一遍,用來找出那些嚴重的問題。它們可以大體上被歸類爲以下的幾種之一:

1) 大塊的無數據區域:不幸的是,ee.ImageCollection.mosaic()函數即使沒有找到對應整個ROI的數據適合的信息去也並不會返回任何error信息。當在一個給定的時間區間沒有明顯的無雲顆粒可用時,哨兵二號大量出現這種問題。

2) 嚴重的雲覆蓋:來自於每一個哨兵二號的顆粒的雲覆蓋後設數據信息都僅僅是一個全球共享的參數。如此一來,就可能發生這樣的情況:整個顆粒中僅僅包括了一堆雲,但是覆蓋了ROI的部分就是那些有云的顆粒。

3) 嚴重的顏色扭曲:偶爾,我們觀察哨兵二號的圖像其中有一些非常彆扭的顏色。我們想做一個容納那些比較自然的RGB圖像的數據集,因此我們就把那些哨兵二號中帶有太奇怪顏色的圖像去掉了。

在第一輪人工審查之後,只有 258 個ROI被留下了( cf. Fig. 2b )。

Fig.2a Fig.2b

3.1.6 分塊

考慮到我們的目標是一個包含了能夠被用於機器學習模型的數據集指向多種不同的數據融合任務,我們最終選擇了256*256像素的塊。使用了128的步長(跨度?stride),我們減去了那些處在相鄰塊之間的重疊部分,當把獨立塊的數字進行最大化,只有50%能提供可用的場景。在這一步之後,SEN-1-2的數據對的數量就停留在了 298,790 。

3.1.7 第二遍的人工審查

爲了刪掉仍有少量雲霧或者其他問題的圖像塊,我們又一次肉眼審查了所有的塊。在這一步,又人工刪掉了 16,406 對兒圖像塊。留下了最後 282,384 個質量得到良好控制的圖像塊對。其中的一些我們都放在 Fig.4中了。

Fig.4 上排是SAR圖像,下排是對應的光學圖像

   3.2 數據集可得性

SEN1-2數據集已經在CCBY開源可用協議之下分享出來了,可以通過慕尼黑科技大學(the Technical University of Munich)的圖書館的一個鏈接進行下載,鏈接在此: 數據集下載 。當這個數據集被用作科研目的時,請務必引用這篇文章。

(三)

   4. 應用示例

在這一部分中,我們展示了幾個實例應用,它們都已經用上了這個數據集。希望在未來的研究和針對SAR-Opt深度學習數據融合領域進一步的探索中,這些應用可以啓發到大家。

   4.1 哨兵一號圖像着色

即使對於經過良好訓練的專家來說,SAR圖像的解釋也一直是一個相對重量級的任務。原因之一就在於SAR圖像缺失了顏色信息,這就有一點點麻煩。我們SEN1-2數據集其中一個很有前景的應用場景就是照着對應光學圖像的樣子去給SAR圖像加上顏色信息,這一點我們早就論證過(Schmitt et al., 2018)。在這一方法中,我們使用了SAR-Opt數據融合技術去創造人工的有色SAR圖像作爲訓練樣例,還結合了已有的變分自編碼器和混合密度網絡的組合 (Deshpande et al., 2017)以學習條件顏色分佈,而這些東西不同的着色示例都能描繪出來。有一些訓練的第一手結果被展示在 Fig.5 中。

Fig.5 自左向右分別是:SAR圖像,原光學圖像,顏色空間技術着色圖像,深度生成網絡着色圖像

   4.2 SAR-Opt圖像配對

像是圖像登記( registration )、3D重建模、變化監測之類的任務依賴於能否準確地確定不同對應位置的相似性(也就是所謂的“匹配”)。即使已經建立了很好的方法和相似性度量來實現單模態圖像的配對,但多模態數據的匹配就完全是另一回事了。SEN1-2數據集可以提供適用於現代深度學習技術的大量數據來幫助實現多模態圖像匹配的解決方案。例如( Merkle et al., 2017 )和( Hughes et al., 2018 )所提出的那樣,使用僞孿生卷積神經網絡結構,識別對應的SEN1-2測試子集的SAR於光學圖像塊,準確率可達93%;再者,( Hughes et al., 2018 )做出來的模型混淆矩陣訓練了從SEN1-2的訓練子集創建的300,000個相對應和不對應的圖像對,在Tab.1中可以一看。此外,在測試子集中實現的一些示例性的圖像匹配可以在 Fig.6 中看到。

Tab.1: 僞孿生神經網絡的混淆矩陣在數據集上的訓練成果

yˆ/y non-match match
non-match 93.84% 6.16%
match 6.02% 93.98%

Fig.6 一些SAR-Opt匹配的成果

   4.3 從輸入的SAR圖像之中生成人工的光學圖像

SEN1-2數據集另一個可能的應用領域就是訓練一個生成網絡,這一網絡從輸入的光學圖像中生成人工的SAR圖像( Marmanis et al., 2017, Merkle et al., 2018 )或是正相反,從輸入的SAR圖像中生成人工的光線影像( Wang and Patel, 2018, Ley et al., 2018, Grohnfeldt et al., 2018 )。有些基於Pix2Pix這個鼎鼎大名的生成是對抗網絡GAN模型( Isola et al., 2017 )的初步結果,訓練的數據使用了 Fig.7 中展示的 108,221 個SEN1-2中的數據對。

Fig.7: 使用Pix2Pix模型從輸入的SAR圖像中產生光學圖像的初步例子,從左到右依次爲:SAR圖像,原始光學圖像和生成的光學圖像

      5. 數據集的優點和不足

據我們所知,SEN1-2是有史以來第一個真正意義上包含了SAR和光學圖像圖像對並且可稱之爲“大規模(超過百萬個)”的數據集。在這一領域還有另一個叫 SARpitcal 的數據集 ( Wang and Zhu, 2018 )。與我們的數據集相比,它提供了分辨率非常高的圖像對,來自於TerraSAR-X衛星和航空攝影,但是它僅限於從單一場景中提取出來的 10,000個塊兒,對於許多深度學習的應用來說可能是不太夠,尤其還要考慮到許多塊中包含着超過50%的重疊部分。有了採自全球和全部四個觀測季節的 282,384 圖像塊,SEN1-2將會成爲許多在SAR-Opt數據融合領域或事遙感方向機器學習研究者們的一個很有價值的數據源。一個特殊的長處就是這個數據集可以輕而易舉地被劃分成各種有着明確界限的子集(例如根據場景或是季節進行分類),有了這樣的能力,我們就可以創建真正相互獨立的訓練集和測試集,對於看不見的數據也可以做到客觀獨立的評估。

然而,雖然SEN1-2並不是挑不出毛病來,舉個例子來說,我們嚴格限制了哨兵二號的RGB圖像數量,對於那些利用多光譜衛星圖像的全輻射帶寬來搞研究的人來說,數據量可能不太夠。另外,我們在進行數據集準備時,GEE僅僅包含了Level-1C數據信息,這就意味着像素值實際代表了大氣頂層(TOA)反射率,而不是大氣層校正的大氣底層(BOA)信息。我們正在計劃着擴充對應的第二版本數據集。

      6. 總結和結論

這篇文章中,我們已經描述並且發佈了SEN1-2數據集,該數據集容納了來自於哨兵一號和哨兵二號的 282,384 個SAR-Opt數據對。我們確定這個數據集將會推動機器學習——尤其是深度學習在衛星遙感和SAR-Opt數據融合領域的應用發展。在未來,我們計劃推出一個更好的第二版本的數據集,不止容納了哨兵二號的RBG圖像,還有包含了大氣校正的多光譜數據。此外,我們可能會對每個數據對添加比較粗糙的土地利用/土地覆蓋(LULC)信息,致力於促進LULC分類領域技術的發展。

      致謝

我們的工作接受了亥姆霍茲協會( Helmholtz Association )在德國研究基金會(DFG)的青年調查組SiPEO(VHNG-1018)的支持,授權號:SCHM 3322/1-1 ,根據歐盟的Horizon2020研究創新計劃( Horizon 2020 research and innovation programme )中的歐洲研究理事會(ERC)也提供了幫助,授權協議: ERC-2016- StG-714087 ,縮寫是 So2Sat

(四)

引用

Deshpande, A., Lu, J., Yeh, M.-C., Chong, M. J. and Forsyth, D., 2017. Learning diverse image colorization. In: Proc. CVPR, Honolulu, HI, USA, pp. 6837–6845.

Drusch, M., Del Bello, U., Carlier, S., Colin, O., Fernandez, V., Gascon, F., Hoersch, B., Isola, C., Laberinti, P., Martimort, P. et al., 2012. Sentinel-2: ESA’s optical high-resolution mission for GMES operational services. Remote sensing of Environment 120, pp. 25–36.

European Space Agency, 2015. Sentinels: Space for Coper- nicus. http://esamultimedia.esa.int/multimedia/ publications/sentinels-family/. [Online].

Gorelick, N., Hancher, M., Dixon, M., Ilyushchenko, S., Thau, D. and Moore, R., 2017. Google earth engine: Planetary-scale geospatial analysis for everyone. Remote Sensing of Environment 202, pp. 18–27.

Grohnfeldt, C., Schmitt, M. and Zhu, X., 2018. A conditional generative adversarial network to fuse SAR and multispectral op- tical data for cloud removal from Sentinel-2 images. In: Proc. IGARSS, Valencia, Spain. in press.

Hughes, L. H., Schmitt, M., Mou, L., Wang, Y. and Zhu, X. X., 2018. Identifying corresponding patches in SAR and optical im- ages with a pseudo-siamese CNN. IEEE Geoscience and Remote Sensing Letters 15(5), pp. 784–788.

Isola, P., Zhu, J.-Y., Zhou, T. and Efros, A. A., 2017. Image- to-image translation with conditional adversarial networks. In: Proc. CVPR, Honolulu, HI, USA, pp. 1125–1134.

Ley, A., d’Hondt, O., Valade, S., Ha ̈nsch, R. and Hellwich, O., 2018. Exploiting GAN-based SAR to optical image transcoding for improved classification via deep learning. In: Proc. EUSAR, Aachen, Germany, pp. 396–401.

Marmanis, D., Yao, W., Adam, F.Datcu, M., Reinartz, P., Schindler, K., Wegner, J. D. and Stilla, U., 2017. Artificial gen- eration of big data for improving image classification: a genera- tive adversarial network approach on SAR data. In: Proc. BiDS, Toulouse, France, pp. 293–296.

Merkle, N., Auer, S., Mu ̈ller, R. and Reinartz, P., 2018. Explor- ing the potential of conditional adversarial networks for optical and SAR image matching. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. in press.

Merkle, N., Wenjie, L., Auer, S., Mu ̈ller, R. and Urtasun, R., 2017. Exploiting deep matching and SAR data for the geo- localization accuracy improvement of optical satellite images. Remote Sensing 9(9), pp. 586–603.

Schmitt, M. and Zhu, X., 2016. Data fusion and remote sensing – an ever-growing relationship. IEEE Geosci. Remote Sens. Mag. 4(4), pp. 6–23.

Schmitt, M., Hughes, L. H., Ko ̈rner, M. and Zhu, X. X., 2018. Colorizing Sentinel-1 SAR images using a variational autoen- coder conditioned on Sentinel-2 imagery. In: Int. Arch. Pho- togramm. Remote Sens. Spatial Inf. Sci., Vol. XLII-2, pp. 1045– 1051.

Schubert, A., Small, D., Miranda, N., Geudtner, D. and Meier, E., 2015. Sentinel-1a product geolocation accuracy: Commissioning phase results. Remote Sensing 7(7), pp. 9431–9449.

Torres, R., Snoeij, P., Geudtner, D., Bibby, D., Davidson, M., Attema, E., Potin, P., Rommen, B., Floury, N., Brown, M. et al., 2012. GMES Sentinel-1 mission. Remote Sensing of Environment 120, pp. 9–24.

Wang, P. and Patel, V. M., 2018. Generating high quality visible images from SAR images using CNNs. arXiv:1802.10036.

Wang, Y. and Zhu, X. X., 2018. The SARptical dataset for joint analysis of SAR and optical image in dense urban area. arXiv:1801.07532.

Zhang, L., Zhang, L. and Du, B., 2016. Deep learning for remote sensing data. IEEE Geoscience and Remote Sensing Magazine 4(2), pp. 22–40.

Zhu, X. X., Tuia, D., Mou, L., Xia, G.-S., Zhang, L., Xu, F. and Fraundorfer, F., 2017. Deep learning in remote sensing: A comprehensive review and list of resources. IEEE Geoscience and Remote Sensing Magazine 5(4), pp. 8–36.

轉載自——https://www.jianshu.com/p/be160434edce
作者:杜若飛er
鏈接:https://www.jianshu.com/p/be160434edce
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章