高端論壇| 龔健雅院士:攝影測量與深度學習

http://www.360doc.com/content/18/0705/07/49314294_767816589.shtml

攝影測量與深度學習

龔健雅 , 季順平     

武漢大學遙感信息工程學院, 湖北 武漢 430079

收稿日期:2017-11-30;修回日期:2018-03-28

基金項目:國家自然科學基金

第一作者簡介:龔健雅, 男, 博士, 教授, 中國科學院院士, 長期從事地理信息理論和幾何遙感基礎研究。

E-mail:[email protected]

通信作者:季順平

E-mail: [email protected]

摘要:深度學習正逐漸佔領與“學習”相關的諸多研究領域,也對攝影測量這門學科造成衝擊和促進。根據攝影測量學的定義:“利用光學像片研究被攝物體的形狀、位置、大小、特性及相互位置關係”,其研究對象包括幾何與語義。本文從這兩個方面回顧和探討深度學習目前的應用現狀,並對其影響下的攝影測量的發展進行展望。在幾何上,基於卷積神經元網絡的學習架構已經廣泛用於圖像匹配、SLAM及三維重建,取得了較好的效果,但仍需進一步改進。在語義上,由於傳統的手工設計方法未能將語義信息以工程化的形式確定並生成類似4D產品的各類語義“專題圖”,語義部分長期受到忽視。深度學習強大的泛化能力、對任意函數的擬合能力及極高的穩定性,正使得專題圖的自動製作成爲可能。筆者通過道路網、建築物、作物分類等應用實例,回顧已經取得的研究成果,並預計:利用光學像片生成高精度的語義專題圖,在不遠的未來即將實現;並可能成爲攝影測量的一類標準產品。最後,針對幾何和語義,分別介紹了筆者的兩個相關研究:基於深度學習的航空圖像匹配以及基於3D卷積神經元網絡的精細農作物分類專題圖自動提取。

關鍵詞:深度學習    卷積神經元網絡    攝影測量    立體匹配    專題圖    

Photogrammetry and Deep Learning

GONG Jianya , JI Shunping     

Abstract: Deep learning has become popular and the mainstream in types of researches related to learning, and has shown its impact on photogrammetry.According to the definition of photogrammetry, a subject that researches shapes, locations, sizes, characteristics and inter-relationships of real objects from optical images, photogrammetry considers two aspects, geometry and semantics.From the two aspects, we review the history of deep learning and discuss its current applications on photogrammetry, and forecast the future development of photogrammetry.In geometry, the deep convolutional neural network (CNN) has been widely applied in stereo matching, SLAM and 3D reconstruction, and has made some effect but needs more improvement.In semantics, conventional empirical and handcrafted methods have failed to extract the semantic information accurately and failed to produce types of 'semantic thematic map' as 4D productions (DEM, DOM, DLG, DRG) of photogrammetry, which causes the semantic part of photogrammetry be ignored for a long time.The powerful generalization capacity, ability to fit any functions and stability under types of situations of deep leaning is making the automated production of thematic maps possible.We review the achievements that have been obtained in road network extraction, building detection and crop classification, etc., and forecast that producing high-accuracy semantic thematic maps directly from optical images will become reality and these maps will become a type of standard products of photogrammetry.At last, we introduce two current researches related to geometry and semantics respectively.One is stereo matching of aerial images based on deep learning and transfer learning; the other is fine crop classification from satellite special-temporal images based on 3D CNN.

Key words:

deep learning

convolutional neural network

photogrammetry

stereo matching

thematic map


1 簡介

1.1 攝影測量學回顧

攝影測量學是一門“利用光學像片研究被攝物體的形狀、位置、大小、特性及相互位置關係”的學科。攝影測量誕生於19世紀早期。1838年,物理學家惠斯頓發明了實體鏡,第一次發現和定義了立體視覺。1839年,法國畫家達蓋爾發明了銀版攝影法,並製作了世界上第一臺真正的照相機。在此基礎上,法國測量學家Fourcade首先發現了用立體照片可重建立體視覺,從而促成了攝影測量學的誕生[1]。攝影測量的第一個也是最重要的分支是航空攝影測量。1783年,西方的Montgolfier兄弟發明熱氣球,並第一次載人航行。1858年,法國攝影師納達爾乘坐氣球拍攝了世界上第一張航空影像。1903,萊特兄弟發明世界上第一架螺旋槳飛機。這些飛行技術的發展促成了能夠大範圍測圖的航空攝影測量。而此前,人們只能利用大地測量技術進行測圖。例如著名的數學家高斯繪製漢諾威公國的地圖就花了30年。

20世紀開始後,物理和電子技術的進步持續推動着攝影測量的發展。1957年,第一顆衛星被髮射到外太空,開啓了衛星攝影測量與遙感研究領域。1960年開始,迅猛發展的計算機以及專業的解析測圖儀使攝影測量進入解析攝影測量時代。光線的重現和交會不再依賴於此前的光學模擬儀器(60年代之前也因此稱爲模擬攝影測量時代),而是以虛擬形式在計算機中實現。根據愛因斯坦的光量子假說和光電效應,1973年貝爾實驗室的博伊爾和史密斯發明了電荷耦合器件(charge coupled device,CCD)[2],促成數碼相機和數字攝影測量時代的誕生。90年代末,無人機航攝逐漸興起,其便捷、廉價的特性,是傳統航攝的有益補充。2000年前後,各國陸續開始深空探測項目,比如中國的嫦娥登月和美國的火星探測。此外,地面測量、地下測量、水下測量、彈道測量、工業測量等也是攝影測量常見的應用研究領域。

在研究內容上,攝影測量以二維像片和被攝三維物體的幾何關係爲主流方向。在理論方法上,沿用笛卡兒開闢的解析幾何,用代數方程表達二維或三維笛卡兒座標系中所描繪的幾何圖形。如像點、物點、投影中心三點共線由共線條件方程表達;攝影基線、同名光線共面由核線方程表達。在模型解算上,由於測量中觀測值固有的誤差特性,以誤差處理理論爲指導。代表性理論是1795年高斯發明的最小二乘法和1959年德國的Schmid提出光束法區域網平差。此外,由於重建幾何關係需要提取像片上的同名點,一些圖像處理的內容也因此成爲攝影測量的研究領域。20世紀後期,攝影測量學者提出了相關係數匹配、最小二乘匹配等經典立體匹配方法,21世紀開始,同樣關注3D幾何重建的計算機視覺也更加豐富了匹配方法。

雖然基於光學像片的2D/3D幾何關係是攝影測量的主流,但根據攝影測量的定義,“物體的特性及其相互關係”,即語義部分也屬於攝影測量學的研究內容。語義被忽略既有歷史的原因也有技術上的困難。首先,從20世紀70年代開始,隨着衛星成像技術的發展,攝影測量被擴展爲攝影測量與遙感,圖像解譯任務因之成爲遙感的課題。其次,攝影測量作爲應用工程學科,需要爲測繪等領域提供相當精度的各類地形圖和專題圖。然而,傳統計算機分類和模式識別的方法難以達到所謂的“攝影測量精度(photogrammetric accuracy)”,而通常採用半自動或全人工判讀法,所以研究進展緩慢。幸運的是,以深度學習爲主流的人工智能方法開闢了關於“學習”的新航道,並把精度提高到前所未及的高度。例如,將恰當的深度神經元網絡架構應用於航空圖像的道路、建築、水體等地物的自動提取,並實現高精度語義專題圖,將爲攝影測量學在語義方向的拓展提供新的契機,這也是本文的一箇中心議題。


1.2 深度學習的歷史

深度學習起源於20世紀中葉的人工智能。人工智能的兩個主要流派分別是符號主義(symbolism)和聯結主義(connectionism)。其中,符號主義者在1956年首次提出“人工智能”的概念,並統治了該領域近半個世紀;基於統計學習的思想被廣泛應用於機器學習、計算機視覺,以及攝影測量與遙感。與此對應,聯結主義起伏不定,經歷了低谷,也經歷了3次發展浪潮:20世紀40年代到60年代的控制論[3]、80年代到90年代的聯結主義[4]及2006年之後的“深度學習”[5]。

在控制論時期,聯結主義的代表性名詞是“人工神經元網絡”。事實上,當時這只是一個單層的線性模型:根據輸入變量x、輸出函數f(x,w)與已知標籤y的一一對應關係,學習未知參量w。這種模型(又稱爲單層感知機)由於無法學習諸如XOR(異或)等非線性函數,而受到以明斯基爲首的符號主義流派的批評;並造成第一次人工神經元網絡的衰退。

在20世紀80年代,聯結主義的概念被正式提出。當時符號主義流派依然是主流,但他們也有自己的麻煩:符號推理模型難以解釋大腦神經元的工作原理。而聯結主義者認爲,將大量的簡單計算單元連接在一起,就可以實現智能行爲。並提出了“分佈式表示”、“後向傳播算法(back propagation)”、“長短期記憶(long short-term memory,LSTM)”等對今天的深度學習異常重要的思想和概念。然而,到了20世紀90年代中期,基於神經元網絡的人工智能研究無法滿足商業界的業務化需求,加上諸如SVM[6]等核方法,以及概率圖模型(probabilistic graphic model,PGM)的盛行[7],神經元網絡再次衰退了。

2006年,Hinton的研究表明,採用一種逐層的貪心算法可實現深度神經元網絡的訓練[8]。而此前,訓練一個多層神經網絡被認爲是不現實的。深度學習的概念由此浮出水面,新旗幟是:現在已經有能力訓練一個深度網絡,並且這個深度將贏得人工智能方法和實踐上的突破。2012年,在ImageNet挑戰賽中,深度學習的方法奪得第一,並一舉超過傳統機器學習方法10個百分點[9];而第二至第四名相差不超過1%,顯示了傳統方法的天花板。隨後的大量試驗表明,無論在圖像分類、物體識別、語音識別、遙感應用等關於學習和語義的研究領域,深度學習都佔據上風。

符號主義流派的空間在縮小,但基於概率圖模型[7]的方法也得到了廣泛應用。此外,深度學習也有自身的缺陷。雖然理論上多層網絡確實可能學習出最優的函數模型,但它無法解釋該模型如何構建以及模型背後的含義,就像暗箱操作一樣。目前,有些學者試圖發現其背後的原理。如物理學者發現了量子力學中的重整化技術與深度學習能夠精確對應[10],神經科學和計算機科學家發現深度學習符合一種瓶頸理論[11],即把大量次要信息擠出去,而留下真正有效的信息。當然,這些發現距離完整回答深度神經元網絡如何學習仍處在初步階段。


1.3 攝影測量與深度學習及計算機視覺的聯繫

除了自然語言處理(natural language processing,NLP)[12],深度學習的最重要應用是在視覺圖像上,如手寫字體識別[13]、自然圖像分類[9]和檢索等。而攝影測量的研究對象就是視覺圖像,因此深度學習的成功和蓬勃發展,使得攝影測量也成爲最受益的學科之一。

在幾何上,攝影測量中的研究內容包括:傳感器的定位定姿、從2D像片重建3D幾何。將深度學習應用於幾何定位目前還未進入攝影測量研究領域,但已經出現在密切相關的計算機視覺的分支中:運動恢復結構(structure from motion,SfM),以及機器人學的分支;同時定位與地圖構建(simultaneous localization and mapping,SLAM)。根據文獻[14],深度學習方法的定位精度目前尚不能同傳統的方法相比,相差約一個數量級。對於3D重建中的關鍵技術密集匹配,深度學習已經取得很好的應用效果。如在KITTI等標準數據集上[15],前10名的方法都是深度學習方法。不過,雖然SGM等經典方法已經落在30名開外,但是經典方法是通用的,既可以用在自然圖像中,也可以用於航空、航天圖像。而深度學習方法則依賴於高精度、可靠的相似數據集。目前,完整的3D重建解決方案依然是經典方法一統天下。

在語義上,攝影測量中的研究內容就是採用智能方法爲各行業提供專題圖。攝影測量的應用特性使得它並不關心諸如特徵描述、上下文關係等中間結果。這種端到端的模式(end-to-end)特別適用深度學習方法。目前,深度學習已經被廣泛用於遙感圖像的分類、識別、檢索和提取。與在幾何方面的欠佳表現不同,在語義上基本全面碾壓了傳統的方法。

最後簡要討論攝影測量、深度學習及計算機視覺的關係。1982年,Marr發表《視覺:從計算的視角研究人的視覺信息表達與處理》,是計算機視覺的開山之作。計算機視覺的最初研究:用計算機代替人眼,從圖片中重建3D世界。與攝影測量在幾何方面具有很高的重疊度。20世紀90年代,在語義方面計算機視覺開始蓬勃開展。其中運用了大量的機器學習知識。有學者分析指出機器學習與計算機視覺重疊度約在60%~70%,因此是非常緊密的兩門學科。隨着深度學習成爲機器學習的主流,深度學習在計算機視覺中得到廣泛應用。將深度學習引入到攝影測量中,特別是提高攝影測量後期語義處理的智能水平,是科學研究發展的必然途徑。


2 方法

2.1 深度學習基本原理

深度學習是“表示學習(representation learning)”[16]的一種。表示學習的最大特點是不需要設計人工特徵。它指計算機根據一套通用規則自動地學習出從輸入到輸出的最優特徵表示的方法。表示學習可用於無監督分類,如自編碼器(autoencoder)[17]。而在監督學習中,深度學習是表示學習的最佳代表。深度學習通過設定神經元網絡層數、每層的參數(隨機初始化)、迭代規則等,自動學習調整出最優的參數。這些參數的集合最終構成從輸入到輸出的特徵表示。基本的多層神經元網絡稱爲前饋神經網絡(feedforward neural network)[18]。

前饋神經網絡或多層感知機(multilayer perceptron,MLP)[19]是一種典型的深度學習模型。前饋網絡定義一個映射y=f(x,w),以x和y爲已知條件,通過學習參數w的值,得到某個最優的近似函數f*。因此,前饋是指:僅由w和f得到輸出y,而y不會反作用於模型f。若y反饋於f,則稱爲循環神經網絡(recurrent neural network,RNN)[20]。RNN很少應用於圖像中,攝影測量中常用的深度學習方法幾乎都是MLP。

MLP由多個函數fi複合而成:f(x)=fn…(f2(f1(x))),f1稱爲第一層,最後一層稱爲輸出層,函數鏈的全長n稱爲網絡的深度。在最後一層上,模型要求fn的輸出接近於給定的標籤y;在其他層上,訓練數據〈x,y〉並未指出應該如何訓練,這些層被稱爲隱藏層。基於深度學習的方法就是採用“表示學習”的策略去主動地學習各層的參數模型而非傳統的手工設計。

當f作爲一個線性模型時,它無法訓練諸如XOR等非線性模型[21]。因此,在隱藏層中,需要擴展爲一個非線性的函數,通常稱爲激活函數σ。激活的概念來自人類的神經元作用機理:將0看作不激活,1看作激活,則組成一個簡單的非線性系統。目前,最常用的激活函數是整流線性單元(rectified linear unit,ReLU)[22],即x′=max(0, x)。此時,一個典型的fi就是一個線性仿射變換再加上一個激活

式中,w稱爲權重模板或核函數;b稱爲偏置。在加上了這個非線性激活函數後,通過二層或以上的神經元網絡就可以學習出XOR等複雜的非線性模型。

輸出層函數fout要保證模型的輸出y′與其對應的標籤y儘可能一致。在攝影測量中的光束法平差中,通常取p-範式|y-y|′p最小(通常p=2),並稱之爲代價函數。在深度學習中,也稱爲代價函數,或者損失函數(loss function)。除了最小化p-範式外,由最大似然估計導出的、給定樣本與期望模型間的交叉熵也是常用的代價函數[23]。即

此外,和平差中的L-M算法[24]類似,對於損失函數也要考慮收斂性的問題。故常用的代價函數也包含正則化項

式中,y爲標籤;y′爲模型的輸出;L爲損失函數;J爲總代價函數;ϕ爲正則化函數。

與光束法平差一樣,要設定參數w和b的初始化及迭代規則。通過學者們的研究,w可初始化爲隨機小數。隨機初值經過前饋網絡傳播後,得到的輸出y′顯然與標籤y相距甚遠。一個直觀的想法是通過代價函數來反向逐層調整隱藏層中的參量w與b。這就是著名的梯度反向傳播和鏈式法則[25]。標量的鏈式法則表達如下

式中,z=f(g(x))=f(y)。擴展到神經元網絡中常用的矢量形式,即z=f(g(x))=f(y),鏈式法則變爲

將z理解爲頂層的代價函數J,將x看作隱藏層中待修正的參量w和b;則得到z相對於每個參量的梯度。用高斯-牛頓法解算光束法平差時,其迭代的步驟是x′=x dx,即直接加上改正數。而在深度學習中,無法直接得到最優的改正數dx。通常的思路是:梯度自身反映了參量該向哪個方向修正,但並不確定具體的修正值;因此,在梯度的基礎上,乘以一個很小的學習率λ,作爲每次的迭代值

給定足夠的訓練樣本,經過數百次乃至千萬次的迭代訓練(只要時間足夠長),基於前饋神經元網絡的深度學習期望得到一組最優參量w和b,使得代價函數最小。

以上通過攝影測量中的光束法平差爲類比,簡單介紹了深度神經元網絡的一些本質的概念和方法。


2.2 深度卷積神經元網絡

2012年,Hinton課題組的一篇論文《基於卷積神經元網絡的Imagenet分類》[9]引爆了整個機器學習和人工智能領域,也是至今爲止深度學習中引用率最高的論文之一。卷積神經元網絡(convolutional neural network,CNN)是一種特殊的前饋神經元網絡,指那些至少在網絡的某一層中採用卷積運算代替一般矩陣乘法的網絡[26]。事實上,CNN與攝影測量的關係也同樣密切。在攝影測量中,影像相關是一個入門級的概念,指判別圖像間相似度的一種計算方法。相關(correlation)本質上就是卷積,或者說是卷積的一種變種,都屬於線性時不變系統[27]。這兩個概念的微小差異僅在於是否翻轉模板。請注意,在深度學習中,常將相關也寫作卷積。

除了擁有前饋神經元網絡的基本特性外,卷積神經元網絡包括三個明顯的特徵:稀疏連接、參數共享、池化。稀疏連接區別於傳統神經網絡的全連接。傳統神經元網絡採用矩陣乘法。如m個像元的圖像,n個輸出,則需要m×n個參數。然而,圖像中興趣特徵可能只存在於圖像上的一小塊,而非整個圖像。這與人眼看物體是一致的,眼睛(連同背後的腦處理機制)往往只專注於那些突出的特徵,而選擇性地忽略掉背景,稱爲“局部視野”。如果有k(k≪m)個像元可代表這個特徵,那麼,只要採用k個像元的卷積核,就能提取出該特徵。同時,卷積操作的計算量僅爲k×n。

參數共享對減少計算量和冗餘同樣具有積極的意義。以邊緣特徵提取爲例。在深度學習中,系統需要主動去學習某個邊緣特徵(如水平邊緣),得到某個恰當的卷積核w。顯然這個卷積核不但對某個圖像上方的水平邊緣敏感,而且對圖像任何地方的水平邊緣敏感,甚至對所有的成百上千的輸入圖像中的水平邊緣都敏感。因此,僅需要學習一個卷積核w,就可無數次重複使用,以提取出樣本中所有的水平邊緣特徵。這就體現了卷積(相關)的作用。而在全連接中,一般不採用參數共享策略,因此參數只被使用一次。

池化是卷積神經元網絡中的一個必要組成部分。池化是去冗餘的一種手段,指採用某個區域的統計量去簡化該區域的神經元網絡輸出。如在圖像某處有一個2×2像素的邊緣,而以此爲中心的4×4窗口中不存在其他邊緣。顯然邊緣卷積核在邊緣處有最大的輸出,而在窗口的其他部分輸出幾乎爲0。若認爲沒有必要將背景區域傳遞到下層,則可採用一種“最大池化”策略[28],即取4×4窗口中的最大的響應作爲該區域的輸出,這時輸出的大小變成2×2窗口。通常,每次池化都會使得輸入圖像減小,2×2池化對應圖像長寬都縮小一半。

到目前爲止,卷積神經元網絡受到廣泛研究和巨大推動。從2012年的AlexNet[9]開始,涌現了一批先進的卷積神經元網絡架構,如ZFNet[29]、GoogleNet[30]、VGGNet[31]、ResNet[32]等,但CNN的本質依然是簡單優雅的:卷積模板提取特徵並激活、池化去除背景、前向傳播計算代價、後向傳播迭代收斂。圖 1是一個針對遙感圖像的以VGGNet爲模板的CNN實例。樣本大小爲8×8像素,m、n分別代表遙感圖像的波段和時相。首先設計卷積核(即邊緣、顏色、紋理以及更抽象的待學習特徵)的數量,32@8×8指從8×8的樣本中提取32個特徵。每一層典型的卷積網絡包括3個處理流程:卷積、激活、池化。對於任意一個卷積核,在所有的圖像的所有位置進行卷積操作;對於每一個卷積輸出標量,選擇恰當的激活函數並計算輸出;最後根據池化策略,得到本卷積層的輸出。圖 1包括3個卷積層。經過三次池化後,圖像的大小已經降低爲1×1的像素,此後接2個全連接層,最後一個全連接層也是輸出層。諸如圖 1的看似簡單的CNN有着巨大的威力,在圖像分類、物體識別、檢索中基本上全面超越了傳統的機器學習方法。

 

圖1 卷積神經元網絡實例

Fig.1 An example of convolutional neural network


2.3 深度學習在攝影測量幾何方面的應用和展望

深度學習目前在幾何中主要有兩類應用。第一類是用於相機定位。將幾何定位問題歸結爲深度學習,首先需要考慮:如何將一個優化問題(同時也是一個迴歸問題)納入深度學習框架。2015年,PoseNet[14]第一次將CNN應用到相機的定位定姿中,可能也是迄今爲止唯一較成熟的基於CNN的SLAM系統,並在2016年提出基於貝葉斯CNN的新版本[33]。PoseNet採用四元數表達角度,因此參數空間維度爲7,即p=[x q]。採用二次範式(即最小二乘),損失函數表達爲

β爲角度和位置參數間的量綱比例。對於一個分類問題,解空間是類別標籤。可以爲每個類別設定有限的離散標籤。然而回歸問題的解空間是無限、連續的,因此無法採用SoftMax等判決函數。PoseNet在GoogleNet基礎上進行了改進。添加一個2048維度的全連接層,此後再加入一個7維全連接層,最後將SoftMax層移除並替換爲以上損失函數。PoseNet利用傳統的從運動恢復結構的方法(SfM)得到傳感器的位置和姿態,每張圖像對應一個位置(即標籤)。此外,PoseNet也利用了遷移學習,將ImageNet和Places的訓練結果作爲初值參與後繼訓練,並提高了定位精度。目前,定位精度分別爲戶外2 m和3°,戶內0.5 m和5°。距離經典的空中三角測量、SfM和SLAM所能達到的精度尚有一定的差距。

深度學習在幾何上的第二個應用是3D重建。根據2D圖像重建3D場景是攝影測量與計算機視覺共同的本質命題。雖然從2D到3D的重建涉及一些圖像處理和特徵表示知識,但是它仍屬於一個幾何問題。密集匹配是3D重建中的關鍵部分。2016年,Zbontar和LeCun的一篇文章(mc-CNN)[34]是開啓深度學習進軍立體匹配的代表作。mc-CNN利用CNN來學習匹配代價(matching cost)。傳統的匹配代價包括亮度絕對值差異、相關係數、歐氏距離、交叉熵等,這些代價往往不是最優的,會受到亮度突變、視差突變、無紋理或重複紋理、鏡面反射等影響。而深度學習方法試圖通過更復雜的模式學習出對這些不利因素穩健的匹配代價。最終,這篇文章在KITTI和Middlebury數據集上得到了比絕對亮度差、census和歸一化相關係數等匹配代價更低的錯誤率。此後,用深度學習進行立體匹配成了熱門課題。許多學者紛紛提出各類匹配算法,如SGM-Net[35]、DispNetC[36]、Content-CNN[37]等。在KITTI測試集上,前30名幾乎都是深度學習算法。自從1982年Marr創立計算機視覺開始[38],3D幾何重建就是計算機視覺的核心。當時的想法過於浪漫:既然有了Marr理論,實現3D重建只需一個夏天。事實上,直到今天這個問題也沒有完全解決。雖然計算機視覺已經開闢廣闊的研究空間,但該學科的最基本問題依然望而不及。這也解釋了利用深度學習進行3D重建的熱度所在。除了利用深度神經元網絡學習匹配代價,另外一類方法是採用端到端的策略,即從立體像對直接學習出深度圖(視差圖)。2017年,Kendall等提出GC-Net[39]。其核心思想是:將視差看作圖像外的第三維,即處理對象變成3D張量。然後,由3D卷積學習幾何與語義特徵,直接得到最優的視差圖(即3D張量中的一個曲面)。相對於2D圖像的學習,這種3D方法需要更大的顯存空間。目前,處理計算機視覺中的自然圖像尚且困難,處理大視差的遙感圖像目前在微機上還遙不可及。

雖然深度學習方法在有限的測試集上表現優異,但是並不能說明它的普適性。在短期內,構造性的經典方法,如多視SGM,依然是2D到3D幾何重建的主流。而基於端到端的立體匹配方法具有較強的衝擊力,伴隨更強計算能力的GPU的普及和更多學者的參與改進,極有可能超越經典方法。


2.4 深度學習在攝影測量語義方面的應用

深度學習在遙感圖像語義提取方面的應用剛剛起步並逐漸普及。以下將從各類地物語義專題圖出發,回顧深度學習的具體應用。

遙感圖像建築、道路網等地物的提取一直是數十年來的熱門課題。雖然經典方法取得一定的效果,但距離實用、市場、商業軟件尚有一定的距離。CNN目前正成爲道路網提取的主流方法。文獻[35]通過級聯式端到端CNN同時實現了道路網提取及道路中心線提取,與其他方法比較,達到了更高的分類精度。文獻[40]通過CNN結合線積分卷積克服了樹木遮蔽、房屋陰影所造成的道路網殘缺問題。文獻[41]通過非監督學習預處理和空間相關性的應用,利用深度學習極大地提高了複雜城市場景的道路提取精度。文獻[42-43]均爲使用深度學習的方法進行道路提取並取得了良好的效果。

建築物、農作物、水體等專題的提取相對道路而言較少,但預期會有許多相關文獻近期發表。文獻[44]採用CNN實現高分辨率多光譜衛星影像的建築物提取。首先採用AlexNet提取特徵,最後的全連接層用於訓練SVM分類器並採用MRF模型精化。作物精細分類是攝影測量與遙感在農業中的重要應用。文獻[45]在影像平面上進行2D卷積,在光譜方向上進行1D卷積,分別提取出影像空間特徵和光譜特徵,取得了比隨機森林和全連接MLP更好的作物分類精度。文獻[46]將CNN用於土地利用分類。文獻[47]中也較全面地總結了深度學習在遙感方向的應用。

上述研究具有一定的積極意義,但目前顯然還未實現遙感圖像語義專題圖的全自動提取。爲了從本質上解決該問題,需要考慮兩點。

第一點是恰當的遷移學習方法。目前ImageNet等龐大的數據庫來自大衆攝影圖像,並不包括鳥瞰航攝圖像和衛星遙感圖像。照片的標註諸如人、大象或椅子;遙感圖像中的標註諸如耕地、建築、森林等。若直接將這些數據庫訓練得到的模型,用來進行遙感圖像直接分類,就要考慮遷移學習。遷移學習是將A數據集中訓練好的模型,應用在B數據集上。A與B可能是同源的,也可能存在巨大差異。這就要進一步發掘完善的遷移學習機制。以上文獻幾乎都存在訓練集過小的問題,因此應用到其他場景可能錯誤率顯著提高。

第二點是建立針對遙感圖像的開源的、完備的標籤數據庫。涵蓋足夠多的地物類別,每個類別包括足夠多的樣本。這樣的數據庫是攝影測量與遙感走向“自動化專題製圖”的必經之路。然而,實現難度要比千萬圖像級別的ImageNet更大。首先,由於遠距成像的特性,圖像受到更多電磁輻射傳輸的影響。經過大氣傳播的電磁輻射與地物間的相互作用機理更加複雜,同一標籤的樣本往往呈現明顯的差異。這種差異不但對樣本的選取造成不便,而且對深度學習模型的可區分性提出更大的挑戰。第二,衆包模式並不能完全起作用。普通人可能很好地辨認出諸如貓與狗的區別,因此通過互聯網衆包能夠快速構建一個巨大的標註數據庫;但是,小麥和水稻在遙感圖像上的差異,則需要專業人員的目視判讀。若影像分辨率較低,甚至可能需要實地調查。第三,攝影測量與遙感界的科研模式尚需向開源發展。目前,遙感學界已經開始走向開源模式,希望由公司、政府或科研機構能夠在短期內建立的針對遙感圖像分類的標籤數據庫,並實現完全開源。

有了足夠的數據標籤庫或恰當的遷移學習方法,並藉助深度學習的泛化能力,可以預期未來攝影測量與遙感專題製圖的精度將比傳統的特徵分類方法得到明顯的改進。


3 已有的研究工作

本節介紹深度學習在攝影測量學中兩個較有代表性的應用。一是關於立體匹配和遷移學習。如上所述,計算機視覺所面對的數據源主要是大衆圖像和自然圖像。而攝影測量主要面對航空、航天遙感圖像。將大衆圖像訓練獲得的深度學習模型,通過一定的方式應用到遙感圖像中,是一個遷移學習的過程。遷移學習是深度學習在攝影測量(及其他領域)中體現泛化能力的重要概念,同時立體匹配是攝影測量以及計算機視覺的核心命題;筆者嘗試將這二者結合,期望得到當前最先進的結果。

二是關於深度學習在遙感時空數據中的應用。除了運動攝影,計算機視覺中的自然圖像多爲靜態圖像。攝影測量與遙感則不然。大部分遙感圖像爲時空數據,即存在一個額外的時間維度,對應變化、變遷、長勢、趨勢、動力學等。傳統的基於2D CNN的2D卷積核在理論上只能提取2D信息,因此可能無法在時空數據中取得最佳的效果。如文獻[45]等作物分類方法忽略了時相信息。筆者以多時相多光譜農業遙感數據爲例,引入3D卷積和3D CNN更好地提取作物生長時序特徵,並得到更精細的作物分類專題圖。


3.1 基於深度學習和遷移學習的立體匹配

KITTI2012和KITTI2015是標準的立體匹配測試數據集[15]。數據包括糾正後的立體圖像(即核線立體圖像)與深度圖,分別由安裝在車輛上的立體相機和LIDAR獲取。KITTI2012和KITTI2015各包含約200景圖像。針對該數據集,目前許多立體匹配算法都公佈了在該數據集上的測試結果。根據網站實時信息,深度學習的方法佔據前10,SGM約排在30名左右。

如何有效地將KITTI數據集的訓練模型應用於航空遙感圖像密集匹配是興趣點。數據爲20幅航空圖像,同時以LIDAR點雲獲取的深度圖作爲參考基準。受顯卡容量限制,將航空圖像裁剪到1000×300像素大小,並生成384幅立體像對用於測試。由於傳統立體匹配的方法並不需要訓練集,爲公平起見,只在開源的KITTI數據集上訓練模型,然後將模型直接應用於航空數據集上。訓練和測試在Nvidia顯卡Titan Xp上執行。表 1列出了SGM、SURE軟件、MC-CNN[34]及GC-NET[35]的比較結果。前二者爲經典的立體視覺方法,後二者是深度學習方法的代表作。其中,MC-CNN只學習匹配代價,其他代價聚合、一致性檢驗部分與SGM相同;而GC-NET是一種端到端的從立體像對直接獲取深度圖的CNN方法。表 1的結果顯示,SGM的精度最低,而SURE最高。MC-CNN和GC-NET近似相等。比SGM要高出5個百分點,但比SURE低將近2個百分點。括號中的數值表示:如果採用航空影像數據自身進行訓練,能達到的精度(訓練集與測試集容量比例約爲2:1)。圖 2是較有代表性的一幅立體像對。左邊是平地,右邊是有層次的建築物。圖 2(c)和圖 2(d)分別爲SGM和深度學習的結果。這兩種方法的唯一區別是代價函數的差異。綠色爲正確匹配點,紅色爲錯誤點。無論是SGM還是深度學習的方法都在平地區域表現優秀。而在複雜的建築物區,MC-CNN則更加優異。在深度急劇變化的邊緣,SGM明顯失誤更多。雖然SURE的精度要比深度學習方法略高,但SURE用到了多視匹配的策略,而深度學習方法只利用了立體約束條件。因此,可以預見深度學習方法將會有很大的提升空間。


表 1 各類方法在航空測試集上的錯誤率

Tab. 1 Results of different stereo methods on aerial dataset


圖2 SGM(c)與MC-CNN(d)結果比較

Fig.2 Results comparison between SGM and MC-CNN


3.2 基於3D卷積的時空農業數據精細分類專題圖

試驗數據包括兩套2015年不同區域的高分2號(GF-2)數據(表 2)。數據1含4波段(紅外、紅、綠、藍)4時相(6、7、8和9月)。根據目視判別的結果,影像覆蓋區域內主要地物爲玉米、樹木、水稻和高粱。對各地物類隨機選取訓練樣本400個,測試樣本2000個。數據2含4波段(紅外、紅、綠、藍)7時相(6月17日、7月8日、7月27日、9月9日、9月19日、11月7日和11月17日)。影像範圍內主要地物爲:道路、荒草地、居民地、空地、林帶、溼地、水稻、水面、秧地和玉米。隨機選取訓練樣本3180個,測試樣本890個。以數據一爲例,單通道樣本窗口大小爲8×8,每個樣本塊大小爲16×8×8。其中16通道的順序是:先紅外波段的4個時相,再紅波段的4個時相,以此類推。


表 2 試驗數據信息

Tab. 2 The information of the experimental data


本次試驗的目的是爲了驗證在作物分類中,理論上更優秀的3D CNN是否更好地作用於多時相數據,並與2D CNN以及傳統分類方法對比。

採用了圖 3所示的針對多光譜多時相數據的網絡架構。其中,原始輸入m@n×8×8指:樣本大小爲n×8×8的張量,n爲時相,8×8爲單通道的寬和高,m爲光譜段。32@則指當前層的神經元個數爲32。該架構採用了3層3D卷積神經元網絡和2層全連接層。

圖3 多光譜多時相遙感數據分類的3D網絡架構

Fig.3 The 3D CNN for multi-spectral multi-temporal remote sensing data classification


表 3對比了2D CNN、3D CNN、SVM、KNN、PCA KNN的測試精度與全圖分類精度。可以看出,在兩類精度上,CNN要高於SVM、KNN和PCA等方法;3D CNN略優於2D CNN。圖 4爲不同方法對高分2號兩套數據進行全圖分類的結果圖。


表 3 不同方法訓練精度及分類精度對比

Tab. 3 Comparison of different methods on test accuracy and pixel wise classification


圖4 高分2號數據1不同方法分類效果圖

Fig.4 Classification results of different methods of GF2 data 1


本次試驗與計算機視覺中的大量關於圖像標籤分類文獻的結果相符合。在遙感圖像的分類中,基於CNN的方法同樣超越了傳統的分類方法。在此基礎上,引入了3D卷積,應對多時相多光譜數據,並得到了比2D CNN更好的分類精度。


4 結論

本文首先回顧了攝影測量與深度學習的歷史,並分析了二者間的緊密聯繫。然後,介紹了深度學習以及卷積神經元網絡的基本思想;分析了攝影測量與遙感、計算機視覺、機器學習等領域的相關發展。最後,結合筆者的研究介紹了深度學習在圖像立體匹配和作物分類專題圖提取中的應用。

得到以下結論:第一,目前深度學習並不適合攝影測量中純幾何領域,其定位、定向精度低於光束法區域網平差、SfM、SLAM等經典方法。第二,在圖像匹配和3D幾何重建中,深度學習表現出色,在標準數據集上遙遙領先,但是目前的主流3D重建算法依然以多視SGM等經典方法爲核心,深度學習可能需要更龐大的訓練集才能做到真正的領先。第三,在圖像語義提取和分類中,深度學習方法已經全面領先於傳統的機器學習方法,但目前迫切需要更龐大、更專業的遙感標籤數據庫以訓練更好的模型。最後,利用深度學習的學習和泛化能力,端到端地實現遙感圖像到語義專題圖的提取,將爲現代攝影測量的發展提供契機。

此外,本文借鑑遷移學習的思想,研究了基於深度學習的航空圖像密集匹配,並取得比SGM更好的結果。同時,首次採用3D CNN提取作物的時空生長趨勢,並取得比傳統分類方法和2D CNN更好的作物精細分類專題圖。這兩個試驗作爲拋磚引玉,期待相關學者發展更好的深度學習算法並自動化、智能化地應用到攝影測量領域;最終實現攝影測量定義中“幾何”與“語義”的完備性。

【引文格式】龔健雅, 季順平. 攝影測量與深度學習[J]. 測繪學報,2018,47(6):693-704. DOI: 10.11947/j.AGCS.2018.20170640

來源:測繪學報(版權歸原作者及刊載媒體所有)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章