“無中生有”計算機視覺探奇

轉自https://zhuanlan.zhihu.com/p/21341440 作者：魏秀參

計算機視覺 (Computer Vision, CV) 是一門研究如何使機器“看”的科學。1963年來自MIT的Larry Roberts發表的該領域第一篇博士論文“Machine Perception of Three-Dimensional Solids”，標誌着CV作爲一門新興人工智能方向研究的開始。在發展了50多年後的今天，我們就來聊聊最近讓計算機視覺擁有「無中生有」能力的幾個有趣嘗試：1）超分辨率重建；2）圖像着色；3）看圖說話；4）人像復原；5）圖像自動生成。可以看出，這五個嘗試層層遞進，難度和趣味程度也逐步提升。（注：本文在此只談視覺問題，不提太過具體的技術細節，若大家對某部分感興趣，以後再來單獨寫文章討論 :)

超分辨率重建 (Image Super-Resolution)

去年夏天，一款名爲“waifu 2x”的島國應用在動畫和計算機圖形學中着實火了一把。waifu 2x藉助深度「卷積神經網絡」(Convolutional Neural Network, CNN) 可以將圖像的分辨率提升2倍，同時還能對圖像降噪。簡單來說，就是讓計算機「無中生有」的填充一些原圖中並沒有的像素，從而讓漫畫看起來更清晰真切。大家不妨看看下圖，真想童年時候看的就是如此高清的龍珠啊！

不過需要指出的是，圖像超分辨率的研究始於2009年左右，只是得力於「深度學習」的發展，waifu 2x可以做出更好的效果。在具體訓練CNN時，輸入圖像爲原分辨率，而對應的超分辨率圖像則作爲目標，以此構成訓練的“圖像對”(image pair)，經過模型訓練便可得到超分辨率重建模型。waifu 2x的深度網絡原型基於香港中文大學湯曉歐教授團隊的工作[1]。有趣的是，[1]中指出可以用傳統方法給予深度模型以定性的解釋。如下圖，低分辨率圖像通過CNN的卷積(convolution) 和池化(pooling) 操作後可以得到抽象後的特徵圖 (feature map)。基於低分辨率特徵圖，同樣可以利用卷積和池化實現從低分辨率到高分辨率特徵圖的非線性映射 (non-linear mapping)。最後的步驟則是利用高分辨率特徵圖重建高分辨率圖像。實際上，所述三個步驟與傳統超分辨率重建方法的三個過程是一致的。

圖像着色 (Image Colorization)

顧名思義，圖像着色是將原本「沒有」顏色的黑白圖像進行彩色填充。圖像着色同樣藉助卷積神經網絡，輸入爲黑白和對應彩色圖像的image pair，但是僅僅通過對比黑白像素和RGB像素來確定填充的顏色，效果欠佳。因爲顏色填充的結果要符合我們的認知習慣，比如，把一條汪星人的毛塗成鮮綠色就會讓人覺得很怪異。於是近期，早稻田大學發表在2016年計算機圖形學國際頂級會議SIGGRAPH上的一項工作[2]就在原來深度模型的基礎上，加入了「分類網絡」來預先確定圖像中物體的類別，以此爲“依據”再做以顏色填充。下圖分別是模型結構圖和顏色恢復demo，其恢復效果還是頗爲逼真的。另外，此類工作還可用於黑白電影的顏色恢復，操作時只需簡單的將視頻中每一幀拿出來作colorization即可。

"看圖說話" (Image Caption)

常說“圖文並茂”，文字是除圖像外另一種描述世界的方式。近期，一項名爲“imagecaption”的研究逐漸升溫起來，其主要任務是通過計算機視覺和機器學習的方法實現對一張圖像自動地生成人類自然語言的描述，即“看圖說話”。值得一提的是，在今年的CV國際頂會CVPR上，image caption被列爲了一個單獨的session，其熱度可見一斑。一般來講在image caption中，CNN用來獲取圖像特徵，接着將圖像特徵作爲語言模型LSTM（RNN的一種）的輸入，整體作爲一個「end-to-end」的結構進行聯合訓練，最終輸出對圖像的語言描述（見下圖）。

目前image caption領域的最好結果[3]來自澳大利亞University of Adelaide的Chunhua Shen教授團隊。與之前image caption工作相比，他們的改進與剛纔提到的顏色恢復簡直有異曲同工之妙，同樣是考慮利用圖像中物體的類別作爲較精準的“依據”來更好的生成自然語言描述，即下圖中的紅色框框圈起的部分。Image caption的急速發展不僅加速了CV和NLP在AI大領域內的交融，同時也爲增強現實應用奠定了更加堅實的技術基礎。另外，我們更樂於看到今後日趨成熟的image caption技術嵌入到穿戴式設備上，那一天盲人便可以間接的“看到光明”。

人像復原 (Sketch Inversion)

就在六月初，荷蘭科學家在arXiv上發佈了他們的最新研究成果[4]——通過深度網絡對人臉輪廓圖進行「復原」。如下圖所示，在模型訓練階段，首先對真實的人臉圖像利用傳統的線下邊緣化方法獲得對應人臉的輪廓圖，並以原圖和輪廓圖組成的“圖像對”作爲深度網絡的輸入，進行類似超分辨率重建的模型訓練。在預測階段，輸入爲人臉輪廓（左二sketch），經過卷積神經網絡的層層抽象和後續的“還原”可以逐步把相片般的人臉圖像復原出來（右一），與最左邊的人臉真實圖像對比，足夠以假亂真。在模型流程圖下還另外展示了一些人像復原的結果，左側一列爲真實人像，中間列爲畫家手工描繪的人臉輪廓圖，並以此作爲網絡輸入進行人像復原，最終得到右側一列的復原結果——目測以後刑偵警察再也不用苦練美術了

“無中生有”計算機視覺探奇

超分辨率重建 (Image Super-Resolution)

圖像着色 (Image Colorization)

"看圖說話" (Image Caption)

人像復原 (Sketch Inversion)

SIGGRAPH 2016 papers

SIGGRAPH 2014 papers

判別模型和生成模型

“無中生有”計算機視覺探奇

A Beginner's Guide to Recurrent Networks and LSTMs

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結