NeurIPS 2018亮點選讀:深度推理學習中的圖網絡與關係表徵

機器之心原創

作者:Angulia Chao

編輯:Haojin Yang、Hao Wang

本文從深度推理學習中的圖網絡與關係表徵入手介紹相關 NeurIPS 2018 論文。

1. 介紹(Introduction)

作者簡介:Angulia Yang 畢業於新加坡國立大學,目前從事人工智能相關計算機視覺 (Computer Vision) 的研究與開發工作,主要工作方向集中爲遷移學習與語義分割,近期對強化學習與生成模型進展也有持續關注。在工程師的角色之外,我也是機器之心的一枚業餘分析師與撰稿人,對編程技術與計算機視覺前沿工作保持時刻關注,通過文字與大家分享我對前沿工作的剖析和新技術的理解,並從中收穫啓發與靈感。一直相信 AI 技術的產生與發展不是壁壘與掠奪,而是互助與分享,AI For The Greater Goods of Everyone。

Angulia Yang 機器之心個人主頁:https://www.jiqizhixin.com/users/9cfaced6-c84b-45bf-bfc4-861e14f74742

今年的 NeurIPS 2018 話題感滿滿,改名風波不斷,開發註冊 11 分鐘門票就被搶光,到歷史最高紀錄的 4856 份投稿,最終會議錄取了 1011 篇論文,其中 Spotlight 168 篇 (3.5%),oral 論文 30 篇 (0.6%)詳細數據統計可以參考我們以前的文章

針對這一千多篇 NeurIPS 2018 的錄取文章,目前會議官方僅僅只放出了它們的題目與摘要,所以本文作者爬取了所有的文章題目,並且利用詞雲(Word Cloud)進行了錄取文章中關鍵詞的提取和統計,得到了如下的詞圖:

圖 0. NeurIPS 文章標題詞圖。

根據詞圖不難看出,深度學習與神經網絡仍然是今年 NeurIPS 獲選文章中的主旋律,強化學習(Reinforcement Learning),貝葉斯(Bayesian),生成模型(Generative Model)也較往年看仍持續了很高的關注度。然而除卻傳統熱點,今年圖(Graph)與表徵學習(Representation)在接收文章中表現出很強勢的上升勢頭和關注度,可以推想,深度網絡在作爲極強大的特徵抽取工具的同時,在複雜的學習任務中,如何利用它進行高效的特徵表示,以及如何有效地獲取和利用上下文關聯信息,這些方向獲得了來自學界的更多關注和探索。本文側重關注今年關鍵詞中提升較爲明顯的圖(Graph)與表徵學習(Representation)應用在視覺任務上的相關工作。筆者分別從兩個大的話題下挑選了幾篇比較有特點的文章進行詳細介紹(文章來源於作者提前發佈在 arxiv 上的預印版,可能也會與之後的官方版本有小小的出入),此外有部分文章由於篇幅緣故或是在截稿之前還未在 arxiv 等網站放出預印版,但是本身也有不錯的亮點,文章也進行了簡要的總結和閱讀建議。

作者注:文章篇幅有限,挑選的文章也有相對的作者個人偏好和研究興趣側重,所以非常抱歉沒有能夠涵蓋自然語言處理、純優化算法討論、貝葉斯學習以及另外一些視覺方面的好文章,大家可以關注機器之心的 NeurIPS18 單篇文章分享。

2. 圖網絡(Graph Network)

論文:Out of the box reasoning with graph convolutional nets for factual visual question answering

論文鏈接:https://arxiv.org/abs/1811.00538

看圖問答(Visual Question Answering,VQA)是根據給定的圖像準確回答對應問題的一類綜合任務,它同時要求算法有能力分析理解圖像的內容,並且對提出的問題進行語義抽取、關鍵知識解析。較爲常見的圖像問答(Visual Question Answering)可以直接從圖像內容獲取到問題的答案無須推理過程,然而基於事實的圖像問答(Fact-based Visual Question Answering, FVQA)需要根據問題中的文字表述結合,問題不再直接包含答案內容,而是在問題中提供一個事實(Fact)與相應的推理關係(Relation), 從而能夠映射到答案本身的實體上,即相較於看圖問答(VQA),事實圖像問答(FVQA)多了一個推斷(Reasoning)的過程。因此基於事實的圖像問答任務不僅包含圖像與相應問題及其答案的語料,還攜帶了一個數量巨大的知識庫(Knowledge Database)裏面包括了從各個來源提取到的事實(Fact),先前提出的方法即是基於深度學習在龐大的知識庫中進行篩選,得到最終能夠直接映射到問題答案的事實(Fact)實體,另一部分分支網絡則對圖像進行必要的分析和識別,最終匹配篩選好的事實和圖像分析結果來得到問題的答案,兩個學習過程通常來說也是異步的。然而 NeurIPS 2018 這篇「out of the box reasoning with graph convolutional nets for factual visual question answering」工作提出了基於圖卷積的網絡試圖同步學習事實上下文的推理過程與圖像內容理解,之前深度網絡篩選事實的這一訓練過程用圖卷積網絡代替它成爲一個端到端的推理系統,基於此思想,文章最終取得的準確度比之前的 State of the art 工作高出 7%。

圖 1. FVQA 數據集格式以及問答結果。

基於事實的圖像問答任務(FVQA)輸入數據由成對的圖像與其對應的問題,外加包含大量事實的知識庫(Knowledge Base, KB),圖像均爲常見的 RGB 彩圖,問題則是簡單的短句問句,值得一提的是額外的事實(Fact)在知識庫中以形如 f=(x,y,r) 的三元組來表示,x 指代圖像中的實體信息,y 指代屬性或者短語,r 則是關係介詞(比如從屬關係,是非關係,位置關係等)。

文章提出的方法由兩大模塊構成:事實追溯(Fact Retrieval)與答案預測(Answer Prediction)。

圖 2. 網絡結構圖,左邊爲事實追溯模塊,右邊部分爲答案預測。

在第一個模塊中,首先得到處理後事實(Fact)、圖像中的視覺概念(Visual Concept)與問題(Question)的 Glove 詞嵌入(Glove Embeddings)信息,之後計算 Fact 與二者之間的餘弦相關性(Cosine Similarity)並按照相關性對追溯到的 Fact 進行排序,同時取正相關的前一百條事實(Top-rank 100 Fact)作爲一個初篩的小型知識庫,之後根據 LSTM 處理後提取出來的問題中的關係(Relation in Question)作爲 Ground-Truth 進一步提取過濾符合該關係下的 Facts,得到最終的相關實體集合 E(Relevant entities under certain relation),可表示爲:

作者注:記得上一段提過一條事實(fact)是一個(x,y,r)的三元組合,由於關係 r 已經確定,剩下只是同樣關係下的 x, y 元素組合。

至此第一模塊類似於預處理和預篩選的功能全部完成。

進入第二個答案預測(Answer Prediction)的模塊,將圖像中的視覺概念(Visual Concept)與問題的 Glove 詞嵌入表示(Glove Embeddings)以及相關事實的詞嵌入表示作爲三部分的特徵進行連接形成完整的一條大特徵實體 e(feature entity), e 則代表圖卷積網絡(Graph Convolution Network, GCN)中的一個節點(Node),由兩個隱層的 GCN 與一層 MLP 形成的網絡進行訓練,網絡採用隨機梯度下降(SGD)與交叉熵損失(Cross-entropy Loss)進行最終的答案預測。

圖 3. FVQA 實驗結果,事實條目取 rank-100 時得到最高準確率。

綜合看來這篇文章挑選的任務是非常有趣的,相較於以往的圖像問答任務,FVQA 在問題的設計中添加了需要進行關係分析與推理(reason)的部分,在圖像理解和自然語言處理方面是一個非常有意義的跨模態任務,而文章採用一種端到端(end-to-end)的形式把涉及到的數據輸入做了一個特徵拼接,同時用圖卷積網絡介入嘗試完成推理過程,並在該任務上達到了 state of the art,這些都是不錯的亮點。但是稍有不足之處在於採用圖卷積網絡所做的『推理』仍然是功能非常有限,更多只是在基於 LSTM 的特徵提取上做了一個分類工作,並沒有太看到利用圖的聯通特性進行更多有效的推理過程,以及在第一部分處理過程中也變相的進行了知識庫中的事實篩選,且其中部分篩選器目前還是獨立於整個系統之外的,無法實現真正意義上的端到端學習訓練。

論文:GloMo: Unsupervisedly Learned Relational Graphs (推薦)

論文鏈接:https://arxiv.org/pdf/1806.05662.pdf

現今深度學習時代下的遷移學習(Transfer Learning)在自然語言處理(NLP)或是視覺任務(CV)中都發揮着非常顯著的作用,如同之前有名的畫風遷移(Style Transfer)應用就是遷移學習的一個直觀應用。遷移學習的過程通常爲:在較成熟的任務 A 中的網絡裏學到數據的特徵表達,然後將特徵用於學習新的任務 B,使得新任務的訓練變得更爲容易。

圖 4. 傳統遷移學習的特徵遷移過程。

從整個過程中我們也不難體會到遷移學習涉及的關鍵就是如何從數據中抽取學習到通用性很強的特徵,GLoMo: Unsupervisedly Learned Relational Graphs 這篇文章看到了圖(Graph)在關係學習中的優勢,提出了名爲 GLoMo(Graphs from Low-level unit Modeling)的框架,意在學習成對的數據(Pair Data Units)之間潛在的依賴關係構成的圖,這樣的潛在關聯圖(Latent Relational Graph)意在從大量的無標籤數據中學習到一個關聯矩陣(Affinity Matrix),整體框架如下圖所示,不同於之前傳統遷移學習框架在不同任務之間進行特徵的直接遷移使用,GLoMo 通過大量的無標籤數據訓練一個神經網絡輸出得到最終的一個關係圖(Latent Graph),利用遷移過來的關係圖與任務本身學到的特徵相乘得到結構性加強的特徵,從而對下半程的任務訓練進行效果加強。這樣的遷移學習機制不僅可以用圖中的每個節點更好的表示數據的語義信息,同時也使學習到的特徵具有結構感知的能力,將學習到各個節點的交互信息存在圖中,最終 GLoMo 也在圖像問答(Image Question Answering),自然語言推演(Natural Language Inference),情感分析(Sentiment Analysis),圖像分類(Image Classification)等 NLP 與 CV 任務中均取得了不錯的成績,以證明 GLoMo 的圖狀結構化信息遷移框架應用在不同的任務上都是非常有幫助意義的。

圖 5. GLoMo 遷移學習過程, 特徵利用圖網絡在主要學習的 TaskB 上進行了特徵加強。

接下來我們具體看一看 GLoMo 的一個完整學習流程:

圖 6. GLoMo 網絡結構流程圖。

GLoMo 整體由特徵預測(Feature Predictor),圖預測(Graph Predictor),下游任務模型(Downstream task model 可認爲是整個學習任務的主要模型)三個部分組成,通過無監督學習與特徵遷移兩個階段將它們串聯起來。當處於無監督學習的階段時,特徵預測器與圖預測器進行共同訓練從而得到上下文信息的一個預測結果,同時 RNN 解碼器應用於特徵預測的所有位置得到輸出,待到特徵遷移階段,圖預測的權重進行凍結並且抽取出相應的圖網絡特徵輸出,作爲權重與特徵預測器產生的特徵進行加權取和操作(weighted sum)爲下游的主要任務模型服務。

GLoMo 在多個獨立任務的數據集下都進行了關係圖的遷移實驗,最終結果都取得了一定的提升:

圖 7. GLoMo 在多項 NLP 相關任務的 benchmark 上取得的結果。

GLoMo 這篇以無監督的方式學習數據中潛在的關聯信息轉換爲圖結構,並利用學到的特徵對新訓練任務進行特徵加強,使得網絡學習到更具通用性的特徵。GLoMo 框架的設計有非常不錯的創新且能夠很好的泛化應用到不同的任務,且均取得了一定的性能提升,對於遷移學習的機制提出了新的思路,並且啓發學習數據間的潛在關聯來強化網絡特徵表示,是一篇非常值得一讀的論文,目前工程代碼以及訓練方式都還沒有公開,期待能有比較簡潔的訓練過程。另一方面,GLoMo 目前的實驗主要還是集中於自然語言處理的相關任務,視覺任務涉及不多,但是在如同視頻理解等較爲綜合的任務中,用圖來學習局部特徵之間的相關性,而不侷限於單個像素對之間的相關性,然後較好的做特徵遷移和利用,也同樣是值得思考和嘗試的方向。

論文:Symbolic graph reasoning meets convolutions (推薦)

本文目前只公開摘要

這篇論文在傳統卷積神經網絡(CNN)基礎上提出了一個名爲 SGR(Symbolic Graph Reasoning)的新網絡層,嘗試着利用外部的各種人類知識來賦予網絡進行全局語義推理的能力。與之前如 CRF 等獨立的圖模型不同的地方在於 SGR 可以被插入到任意的卷積層之間並使用先驗知識圖(Prior Knowledge Graph)進行初始化,圖中的節點分別表示先驗知識圖裏每條語義信息的不同特性。SGR 由三個主要部分構成:1. 原始卷積特徵投票產生語義圖節點(Local-to-semantic)2. 傳遞信息並保持語義一致性的圖推理模塊 3. 從語義特徵轉換回加強後的卷積信息表示(Semantic-to-local),目前該文章至截稿前還未提前發佈,根據文章的摘要提出 SGR 層加入後,對於傳統 CNN 在三個語義分割任務以及一個圖像分類任務在性能上都有了顯著的提升,將圖形結構化表達靈活加入網絡與對圖像分割任務特徵表達的加強,都是 SGR 這篇工作非常值得關注的閃光點與創新。

論文:Graph Oracle Models, Lower Bounds, and Gaps for Parallel Stochastic Optimization

論文鏈接:https://arxiv.org/pdf/1805.10222.pdf

這篇文章着眼於利用併發性在隨機優化與算法學習中的作用,提出一個普適性的先知框架(Oracle based framework),通過一個依賴關聯圖(Dependency graph)捕捉不同的隨機優化設置信息,並且由此圖推導出通用的算法下界(Lower bounds),文章着眼於找到通用的隨機算法的優化並探究在多重平行的算法優化設置條件下,算法模型的更新延遲以及通信過程的併發處理,現今的多數深度模型優化過程都是基於隨機優化的算法佔主導(如隨機梯度下降),所以文章的對此類優化算法的探索是比較有意義的,但文章相對較抽象,閱讀有較高的數學門檻,適合專注於算法優化的相關學者。

論文:M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

論文鏈接:https://arxiv.org/pdf/1802.04394.pdf

根據已知查詢命令作爲原始節點,在龐大的圖裏搜素尋找目標節點的尋路算法,是一個非常重要的研究問題,也在如知識圖庫補全(Knowledge base completion,KBC)等任務上有不錯的應用意義,通常這個問題可以被解構爲基於強化學習(Reinforcement learning)的狀態轉換模型(State transition model),但是單純強化模型在針對稀疏獎勵的(Sparse reward)情況下效果並不太好,故 M-walk 結合循環神經網絡(RNN)以及因爲 alphago 名聲大振,以搜索見長的蒙特卡洛樹(MCTS),開發出在圖中行走搜索的算法代理,嘗試在稀疏獎勵的環境下提升準確性的尋路方式。M-walk 通過 RNN 編碼尋路狀態並且將它分別映射爲選路策略(Policy)和 Q-values,訓練階段,蒙特卡洛樹協助神經網絡策略產生尋找目標的路徑,這種情況下產生的路徑更容易找到反饋爲正的目標獎勵,實驗結果表明 M-walk 比其他基於強化學習的方法學到更好的尋路策略,同時也在效果上超越了傳統的知識圖庫補全任務(KBC)的 baseline。文章屬於偏工程實踐的工作,研究的問題有不錯的應用價值, 此外文中創新式地利用蒙特卡洛樹的加入輔助解決稀疏獎勵的難點,都是文章的亮點。

3. 表徵學習(Representation)

論文:Learning Plannable Representations with Causal InfoGAN (推薦)

論文鏈接:https://arxiv.org/pdf/1807.06358.pdf

GAN 近年來在圖像、語音、甚至視頻這樣的高維度數據(High dimensional data)的學習方面都展示了非常強大的模擬能力和「想象力」,Causal infoGAN 則是針對動態系統設計的以目標爲導向的可視化規劃網絡(Goal-directed visual plans)。它使用可視化的方式將動態系統由當前狀態到理想目標狀態的推理過程通過 GAN 學習進行表達,並將這個規劃模型通用到離散或是連續型的狀態,最終將生成的路徑規劃投射到一系列存在時序關係的視圖進行表達和展示。

對於未來機器人,我們期待在非特定場景下完成一些常規任務時他們擁有對所處場景的基本推理能力並由此能自治地規劃自己的行動,在人工智能的研究範疇內對這個問題的探索主要發展爲兩個分支:自動化規劃與調度(Automated planning and scheduling)與強化學習(Reinforcement Learning)。自動規劃調度很大程度上都依賴於人類本身的先驗觀察以及邏輯設計,但是對於難以界定的形變(比如繩子扭曲程度)和狀態判定有着固有的缺陷,當前的大多數工作都是基於深度神經網絡的強化學習,通過制定學習策略(Policy)試錯以及合適的獎勵函數(Reward function)設計,目前強化學習針對很多特定任務都已取得很好的效果,但也正因如此,許多強化學習方法對於特定任務所設計的獎勵函數很難輕易的泛化和遷移到其他任務,目前提出的幾個致力於構建多任務通用的強化學習方法很難做到樣本高效性(Sample efficient,針對類似於圖像這樣的高維度輸入設計獎勵函數具有很強挑戰性),提出的通用方法受限於只能解決相對簡單的決策問題(Decision making problem),另一方面,當前通用的強化學習方法多是基於環境的深度模型學習和規劃,學習過程經常分解細化到像素級別(Pixel level),這使得在強化學習過程中基於隨機搜索(Random-based search)的行爲選擇非常有效,規劃物體從初始狀態直接到目標狀態效果很好,即便如此,學習計算成本高昂而且從中學習到的表徵(Representation)是非結構化的,無論是長時間段的推理(Long-term reasoning)或者是擴展更復雜的高級決策問題,深度強化模型都仍然存在不足。

基於如上考量,Causal infoGAN 嘗試結合深度學習的動態模型和傳統的狀態規劃,成爲一個用於長時段推理規劃並能在真實場景下也可以有效感知學習的方法。

Causal infoGAN 框架的整體結構如下圖所示:

圖 8. 左邊 a 爲 Causal InfoGAN 整個網絡模型流程圖,右邊 b 爲狀態規劃策略。

首先從先驗概率分佈 P 中抽取抽象狀態 s, 根據 s 便可以使用轉換模型 T 獲取相對應的目標狀態 s',成對的 s 與 s' 樣本與一個隨機噪音樣本輸入到生成器(Generator)得到對應的 Causal Observations 輸出 o 同 o',而判別器(Discriminator)映射成對的 Causal Observations 到真實的概率分佈。右圖所示的規劃範式則具體展示了框架進行 causal 推理的過程,將初始和目標的 Observations 先映射爲抽象的狀態,之後應用相應的規劃算法(Planning algorithm)尋找和生成初始狀態到目標狀態間的中間路徑過程,也即是規劃過程,根據學習獲得的規劃模型,最終又反推得到一系列中間狀態路徑對應的 Observations。

圖 9. Causal InfoGAN,InfoGAN,DCGAN 對繩結扭曲過程模擬的可視化過程,可以看到 Causal InfoGAN 對繩子彎曲過程的變化預測更合理。

Causal infoGAN 在繩子打結這個任務下,將得到的規劃尋路 observations 以圖片形式展示出來並且與 infoGAN,DCGAN 做了對比。三個網絡都給出了自己從初始階段到目標狀態下規劃的結果,可以明顯看出 Causal infoGAN 展示的規劃過程是繩子打結過程推演最符合邏輯的,證明 Causal infoGAN 確實具有合理規劃長時段任務的能力,目前文章網上已經有 infoGAN 的 github 項目,causal infoGAN 項目的 github 已建立但仍爲空,期待作者會在短期放出,現下驗證算法的實驗多集中於嘗試性實驗(toy experiments),我們可以期待該算法作爲啓發在後續能應用到真實場景下機器人多行爲控制實驗中,同時可以有機會在同等任務下與前沿的強化學習模型做一個更全面的橫向對比,總的來說 Causal infoGAN 是一個比較簡潔而且思路新穎的算法,對後續的機器人控制算法研究也具有不錯的啓發意義。

論文:Flexible Neural Representation for Physics Prediction (推薦)

  • 論文鏈接:https://arxiv.org/abs/1806.08047
  • 代碼地址:https://neuroailab.github.io/physics/

這篇文章與其說是爲了解決一個細分領域的問題,不如說是一種對學習解構場景的新型範式探索。文章提出一個名爲層次化關係網絡(Hierarchical Relation Network, HRN)的端到端(End-to-end)可微神經網絡,HRN 試圖將空間環境中的物體用層次化的卷積圖進行表達(Representation),並在此種表達下學習去預測物體的動態物理變化。相比於其他的神經網絡結構,HRN 能夠準確地把握住物體在碰撞,非嚴重變形情況下的複雜變化,並預測較長時間段內物體可能產生的動態變化,這表明這樣的表徵結構和網絡極有潛能成爲新一代視覺任務,機器人或定量認知科學下的物體預測基石。

圖 10. 將一個完整的物體用粒子團表示,之後再抽象爲樹狀的結構化表示。

人類對於環境的感知能力向來都敏捷而強大,對於眼前場景人類能夠在很短時間內將它們解構爲不同的獨立物體(Object),當場景中有物體發生碰撞或者形變等改變時,人眼也能在一段時間內敏銳地察覺到這一系列變化。然而神經網絡面對同樣的變化就沒有如此的感知能力,所以文章提出爲了使網絡同樣具備對物理變化的感知能力,將一個物體解構爲更小的粒子(Particles)集合,同色的粒子作爲一組,通過結構化的組合,最終形成圖來表達物體中的層級關係,粒子羣組間也添加關聯限制,這樣當物體產生變化的時候根據粒子間關聯束縛的改變,整個物體的狀態改變也能被預測感知。

圖 11. HRN 網絡感知與反饋流程。

HRN 模型將狀態變化前的粒子圖(Particles graph)作爲網絡輸入同時輸出預測產生的下一個狀態。從圖中可以看到,結構化卷積圖模塊將粒子各部分產生的影響求和輸入,粒子對的狀態和彼此之間的關聯也將這樣的影響進一步傳導下去,最終在網絡出口計算出粒子的下一狀態。

圖 12. 圖中 a-h 分別爲不同情況下,HRN 對於物體在立體空間中碰撞或形變過程的狀態預測與可視化模擬結果。

通過模擬物體在立體環境空間中碰撞或者形變後產生的狀態改變,可以觀察到 HRN 應用下,物體狀態預測與 ground truth 的對比圖。在一段連續時間之內,物體的形變和空間位置轉變被很好的模擬預測了出來。文章證明了物體在圖結構組織下的粒子表徵,以及 HRN 應用後對場景物體變化的感知確實有幫助,並且爲未來算法模型對環境感知的能力提升開了一個非常不錯的頭,目前文章代碼也已陸續公開,在這篇文章的基礎上,我們同樣可以期待下一個面對真實場景的 HRN 能做到的感知實驗。

論文:Beyond Grids: Learning Graph Representations for Visual Recognition (推薦)

本文目前只公開摘要

文章從視覺識別任務裏提取 2d 特徵圖,之後從中提出學習型圖(learning graph),將二維的平面圖像轉換爲圖結構從而形成了新形式的表徵方法。文章提出的方法還可以通過圖形結構將信息傳播到所有的圖節點下,並且能將學到的圖表示映射回 2D 網格之中。文章的圖表徵在常規網格之上進行了推理可以捕捉圖像子區域之間的長時段依賴關係,支持端到端的訓練並且能夠容易的整合到現存的網絡模型中,文章在三個非常有挑戰性的視覺任務:語義分割,目標檢測與物體實例分割上都做了實驗評估,最終文章陳述的方法實驗結果均好於當前 state-of-art 結果。這篇文章目前截稿爲止只放出了摘要部分,立意選取爲前沿的視覺任務的圖表徵方式,工程性方面支持與當前網絡整合且有端到端的訓練方法,結果根據其表述更是在多個高級視覺任務當中取得了非常好的結果,綜合其結果和方法描述可以說是本屆會議非常值得期待的一篇工作。

論文:Learning Hierarchical Semantic Image Manipulation through Structured Representations

論文鏈接:https://arxiv.org/pdf/1808.07535.pdf

理解、推斷以及操縱圖像中的語義概念是一個長青的研究課題,這篇工作向我們展示了一個新穎的結構化語義圖像操作(semantic image manipulation)框架,高光點在於這篇工作應用了一個結構化語義佈局(structured semantic layout)作爲框架進行操作的媒介表徵(intermediate representation)。這樣的框架優越性就在於能允許使用的用戶可以在物體實例層次(object-level)上增加,移除或者變更 bounding box。實驗評估結果也表明了此種表徵方式下的圖像操作框架無論在量級上還是最終效果上均優於現有的圖像生成填充模型(image generation and context hole-filing models),同時該框架也證實了其在語義實例分割,交互圖像編輯,數據驅動的圖像操作等任務方面的益處與可用性,這篇文章提出的結構化語義佈局是非常有趣的一個亮點,值得從事視覺相關研究任務的學者瞭解並閱讀其內在的優點。

4. 生成模型與強化學習(Generative Model and Reinforcement Learning Related)

論文:IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis (推薦)

論文鏈接:https://arxiv.org/pdf/1807.06358.pdf

本文是一篇較偏向應用的文章,不久之前的 PGGAN 生成高清人臉的文章(https://research.nvidia.com/sites/default/files/pubs/2017-10_Progressive-Growing-of/karras2018iclr-paper.pdf)發表後,變分自編碼器(VAE)等細化和提升的文章也陸陸續續發表,今天的這篇文章提出了名爲自糾正變分自編碼器(IntroVAE)的方法,通過在訓練過程中自我評估並做出糾正行爲,從而生成高清人臉。IntroVAE 保留了 VAEs 系列模型訓練穩定以及精緻的流體表達等優點,同時它不需要額外的判別器,最終生成了類比下同等或者更加優質的高清人臉。

圖 13. IntroVAE 網絡流程結構圖。

模型本身非常簡潔,主要框架就是推理模型(Inference model E)與生成器(Generator G),在輸入與特徵編碼之間形成一個閉環,從而達到 IntroVAE 想要實現的自評估的效果,訓練流程也與普通生成網絡大致無二。

圖 14. IntroVAE 網絡訓練算法過程。

圖 15. 圖中 a 爲人臉高清原圖,b 爲 PGGAN 生成的人臉,c、d 爲 IntroVAE 網絡的重構人臉以及人臉示例圖片。

最終生成的高清人臉從視覺效果來看也與之前的工作相差無二,文章亮點有限,但是基於 IntroGAN 能夠自我評估的機制,是否存在更加簡單的訓練方式以及更加輕量級的工作流程,期待能夠在後續的工作中看到。

5. Other recommendation on the List

1. efficient loss based decoding on graphs for extreme classification

Image Generation and Translation with Disentangled Representations

論文鏈接:https://arxiv.org/pdf/1803.03319.pdf

2. Submodular Field Grammars: Representation, Inference, and Application to Image Parsing

論文鏈接:https://homes.cs.washington.edu/~pedrod/papers/nips18.pdf

3. Adaptive Sampling,Towards Fast Graph Representation Learning

論文鏈接:https://arxiv.org/pdf/1809.05343.pdf

4. Visual Reinforcement Learning with Imagined Goals

論文鏈接:https://arxiv.org/pdf/1807.04742.pdf

5. Graphical Generative Adversarial Networks

論文鏈接:https://arxiv.org/pdf/1804.03429.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章