圖形學創世紀:當科學照進影視與生活

SIGGRAPH是由ACM SIGGRAPH(美國計算機協會計算機圖形專業組)主辦的計算機圖形與交互技術年度頂級會議,它集科學、藝術、商業於一身。歷年大會都有豐富的成果展 示,我們熟知的像素、圖層、頂點等概念都是在SIGGRAPH上發表的學術報告,Pixar著名的《小檯燈》動畫短片也是首先在SIGGRAPH上展示 的。2013年7月21日–25日,這一盛會迎來了它的40週年慶典。

本文原題“圖形學創世紀——寫在SIGGRAPH 40年的邊上”,作者爲微軟亞洲研究院研究員童欣博士。文章從影視工業、生活等方面闡述了圖形學的應用,全文略長,耐心看完可以瞭解到不少科學照進生活之美。

引言:

今年的SIGGRAHP在美國加州西南部城市阿納海姆舉行,有超過一萬七千名參會者,近兩百家商業公司參展。在大會的演講、圓桌、論文、展示等環節,超過一千三百位演講人蔘與其中。

藉着這次大會,我們也回顧了一下,這些年來圖形學在影視工業得到應用的里程碑事件,以及它對人們生活日漸加深的影響。我們會發現,從最初的光影和水滴,到複雜一些的植物和動物,再到人的表情和毛髮,這恰好是一段圖形學的創世紀故事。展望未來,還有更廣袤、更讓人驚奇的三維世界,等待着我們一起去探索,去創造。

圖形學的創世紀:從光影、怪獸毛髮到人的表情

對普通人來說,電影動畫是我們在日常生活中與計算機圖形學接觸最多也是最直觀的領域之一。計算機動畫節(Computer Animation Festival)是SIGGRAPH的一項重要活動,展示最前沿的電影、數字遊戲和視頻成果。

許多朋友可能被最近上映的《環太平洋》中真實、絢麗的光影效果所震撼。圍繞這部電影涉及的技術,SIGGRAPH上有許多相關展示。在這部電影之前,由於CG技術的限制,許多效果還無法通過計算生成,畫面中的雨滴不是高反光,倒更像是發光的小燈泡,夜景中的主體輪廓也很難顯示清楚,製作公司更多地是做貼圖方面的工作,比拼的是合成與後期調整。

不過工業光魔(ILM)在這部電影中邁出了一大步:決戰場景設在香港雨夜,使用霓虹燈與海浪打光,主光源照在動態怪獸身上,烘托出真實凝重的氣氛。新技術的應用是這部電影成功的關鍵因素之一,這是全球電影行業等待了十年的結果。明年,我們將在更多新作品中見到CG的光影。

不過更多時候,觀衆已經很自然地接受了電影中計算機生成的圖像,察覺不出細微之處的改進。不過,其中涉及的圖形學技術,在這些年已取得了長足的進步。見微知著,用髮絲就可以說明。《玩具總動員》是第一部由計算機運用圖形學技術製作的長篇動畫,也是計算機圖形學技術應用的一個里程碑。不過在這部電影中,所有角色都只有光滑的表面——它們沒有毛髮,而到了《怪獸公司》,角色身上開始長出毛髮,再到去年Disney的電影《勇敢傳說》和今年的《怪獸大學》,主角已經擁有了蓬鬆、捲曲、自然的長髮。

從技術角度來看,直髮的運動相對規律,而捲髮的物理特性則複雜很多,尤其是運動中會涉及大量碰撞、摩擦,傳統技術很難真實模擬。爲了克服這些困難,工程師們使用了“粒子彈簧”模型等技術,假設頭髮之間用彈簧連接,這樣既能真實地呈現自然效果,還能方便藝術家控制人物的造型。

可不能小看了毛髮和表情的作用——如何讓電腦製作出的人物栩栩如生,一直是困擾藝術家和圖形學研究人員的難題,因爲觀衆對人的動作、皮膚、毛髮、表情特別敏感。2005年上映的CG動畫電影《最終幻想:降臨之子》,僅女主角的頭髮就花費了600萬美元一根根繪製出來,但票房上卻未達到預期,其中一個很重要的原因就是人物的毛髮、表情、動作顯得呆板,給觀衆一種虛假的感覺,無法將他們帶入到電影情節當中。

不過這一難題正被研究人員逐步克服。《指環王》中一些由電腦製作的角色已經擁有與人十分相似的表情,不過因爲它們還不是人,所以觀衆們對效果並不十分挑剔。而到了《阿凡達》,計算機制作的人物非常細膩,即使是挑剔的觀衆也感覺不到他們全出自計算機之手,這部電影是圖形學技術應用的另一個里程碑。

每個里程碑,都意味着一系列技術走向成熟。因爲製作長篇作品,不單要通過建模技術塑造人物和場景,也要靠繪製技術渲染光影效果,還需要具備人物動作的相關技術。最重要的是,能有一套可用系統,在有限的時間和資金前提下,工業化地生產出一部成品,它們是一個時代圖形學技術的集大成之作。

圖形學照進生活

專業技術令電影越來越震撼的同時,研究人員也正努力讓它們走進普通人的生活。《Dynamic Hair Manipulation in Images and Videos》是微軟亞洲研究院在SIGGRAPH 2013上入選的10篇論文之一,它提出了一種新方法創建3D頭髮模型。相對傳統基於多圖像的建模方式,新方法對輸入設備幾乎沒有要求,普通手機內置攝像頭拍攝的照片就可以滿足。它還允許用戶操縱圖片和視頻中的髮型。

真實感繪製的終極目標是既好又快地重現真實環境,過去的主要思路是直接計算場景對入射光照的反饋,但是由於光在場景中要經過無數次碰撞的複雜性,這些方法要麼速度慢,難以滿足實時應用的需要,要麼犧牲繪製質量,難以達到照片級的真實效果。電影中爲了達到逼真的效果,需要花費大量時間進行離線渲染。對計算能力的苛刻要求,幾乎讓它無法走近普通人的生活。

《Global Illumination with Radiance Regression Functions》是微軟亞洲研究院另一篇入選SIGGRAPH大會的論文,面對上述問題,它提出了一套全新的解決方案。神經網絡與全局光照兩個技術在各自的領域裏,都各自發展了許久,但從沒有人試着將這兩者結合。新的研究思路避開復雜的光線模擬,而通過場景各處的位置、紋理及光源信息,運用機器學習的方法直接預測圖像輸出。

這樣的想法,源自研究員對畫家作畫的觀察——儘管現實中三維場景的光線十分複雜,但畫家下描繪的二維圖像卻很有規律,有些畫家的作品其真實感甚至能與照片一較高低。既然畫家可以憑藉經驗和想象作畫,計算機爲什麼不能從數據中學習?

計算攝像學:給你個清晰的世界

過去幾年,隨着計算攝像學(它是圖形學與視覺的交叉學科)的發展,研究人員發展了很多圖像處理和數據捕捉新技術,用於彌補拍攝圖片或視頻時的不足。

這些技術的背後都得益於圖形學理論的發展,在最新的一些案例展示中,人眼已經完全無法識別的模糊圖像,經過算法處理,能自動分析出相機的抖動方向,再據此還原出清晰的原貌。不禁讓人感嘆計算機和算法是不是已經超過了我們人類。

微軟亞洲研究院也在SIGGRAPH上展示了兩項計算攝像學成果:一項是實時視頻穩定技術。使用手機或手持攝像機拍攝視頻,往往伴隨着不必可避免的抖動,造成畫面模糊不清,而視頻穩定技術能消除額外的晃動,提升視頻質量。在拍攝和分享視頻越來越流行的今天,這種技術頗具實用價值。

以往的視頻穩定技術大致可以分爲二維和三維相機抖動估算兩種。二維方式穩定、快速,但模型相對簡單,並不能處理複雜場景中的視差等問題。另一方面,三維方式可以修正視差,獲得更好的質量,但它的估算模型不穩定,容易在攝像機快速旋轉、鏡頭變焦等情況下失效。

微軟亞洲研究院提出的這項新技術,將視頻中的圖像分割爲多個矩形網格,每個區有都有單獨的相機路徑,這種靈活的模型可以處理由視差或捲簾式快門引起的複雜抖動和變形,同時又不失穩定和高效的特點。

另一項計算攝像學成果是“矩形全景圖”。我們都有這樣的經驗,手機拍攝的全景圖,邊界往往並不規則,但無論打印、分享還是發佈圖片,多數用戶更希望圖片具有規則的矩形邊緣。這時我們通常有兩個選擇:一是選擇其中邊界規則的矩形部分進行裁剪,但關鍵信息剛好處在不規則的邊緣時,只好捨棄,原本寬廣視角帶來的震撼效果也會大打折扣。二是保留所有圖像,但不得不接受難看的邊緣色塊。

而“矩形全景圖”則分兩步將圖片巧妙變形:先將圖片拉伸爲矩形,再根據原始圖片優化拉伸後的形狀和線條,這種方式儘可能地保留了邊緣部分,同時又能生成沒有色塊的矩形全景圖。這些變形很聰明,能保留照片中原始線條的方向,讓使用者幾乎察覺不到變形後的圖片與現實的區別。雖然這項技術並沒有很深的理論背景,但能解決現實生活中一個很影響用戶體驗的問題,是個十分出色的想法。

身臨其境的未來視頻通話

SIGGRAPH上一個關於人臉建模的技術演示引起了很多關注,它能利用視頻或深度攝像機,實時對人臉進行建模,捕獲面部表情並映射到另一個對象身上,這對將來提升實時會話體驗很有幫助。

難道我們現在利用手機、平板電腦進行視頻通話的效果不夠好麼?經常視頻聊天的朋友可能常常感覺眼神並不能與對方相接,這與我們當面交流還有微妙的差異。原因在於,攝像頭通常在屏幕上方,而聊天中的兩個人通常只會注視屏幕,而不會緊盯攝像頭。更麻煩的在於,多人視頻會議中,由於多個對象並行會話,爲了實現高質量的視頻效果,設置複雜,設備也非常昂貴。而將頭扭向一側時,在其他人看來往往會產生錯覺,不知道對方正在與誰交流。這些問題都很難通過傳統的視頻技術解決,而實時人臉建模則是一個可行的方案,目前已經有一些初創公司正在以此爲方向進行技術和產品的探索。

圖形學之外的帶感新思路

今年的SIGGRAPH大會還有一些精彩展示讓人眼前一亮,Disney Research的AIREAL就是其中一個,它將人與計算機的交互帶到了現實世界中。

近年來低成本的動作捕捉設備讓不少用戶有機會能通過手勢與電腦交互,然而這其中還缺少重要的一環——物理反饋。當使用者隔空與計算機生成的虛擬元素交互(例如接球、撞車),與我們在現實世界中有觸感的體驗差別很大。過去,爲了讓使用者有這方面的體驗,需要他們戴上力反饋手套、穿上力反饋背心。這些額外裝備不單價格不菲,更讓使用者平添束縛。

AIREAL配合深度攝像頭,以及能扭轉角度的噴嘴,對使用者的姿態做出實時反饋,讓使用者觸摸虛擬物體、感受不同紋理。它射出氣體渦環(Vortex Ring,類似我們平時見過的菸圈)——這是一種能長距離保持形狀和速度的空氣環,當它接觸皮膚,渦環破裂,由於內部壓力較低,便將觸覺傳遞給用戶。儘管這還是一項概念性的技術,但爲我們帶來了有益的啓發。

圖形學的夢想:消弭現實與虛擬的邊界

倘若每個用戶都能產生內容,將爲一個市場帶來空前的繁榮。回顧歷史,計算機視覺起初只應用在工業和軍事上,那時設備價格昂貴,普通人很少從中受益。而當攝像頭成爲手機標配,在技術與應用的相互促進下,這個領域變得絕然不同。互聯網上已經有像YouTube、Flickr、Instagram許多家市值上億美元的二維圖片、視頻服務公司,而三維領域還是一片無比巨大的荒原。

假如,每個普通用戶都能產生三維內容,可以想象,後續的繪製、動畫等技術也都將發揮功效。而作爲源頭的三維內容產生技術,是目前限制這個領域發展的瓶頸——普通用戶並沒有方便、易學的工具可用。

如果你曾使用3ds Max或Maya這樣的三維建模軟件,一定能體會它們的學習難度與手機上的圖片處理軟件間的巨大差別。即便是藝術家和專業人士,也需要長時間學習才能掌握創建複雜3D圖形的技能,對普通人來說,難度則更大。

以往用戶需要從頭開始輸入參數創造模型,而以Kinect爲代表的新一代體感控制器,能以一種易用、直接、低成本的方式,從現實世界中抽取物體的三維信息,然後在這一基礎上做進一步地修改或調整,這將大大降低用戶上手的難度。

我們可以看看,以色列特拉維夫大學最近所做“3-Sweep”演示就能體會解決這一問題,能孕育多少新創造。

另一方面,雖然深度攝像頭、激光掃描器的出現大大方便了場景掃描,但得到的數據還無法直接使用——因爲不能分辨掃描得到的具體物體。一旦有技術能將掃描場景中的物體分離、識別(例如分辨出桌椅),應用就會大不相同。就像從二維圖片中搜索物體的名稱,未來通過關鍵字就能找到相應3D素材。

當用戶創造、記錄、使用三維數據的成本越來越低,拍攝三維物體能像現在拍攝圖片、視頻一樣輕鬆容易時,擁抱三維世界的時機就真正成熟了。三維內容的增加會促進交互界面的發展,進而又將促進三維應用的發展。當每個人都能輕鬆地貢獻三維內容,同時又能方便地消費三維內容時,整個產業將變得完全不同。

未來的某天,我們或許會看到這樣一幅圖景——你在現實中的所見都能在無意識的狀態下,自動於虛擬世界中建模;而通過三維打印,虛擬世界中的模型也能在真實世界中重建。此時,現實與虛擬世界的邊界將不再像今天這樣清晰,我們將迎來虛擬與現實的融合——在你的Cyber Space裏,你就是“造物主”。

來源:http://www.cnbeta.com/articles/258634.htm


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章