孫正興:普適計算與計算機視覺

 

孫正興:普適計算與計算機視覺

(2011-04-20 15:12:59)
標籤:

校園

分類: 工作篇
普適計算的過去現在和將來

Weiser提出了普適計算的概念,並提出了人與改進的環境的關係的觀點,這樣的環境包含了隨時隨地向人提供信息和服務的計算資源。在過去的十年裏,普適計算的研究者們嘗試着以輔助人的生活而不是控制人的生活爲目標對環境的改進作嘗試。Weiser的觀點說明了各種規模的設備的迅速增長,從手持的英寸級的個人設備到大型的共享設備。這種設備的增長確實已經發生了,像普遍使用的如PDA、數字平板、膝上型電腦、電子白板等等。對連續的移動計算提供支持的必要的基礎設施的發展和部署已經開始了。
 
Weiser的觀點的另外一個方面是新的應用應當出現從而來支持這些設備和基礎設施。普適計算的發展不僅使得基礎設施的發展成爲可能,而且提供了新的交互方式即分佈廣泛的對信息和計算能力的訪問。在本文中,我們探究從普適計算項目Xerox PARC開始以來的十年這種普適計算應用前景的發展。特別地,我們在三個主要領域回顧取得的成績並且概述仍然存在的問題。
 
-我們定義了自然接口,自然接口使得人與計算之間的各種交流變得簡單。自然接口的目標在於支持人類表達的共有方式和人在生活中的暗示的動作。以前的工作主要集中在語音輸入和手寫輸入,但這些接口在處理這些系統中自然發生的錯誤是仍顯得魯棒性不足,而且這些接口很難被建立。
-普適計算要求是上下文感知的,普適計算的行爲要能夠適應物理環境和計算環境的信息。很多應用已經引進了簡單的上下文,如位置、標識,但是要建立可複用的上下文表示、複雜上下文的傳感器融合以及行爲識別仍然存在很多問題。
-最後,很多系統在自動捕獲生活經驗和對這些經驗提供靈活的全局的訪問仍然存在問題。
 
如何對普適計算進行評估在普適計算的定義中是含蓄的。Weiser把計算設備的空間作爲評估的標準。類似地,設備在物理空間的分佈可以作爲評估系統的一個標準,這樣使得人脫離桌面計算機束縛的交互方式。考慮到對臨界的確認和相互的合作,把人也作爲評估系統的一個方面。最後,時間是評估系統的一個新的挑戰。不間斷交互(每週七天、每天二十四小時)的可用性揭露了大量把普適計算推向二十一世紀的尚未被探究的交互問題。爲了用時間來評估系統,我們在第五段介紹一個新的領域——日常計算,它解決日常生活中非格式化、結構不明顯的活動。這些活動在時間上是連續的,一種沒有明顯的起點和終點的活動。熟悉的例子有組織任務、和家人朋友通信、信息管理。
 
本文的結構是按照過去普適計算演化的路徑組織的。演化的第一步是由PARCTab和Liveboard闡述的,計算機可以封裝在新的形狀。這種計算用具推動傳統的計算機科學領域的發展,如網絡和操作系統。當傳統的鼠標鍵盤等輸入設備不能和這種新的計算機很好的工作的時候,發展新的、更自然的輸入方式成爲了演化的下一步。例如爲了PARCTab設計的基於筆的速記語言Unistroke。這些基礎設施已經爲了應用而在部署設備。例如許多導航系統,類似於Active Bedges,已經被用於實際應用。
 
應用設計者在運用普適計算系統開發新的應用的時候發現,通常注意到用戶的隱含輸入可以減少技術對日常生活的干預。這種以應用爲中心的研究的目標是理解日常工作怎樣才能更好地被支持,普適計算的引進給他們帶來什麼改變。例如,在PARC公共會議任務中被支持的普適計算應用給會議中材料的記錄和組織提供了新的方法。可穿戴計算機最初強調對傳統的個人任務的持續訪問,如email。最近很多應用嘗試提高個人的存儲量以及在小組之間提供信息共享。普適計算應用研究的方向,即Weiser認爲的普適計算最終研究的目標是普適計算系統可信賴地、廣泛的應用。
 
現在我們剛剛開始理解連續計算的含義。未來的普適計算不僅僅是幫助完成傳統的基於計算機的任務的可持續使用的工具。無論是我們身穿可穿戴計算機、還是在環境中嵌入計算設備,計算機將改變我們對現實世界的理解、提供對遠處的人和地點聯繫的支持、在我們的指尖向我們提供信息、在我們思想和行動上提供幫助。
 
在本文中,我們在探究上述的交互中的三個領域(自然接口、上下文感知、自動捕獲和訪問經驗)的同時講述了普適計算的主要歷史。在回顧這些研究領域的研究成果的同時還概述了一些仍然存在的研究的難題,以供人機交互的研究者們在新的千年繼續這些工作。我們接下來解釋普適計算研究中探究連續日常行爲的必要性。這樣的研究使得普適計算的研究更加進入以連續表示的、綜合的交互爲特徵的日常計算領域。與這三個領域與生俱來的是普適計算的社會效應以及系統評估的難題。我們通過案例的研究和現行的評估策略來對系統評估做總結。
 
2.自然接口的計算
 
普適計算使得應用發展到走下桌面的地步。這種說法暗示着人與計算之間的交互不想現在的鍵盤/鼠標/顯示器,而是與現實世界的交互方式更爲接近。人說話、打手勢、使用手寫器具來和其他的人交流。這些自然的動作能夠也應當作爲普適計算系統的外在的或隱含的輸入方式。
 
支持更多自然的人交流方式(手寫、語音、手勢)的計算機接口開始成爲傳統的圖形用戶界面交互元素的補充甚至替代。這些接口以它們的學習功能、易用性和對寫作畫畫等工作的支持(不改變這些工作的方式)而聲名鵲起。此外,這種交互方式還有利於那些對傳統的鼠標鍵盤使用不方便的人使用。
 
語音相關的接口的研究工作已經開始了很多年。新興的知覺接口的研究在計算機視覺和計算知覺的一個長期的研究團體支持下迅速的發展。基於筆的或者自由格式的交互在經歷了第一次的筆計算的失敗後迎來了第二春。最近,研究者提出運用現實世界的對象來操縱電子產品的技術,實現所謂的易懂的切實的接口。Harrison st al在計算設備上附加傳感器使得這些設備提供由運行在設備上的應用準確解釋的物理操縱。在這裏我們不對自然接口的工作做回顧,而是關注一下使得高效的自然用戶接口快速發展成爲可能的兩個重要方面。
 
2.1 First-Class Natural Data Type
爲了使得開發更多的自然接口的應用更簡單,我們必須能夠像處理鍵盤鼠標輸入那樣方便地處理其它格式的輸入。作爲自然接口(音頻、視頻、數字墨水、傳感器輸入)基礎的原始數據/信號成爲交互系統開發中的第一類數據。作爲開發者,我們希望所有的用戶接口能夠提供對原始數據基本操作的底層的支持,並且對原始的鼠標鍵盤交互提供支持。類似地,我們需要對操縱語音(提供演講者停頓暗示、語音段的選擇、演講者的辨認)提供支持。同樣也要對視頻、數字墨水以及其它信號提供支持,例如傳感器探測的物理設備的操作。
 
拿自由格式/基於筆的交互爲例子。許多基於筆的計算注重由“墨水”轉化爲文本的識別技術。但是有點應用不需要把墨水轉換爲文本,例如個人的筆記。實際上,把手寫轉換爲其它格式的數據可能對用戶來說可能是冒昧的。相關地,對自由格式、筆輸入的標準化支持地研究投入是比較少的。有一些爲了在平臺之間交換筆輸入數據制定的標準,但是很少有爲了在程序中操縱自由格式數字墨水而定義的有效的機制。
 
對像數字墨水這樣的自然格式的數據,什麼樣的操作是必須的?Tivoli系統提供了生成墨水數據、辨認未翻譯的自由格式的墨水數據和特定暗示的結構化手勢。自由格式數字墨水另一個特殊的有用的特徵是能夠融合獨立的筆劃從而使它們形成字母、單詞以及語言中的其它片段。例如在Class-Room 2000中生成基於網絡的筆記,我們希望講師用筆寫的註解能夠鏈接到在演講中同時聽到的音頻或看到的視頻。註釋是帶有時間戳的,但是這並不是總是有用的。因爲並不能將在課堂上寫的某一個單獨的筆劃與精確的時間相聯繫。我們使用時間和空間的啓發來靜態地將筆劃融合在一起,並賦予它們更有意義的單詞級別的時間戳。Chiu和Wilcomx發明了基於分等級的凝聚的更通用的、動態的算法來把音頻和墨水相鏈接。這些正在組織的技術需要形成標準,對所有希望生成自由格式基於筆的接口的應用開發者都是可利用的。如Chiu和Wilcox工作中闡述的,有些技術可以應用到不止一種自然數據類型。我們必須還要考慮聯合不同自然數據類型的基本操作。
 
2.2 Error-Prone Interaction for Recognition-Based Interaction
當應用到基於識別的任務時,自然接口遇到一類新的問題:識別產生新的多樣的錯誤。當識別的錯誤發生的時候,系統的設計者最初反應都是消除錯誤,例如提高識別成功率。然而Van Buskirk和LaLomia發現要人們發現語音識別系統的差異必須降低至少5%-10%的錯誤率。
 
更糟糕的是,消除錯誤幾乎是不可能的。即使是人在處理相同類型的交流的時候也會犯錯誤。以手寫輸入識別作例子,即使是最專家的手寫識別系統(人)可能達到54%之低的識別率。人類的識別成功率在連體是上升到88%,在打印體上升到96.8%,但是這依然不是完美的。這些證據表明電腦手寫識別是不可能完美的。的確,基於電腦的識別是比人更容易發生錯誤。它們通常所使用的數據是比人類所覺察到的要少,它們的處理能力比較差。而且許多因素比如說疲勞會導致用戶數據與訓練數據有較大差異,一段時間以後會導致識別的成功率有所下降。
 
另一方面,識別的成功率並不是用戶滿意的唯一決定因素。錯誤恢復的對話複雜程度和給定錯誤的附加價值都會影響用戶的滿意程度。例如,Frankish et al發現用戶在輸入日誌條目時出錯比輸入某個形式的命令時出錯更灰心。這表明在命令中輸入一個單詞的回報比在日誌條目段落中輸入一個單詞的努力大的多。
 
出錯處理並不是一個新問題,實際是這是與要設計一個嘗試模仿人的計算機系統同時存在的。識別技術錯誤處理的研究必須假定錯誤肯定會發生,問題是尋找一個最好的處理錯誤的方法。和多對基於識別的接口的錯誤處理領域的研究浮現出來:
 
-減少錯誤:這項研究包括改進識別技術以消除或減少錯誤。這是一個廣泛研究的焦點,很容易成爲論文的主題。證據表明這是一個理想,消除錯誤時不可能實現的。
-發現錯誤:在系統和用戶沒有對相關的錯誤進行動作的時候之前,他們中間的一個已經知道錯誤發生了。系統可能是通過用戶輸入被告知錯誤的發生,系統通過把識別了的輸入不確定的解釋有效地輸出從而幫助用戶查找錯誤。三種技術被用於這種自動錯誤發現——閾值、歷史統計、外在的規則說明。
-錯誤糾正的可複用的基礎:工具箱提供可複用的組件,這對於一類共同相似的錯誤發生時特別有用。錯誤處理的接口極大的獲益於提出基於識別輸入錯誤處理技術庫的工具包。這樣的工具包當某些原始輸入產生不同的解釋時,能夠解決這種固有的不明確性。一個原型的工具包已經被Mankoff et al提出用來支持可複用的錯誤恢復技術,但是仍然存在很多問題。
 
3.上下文感知的計算
 
早期兩個引人矚目的普適計算的範例是Olivetti實驗室的Active Badge和Xerox PARCTab,都是位置感知的系統。這些設施提供了簡單的上下文(用戶的位置)以及有價值的服務(自動更新用戶位置辦公室地圖)。然而計算設備和物理世界之間的聯繫不是新的(控制系統和自動導航衛星以及導彈是例子)。這些簡單的位置感知應用可能是第一個將人類活動和計算設備相聯繫以服務於改進人類活動的範例。
 
位置是應用開發中通用的上下文,最廣泛應用的是基於GPS的汽車導航系統和手持導航系統,這些設備隨時變化內容並把用戶的物理位置展現出來。另一個重要的上下文是識別單獨的對象。早期系統注重識別標示標籤和條形碼,而最近的研究工作包含基於視覺的識別。Fitzmaurice示範了利用手持設備透視牆和機器。Rekimoto和NaviCam在一個手持視頻顯示設備上識別包含了對象附加信息顏色條形碼。最近的工作是嘗試視覺對象識別策略從而對象不需要各自標識。
 
雖然已經有大量的系統採用人物標識、位置感知,但是這些系統依然是難以實現的。Salber et al創作了上下文工具包使得上下文感知系統的設計、實現和發展簡單化。這項工作強調上下文的獲取、存儲與上下文信息的不同的應用嚴格分離。這樣的分離使得上下文感知的應用的創建變得簡單。
 
很多情況下,我們只是用尚在實驗的例子來簡單地描述上下文感知的計算。這裏我們要討論上下文信息的結合、上下文的表示、上下文的獲取、上下文的融合,並把上下文與自然交互的融合來實現改進的事實表示。
 
3.1什麼是上下文?
上下文並不只是前面所提到的位置、標識。大多數上下文感知的系統都沒有涉及到時間、歷史信息、除了用戶以外的其他人等環境中其它可用的信息。雖然目前仍然沒有明確的上下文的定義了,但是五個“W”是上下文中不可缺少的部分:
-人物(Who):當前的系統是針對某一個特定的用戶標識,很少把環境中其他人的標識混在一起。我們通常根據在場的其他人來決定我們的行爲、回憶往事。
-事情(What):當前系統中的交互都要假定用戶在幹什麼。覺察和理解用戶在作什麼是一件困難的事情。然而,與上下文驅動的設備交互就必須能解釋用戶的行爲從而提供有意義的信息。
-位置(Where):很多情況下,上下文中的位置比其它方面被探究得更多。位置總是和上下文中的其它信息聯繫在一起,比如時間。有的導航系統能夠通過學習歷史中的位置的移動,根據用戶的習慣來把用戶所需的信息顯示出來。針對這個理論仍然需要更多的研究。
-時間(When):除了使用時間作爲記錄索引或計算用戶在特定地點所待的時間,大多數上下文驅動的應用中對時間是不察覺的。但是引人注意的是時間相關的變化可以作爲解釋人的一種輔助。例如,對展覽的短暫參觀暗示了缺乏相關興趣。此外,當行爲的準線建立起來以後,違背準線的行爲也受到注意。例如,當老人違背每天早晨的習慣時上下文感知的房屋能夠覺察到。
-原因(Why):比一個人在作什麼更難以理解的是他爲什麼在做這件事。通過覺察其它的上下文信息可以暗示出人的情感狀態,如體溫、心率和皮膚電反應等。
 
3.2上下文的表示
與上下文的定義相關的是上下文的表示。如果上下文不能很好的表示,應用開發者只能去轉而開發對上下文信息的存儲和操縱。複雜的上下文表示的不斷進化使得更多的功能成爲可能,並且做到了上下文的獲取與對可編程的上下文應用相隔離。
 
3.3無處不在的上下文——上下文融合(Context Fusion)
上下文感知的計算的一個明顯的難題是使得真正做到計算的普遍存在。在特定的位置,上下文信息是可用的。但是,很少有真正做到普遍存在的單源的上下文服務。位置是一個很好的例子,GPS在屋內不能工作,在城市的某些區域也是不可信的。還有很多和戶內限制類似的限制,如成本、範圍、間隔和標籤等限制,所以很少有一個解決方法可以解決所有的問題。
 
獲得連續的上下文的解決方法是聯合相關的上下文服務從而聚集上下文信息。這種上下文的融合類似於已經被很好的研究的相關傳感器的融合。上下文的融合要處理不同上下文服務邊界之間的無縫的融合。當同樣的上下文被多個服務併發地提供時要能夠從競爭的服務中決定出有用的信息。雖然有了傳感器的融合,上下文的融合仍然是必要的,因爲傳感器的融合技術不是100%可靠的。從多個源的信息相結合能夠提高解釋的可信度。並行的服務相結合能夠使得上下文融合幫助提供可信賴的普適計算上下文,例如消除噪音、提供更廣的覆蓋範圍。
 
3.4 Coupling Context-Aware and Natural Interaction——Augmented Reality
很多上下文感知的系統的目標是使得用戶能夠在現實動作基礎上實時地獲取信息。導航系統是一個很好的例子,用戶在展覽中的行動觸發了附加的上下文敏感的信息的顯示。這些應用通常使用分散的可移動的設備,這就要求它們把注意力從現實世界的不相關部分轉移開來。這種交互的最好的比喻是用戶用類似於電子探測器和計量器的工具探測世界。
 
和聲音手勢等自然輸入方式一樣,運用視覺和聽覺我們可以把上下文感知的交互和現實世界更好的聯繫在一起。在這些交互中,系統改進用戶感知世界的方法,這種信息的獲取應當在更自然、無縫的交互中獲得。
 
4.AUTOMATED CAPTURE AND ACCESS TO LIVE EXPERIENCE
我們生活中的很多時間都花在聽和記錄我們身邊發生的事情,然後記住這些信息中重要的部分。利用計算資源來提高人類記錄的效率是有很明顯的價值,同時也存在問題。特別是當由多重相關的信息同時發生但是又無法一起捕獲。能夠幫助自動捕捉和訪問生活經驗的工具能夠幫助人們去掉不擅長的包袱(如記錄)這樣他們能夠集中精力關注他們擅長的活動(如隱含的關係、總結、翻譯)。
 
關於這種捕獲/訪問理論已經有很多相關的研究,特別是在會議室/教室環境中和筆記記錄。早期Schmandt、Arons和Hindus的工作已經能夠在電話交談中捕獲聲音信息並提供了對已經記錄的聲音信息提供訪問。PhoneSlave系統和Xcapture系統把聲音作爲沒有被翻譯的數據併成功地提供了對這種對話信息的概括。最近很多研究集中在其它類型的輸入上,比如數字墨水。Tivoli系統用一套軟件提供了會議記錄的功能,類似於某些電子白板技術(LiveBoard系統),從而來支持小組討論。在會議中電子白板的記錄是附有時間戳的,這些時序信息在會議結束以後被用來作爲音頻和視頻的索引,從而提供更爲詳盡的會議記錄。爲大學講課設計的Classroom 2000系統中提供了對數字墨水注釋和音頻視頻記錄相結合的功能。最大的亮點在於把捕獲的材料自動加工成爲能夠被廣大學生訪問的接口。其它的捕獲系統(Authoring on fly、Cornell的Lecture Browser)關注了任意程序交互信息的捕獲和多個源信息中符合產品之質量的視頻捕獲。
 
上述的這些系統關注的是捕獲公共的、集體的經驗,也有一些其它的捕獲系統(Marquee、Audio Notebook等)捕獲單獨的信息。Stupad是第一個提供公共信息與個人信息共同捕獲的系統。
 
上述的努力提供了回顧經驗捕獲的一些多媒體接口。在後期的製作階段,一些體統提供了多鏡頭的剪輯、多種信息表示的整合和基於內容的恢復機制來幫助在龐大的捕獲的信息的知識庫中的查詢。後期製作的結果可以通過多種接口被訪問,典型的就是通過在網絡的分佈。Abowd提供了對這些研究系統和商業系統的回顧。
 
在這些例子中,單獨的捕獲與訪問中的普適計算的重點是可以清楚地被看到。傳統的捕獲設備如鍵盤逐漸轉向更貼近用戶的輸入方式,如基於輸入筆的接口或者現實的筆和紙。聲音和手勢形式的輸入既可以被作爲原始數據被接受、也可以解釋成爲更容易被理解的經驗被接受。
 
4.1 捕獲和訪問中存在的挑戰
雖然自動捕獲系統取得很多有價值的研究和進步,但是依然存在很多問題,我們把它們在這裏歸納在這裏。我們把與捕獲相關的問題和與訪問相關的問題相分開。
 
4.1.1 捕獲我在前面已經提到過很好應用普適計算的技術的重要性。在捕獲領域,引人注目的應用是在教育和培訓。特別的來說,Classroom 2000從學生的觀點中捕獲信息。在探究捕獲方面還有很多研究的領域。
 
-很多人都能記錄我們生活中的特殊的事情(假期、生日聚會、親戚朋友的來訪等)。多少年之後,我們要花很多時間來通過日記和膠捲來回憶往事。我們希望多少次在生活中非常珍貴的時候我們只是去摸索記錄設備而錯過珍貴的一刻?查找特定事件的照片是多麼困難的事情?
-在很多合作設計的活動中關鍵的決定很多是在不正式的框架下做出的,並沒有被很好地記錄。技術的改變通常實在一次機會中比較隨意的生成的。即使是在正式的設計會議中,大量的信息交互和討論並沒有被很好的捕獲。我們開始嘗試對非正式的集體討論活動和正式的構思會議都提供支持的信息捕獲。
-如果我們記錄的是建築的過程,相對於建築的圖紙,更能夠對建築隊維護提供幫助。當需要修建的時候,建築師可以重放這個記錄和相關的維護歷史記錄來決定正確的維護。
 
除了Audio Notebook、Notepals、和Lecture Browser系統外,很少有對現實世界的信息捕獲並且這些信息被加工成易於訪問的系統。隨着低成本捕獲硬件的出現,如CrossPad和mimio,這一領域的研究必然將迅速發展。
 
當前的捕獲研究中大多是捕獲的以直接回放爲目的的原始數據流的捕獲,而並沒有對這些數據進行深入的分析。但是,從簡單的原始數據中獲取額外的信息對理解生活中的事件更有意義。例如Stifeman通過對捕獲的演講音頻進行分段分析可以知道什麼時候新的主題開始了。類似的,Chiu和Wilcox提出了利用分段技術通過對停頓的檢測來把數字墨水和音頻聯繫起來。還有很多計算技術可以用來分析簡單的音頻、視頻、墨水信息。
 
信息分析的另外一個應用是改善原始信息的記錄。我們怎麼才能夠把多個鏡頭的數據整合成單一的、連貫的、高品質的可供以後查看的視頻?單個固定的鏡頭不足以捕獲生活的關鍵畫面。但是像部署Classroom 2000這樣的系統時我們不能在每個教室中佈置技師。所以最大的挑戰在於我們如何來決定一個組,乃至所有人的意圖。
 
4.1.2 訪問。訪問階段,我們需要提供很多重放功能。最簡單的重放就是實時的重放,有點時候這種重放是不足以滿足要求的甚至是不恰當的。比如爲了考試溫習功課,學生並不需要像上課一樣重新看整個課程重放。他只是想查看討論中特定的主題並重放這一部分內容。也可能有時候突出重點的對整個捕獲信息的概括是恰當的。
 
多個捕獲的信息流在重放中的同步是重要的。商業的流操縱產品,如RealNetworks和MediaPlayer提出了強大的利用程序控制媒體流同步的標準。但是這些產品沒有提供對流信息預示,這種預示可以使得用戶在回顧時能看到即將發生什麼。提供這種預示的系統可以使得用戶捨去無關的內容而直接到感興趣的地方。
 
很多系統中,捕獲的材料直接用於訪問使用。當然,有些情況下,修改過的數據可能是更爲恰當的。雖然翻譯對計算機科學家來說並不是一個新問題,但是要對捕獲的材料的不同含義的譯文提供訪問接口還是存在很多問題,特別是像音頻、視頻這些已經基於時序的信息。時間線是操縱和瀏覽捕獲信息的一個有效的接口。但是當捕獲的信息被分割成很大不連續的時間段的時候,時間線的作用至少是要被置疑的。新的基於時間的接口技術,如LifeStreams、Timewarp和Time-machine computing是很好的開始。
最後,也可能是最有挑戰的,當這些系統由私人的系統變成在公衆的場合捕獲事件的時候,對信息的捕獲以及以後的訪問中隱私的關注與日俱增。雖然這些問題應當在單個系統具體設計中加以考慮,但我們仍然需要通用的技術對捕獲的材料附加標籤以及訪問權限的鑑別。本文的後面還將繼續討論這個問題。
+
5. TOWARD EVERYDAY COMPUTING
前面,我們描述了一個交互研究的領域,日常計算,這是基於時間來評估普適計算的結果。把計算由傳統的桌面計算的基礎脫離出來改變了人與電腦之間的關係,提供了持續的交互使得計算由局部變爲連續的。日常計算的動機來源於對日常生活中很多非正式的、非結構化的活動的支持。這些活動在時間上是連續的,沒有明顯的起點和終點的。熟悉的例子由組織任務、和家人朋友的交流、信息的管理等。
 
日常計算的設計需要這些非正式的日常行爲的表示:
-它們通常沒有顯著的起點和終點:無論是一個基本的活動,如交流,或者是一個長期的工作,如人與電腦交互的研究,這些活動都沒有起點、終點。過去的信息經常會重複循環。雖然地址簿上可能有新名字的增加或者要做的事件列表中有新的條目增加,但是交流活動或者信息管理活動中基本的活動沒有改變。人機交互中基本的原則是對中止的設計。給定一個目標,比如文檔中的拼寫檢查,爲達到目標的每一個步驟應當被組織好了,同時還要考慮到合理限度的短期內的記憶。所有的對話應當是受限的,這樣用戶在完成這個目標以後才能進行下一個動作。此外當設計這樣的一種活動的時候,例如提供當前狀態的可見性,自由的對話以及特徵的簡單性扮演着重要的角色。
-中斷是需要的:把這些活動看作是時間上連續的(可能它們是後臺操作的)是非常有用的。一個副作用是行爲的恢復不是從一貫的點開始,而是取決於中斷以前的狀態。交互應當被模擬成一系列的步驟,在某些點上,交互可以被恢復。接口除了表示過去的交互,還可以提醒用戶尚未完成的行爲。
-多種行爲的併發操作:因爲這些行爲是連續的,多種行爲之間的上下文切換是需要的。應用的接口允許用戶去監控後臺的行爲,這樣幫助用戶知道什麼時候應當恢復這個行爲。這種恢復不是固定的,取決於其它人的有效性、最近到達的需要的信息。例如,用戶想要恢復取決於最近發生相關事件數目的行爲,比如在一定數目的消息發出以後才能在消息組閱讀消息。在設計後臺敏感的時候,接口需要支持在傳遞監控信息(把發生的事件與事件的重要性相聯繫的信息)時候的不同級別的干擾。當前的桌面接口只提供了用多窗口表示這個問題的開始。隨着最低限度的屏幕的出現,用戶必須管理一類問題的多個窗口的開、關、重疊等。簡單的感知暗示在有點桌面圖標中包括了,比如暗示收到了一封郵件,但是很少有控制來建立滿足不同感知需求的通知。Rooms的接口爲空間組織的文檔和多個不變地點分佈的應用提供接口。對它有用的擴展是提供“背景”room的感知以及當用戶回到房間時幫助用戶回憶過去發生的事情。
-時間是重要的鑑別器:時間是基本的人類評估的工具,雖然在計算機接口中很少被表示出來。在解釋某個人的來電時,上次通話的時間是一個星期還是五分鐘前,這樣的因素是相關的。在桌子上找一張紙的時候,昨天看到過還是上個月看到的也是可以幫助查找的。有很多辦法來把時間和計算機接口聯繫起來。如果我們想重新回到我們工作的進展中,接口可以表示出從上次交互以後發生的時間。作爲解釋現實世界事件的應用,例如決定怎麼處理來電、到達當地百貨商店的反應,它們可以利用時間信息來決定它們的反應。
-信息的聯合模型是需要的:信息的層次模型很好地對應於定義良好的任務。但是,行爲信息的模型重要是聯合的,因爲信息經常在不同的場合從不同的角度重複使用。例如,你保存很長時間同事、朋友、家人發到郵件。當處理現在的郵件的時候,你就想把它歸類到不同主題的分級的文件夾中。一段時間以後,這種組織方法就要改變,因爲這樣不能按照變動的要求查找郵件。類似的,要做的事件的列表在把這些事件組織在一個定義好的列表中是也會失敗。信息的聯合的、多內容的模型允許用戶從不同的角度、因爲不同的原因重新獲得信息。例如,用戶想根據當前上下文,例如某人什麼時候進入辦公室、什麼時候某人到底百貨商店,來重新獲得信息。他們還可以回憶和當前信息相關的其它信息。例如幾個星期前修改的文檔、類似主題在四周流傳的文檔。
 
隨着計算變得更加的普遍存在,提供的工具折射出它在長期活動中的角色。雖然普適計算的原理也可以應用到桌面接口中來,但這些設計的挑戰都是和不斷改變的環境相關的。在移動的場景中,用戶在可用計算資源不斷變化的活動中切換。即使在辦公室框架中,不同的工具和對象在不同的活動中扮演多重角色。例如,改進的電子白板的使用根據不斷變化的上下文信息(如出席人數等)變換。不同的對象(如文件、外界的顯示)爲活動提供切入點和背景信息。現實世界的交互的分佈是日常計算的觀點中固有的,這也是和普適計算的研究高度相關的。
 
5.1 Synergy Among Themes
日常計算的研究仍然在探究前面所提到的交互中的三個領域,但是研究的重點在於設計連續可用的環境。Eshii的研究工作利用自然的接口來支持通信和背景的感知。現在的Roomware項目的工作目標是創建一個牆面大小的交互區域來支持更多範圍的非正式的人的活動。
 
考慮到上下文感知的交互,Audio Aura系統和前面提到的導航系統是相關的,改變了位置觸發的信息在便攜設備之間的傳輸。Audio Aura的目的是提高用戶的聽覺範圍。通過增加關於同事的行爲和通信方式(如電子郵件等)的動態信息,Audio Aura提高了用戶進行日常活動時的可用信息的可覺察範圍。
 
類似的,自動捕獲和訪問應用也轉向非結構化的環境。Remembrance Agent找尋包括視覺感知基於環境上下文在內的信息。用戶可以指示系統要記憶的內容,系統成爲了持續可用的物理位置索引的日常信息的倉庫。作爲未完成的目標,Bush建議設計一個記錄持續的日常信息並在以後作爲總結和歸納用的個人記憶容器。
 
5.2 日常計算的研究方向
日常計算給人機交互研究帶來很多的挑戰。在現在和未來的工作中,我們關注以下幾點:
 
-設計連續的計算機接口表示:有很多描述普適的計算機的模型,但是沒有一個模型是完全令人滿意的。信息用具通常指的是不知道當前的行爲的在後臺工作的有特定目的的設備。這些接口通常借用傳統的圖形用戶界面的概念。在後臺連續工作的計算系統從過去的行爲和行爲時機中學習,表現爲賦予了人性的代理。並不一定每個接口都是基於富於表情的或者面向人類特性的對話。在可穿戴的計算機的研究中,由於現在的輸入和輸出設備的限制,通常採用的是基本的基於文本的接口。
-用戶注意力的不同層次的外圍信息的表示:儘管在有形媒體和外圍的感知,特別是計算機支持的協作以及可穿戴的計算領域的關注在增加,但是當前的接口通常表示一般的外圍的背景而沒有用戶機制來把外圍的信息轉化爲不同的注意層次。我們當前的設計的目標是創建外圍的信息接口在不同的層次上對用戶的外圍信息進行操作。
-現實世界與虛擬世界的事件聯繫:用戶在兩個不相連接的空間操作:電子郵件、電子文檔、網頁等虛擬世界和面對面的交流、書脊、文件等現實世界。用戶的行爲在這兩個世界交互。儘管很早就有如數字桌面之類的研究,但是還有很多工作要做來解決兩個空間的信息整合從而達到更好的理解用戶如何構思他們的動作。
-修改傳統的人機交互的方法來支持非正式的、外圍的和隨機的動作:沒有一個用來理解計算機在人們日常生活中的地位的方法。但是,從像實驗和人種調查這樣的複雜方法中得到混合信息是一件不容易的事。在我們的研究和classroom項目中我們通過實踐來學習,通過不同的策略評估我們得到的結果。我們有意識地選擇和我們提出的問題相匹配的解決方法。學習不同方法之間如何互相通知以及不同方法的結果如何混合還是貫穿我們工作中的努力。在後面的章節中我們繼續討論如何評估普適計算系統。
6. 普適計算的附加挑戰
普適計算的兩個重要的方面是系統的評估和社會效應,這兩個方面貫穿普適計算研究的所有領域。
 
6.1 普適計算的評估
爲了瞭解普適計算在日常生活中的作用,我們必須在技術怎樣用來服務於人的需求和技術可信的使用以及人類活動和技術共同發展之間保持平衡。如何格式化的評估普適計算系統由於很多原因是一件很複雜的事情。由於這樣的困難使得我們很少看到對普適計算系統評估以及最終用戶的需求分析。有一個例外是XeroxPARC的研究者發佈的關於應用在會議上下文的Tivoli系統。普適計算的研究者力求在滿足用戶需求的基礎上儘可能減少對人機交互方式的衝擊,在這裏我們給出對這種挑戰的建議:
 
6.1.1 找出用戶的需求。評估一個普適計算系統的主要的困難是並沒有一個可靠的系統用來被評估。用來建立普適計算系統的技術一般都是邊緣技術並沒有被開發者很好的理解,所以很難建立一個可靠的魯棒的系統來支持連續的日常活動。已經發布的普適計算的工作主要還是停留在這種魯棒性不高的示範原型系統的基礎上。這種工作通常是以技術爲中心的,但是我們在下面要介紹,利用這些新型的技術也是可以進行用戶爲中心的可行性研究。
 
研究者從最終用戶的角度創建一個引人矚目的應用,說明建立的系統和基礎設施如何投入到使用中。技術必須要來滿足一個現實的或潛在的需求,因爲根據Weiser說的,普適計算的目的是爲提供一個爲用戶服務的應用。一個引人矚目的應用並不是簡單的提供一個研究結果的示例,它應當是爲評估系統對未來用戶日常生活的影響提供基礎。最好的情形是在連續的基礎上建立一個圍繞暴露給你的行爲的應用。這樣你可以建立一個逼真的實驗室,可以持續地激勵你支持支持這樣的應用併爲了更好地理解應用提供反饋。
 
系統的設計者並不是完人,所以錯誤總是會發生的。因爲建立一個魯棒性的普適計算的系統是一件困難的事情,所以你不需要花費建立一個複雜系統的造價僅僅發現系統與設計應用時候的目標相差甚遠。你應當在爲了更好地評估而花費精力建立一個魯棒性的系統之前作一部分邊緣應用的可行性研究。但是,這些可行性的評估也應當是由非格式化地、用戶爲中心的觀點驅動的,目標是確定系統是如何被使用、什麼樣的行爲是系統所包含的、整個系統的反應是積極的還是消極的。回答這些問題對未來的系統設計和系統評估提供參考。在對系統地作用進行定量的評估前理解新的系統如何被它的潛在用戶使用是很重要的。
 
案例研究:Xerox PARC的Flatland系統。普適計算應用系統的設計要求設計者對未來用戶如何使用這種新的技術有足夠的理解。設計一個通用的交互方式並不是人機交互研究中的新問題,但是這個問題在普適計算系統部署到物理世界的時候顯得尤其困難。
 
在我們的Flatland系統的設計中,我們對辦公室中的白板的使用進行了使用人類習慣觀察,並做了問卷調查和採訪,通過各種方法瞭解用戶在日常生活中如何使用白板。從觀察中得到的大量的數據既是我們設計中的靈感,也是有用的約束。例如,“焦點場所”,根據日常白板使用的觀察得到的用戶經常修改的白板區域。觀察的數據是問卷調查和採訪等深層次的用戶習慣研究的基礎。沒有這些數據在討論中可能會簡單地忽略了用戶對使用的想法。通過參考兩個星期的觀察數據,我們可以檢查系統設計的細節實現。
 
雖然我們的改進的電子白板還沒有到應用的水平,甚至還不能被用於用戶測試,但是通過觀察和採訪我們收集了大量對我們設計有用的信息。
 
案例研究:Audio Aura系統。當新穎的輸入輸出技術剛開始被介紹的時候,它們的功能和效用並沒有被很好的瞭解。通常這些技術並沒有被真正被應用到實際的系統中去。然而以用戶爲中心地評估需要影響到後繼的設計。在Audio Aura系統的設計中,我們探究瞭如何通過應用外部的聲音來提高對辦公室行爲的感知能力。我們使用的無線耳機、聲音設備對長期使用的用戶顯得很笨重。因爲較大的、黑色的耳機遮住了耳朵,所以在公衆場合是被禁止的。用來控制聲音表示的Java語言對創建豐富的語音空間是不足的。然而,我相信在將來這些技術上的不足在將來都是會被解決的。
 
基於對Xerox PARC工作環境的調查,我們研究了交互的方式來指導我們的系統設計和評估。我們彙集了在PARC人們是怎樣集體工作的的信息,例如在咖啡館聚集、即興到同事辦公室談話、甚至在走廊裏和同事切磋。當我們的系統真正部署使用的時候,用戶會思考他們的日常行爲。調查還幫助我們理解了另外一個交互的要素:時間。在一個我們的案例中,在兩個技術組件之間的交流方式不能滿足交互的速度要求。雖然速度可以加快,但是這種修改要求平衡速度和系統的規模,兩者對於系統的目標都是很重要的。簡短的說,調查幫助我們理解未來開發的設計空間。
 
6.1.2 Evaluating in the Context of Authentic Use。深層次的評估要求系統的現實的使用以及系統可靠的設置。評估系統的各個因素(設備、地點、人、時間)作爲系統的特徵可以用來傳統的約束的效用實驗。在高效的評估中,我們要觀察用戶和系統的日常的交互,這要求系統在環境中現實的部署。
 
案例研究:Classroom 2000系統。在這個案例研究中,我們示例了從前面的原型和可行性研究中演變來的更成熟的系統,這個系統現在正在被現實的教學中使用。這個系統是在1995年7月開始的,它的目的在捕獲儘可能多的課堂信息,以便於課後老師和學習的複習。在很多課堂中,學生都是低着頭把聽到的和看到的記錄下來以便日後的複習。雖然記筆記的過程對學生的學習過程有幫助,但是根據老師和學生的觀點我們給學生機會能夠在課堂上擡起頭來融入到課堂中去。這樣的捕獲系統釋放了同學記筆記的負擔。
 
我們需要建議這個假設的可行性,所以在系統六個月的使用中,我們提供整個課堂的捕獲環境,觀察假設是否能夠被很好的測試。在這樣一個實驗中我們獲得很多的有價值的信息。初始的實驗中包括了筆記功能,明顯對學生分心,所以我們放棄實驗的這部分功能。在最近幾個月中,當技術成熟了以後這樣的功能才重新被啓用。從這個實驗中我們知道了要了解這個系統對課堂教學和學習的影響,我們必須從大量的課堂實踐中獲取數據。這要求付出大量的努力來部署可靠的魯棒的支持多課堂模擬的系統。如今,經過30位不同的老師超過100門課的使用後,我們獲取了系統如何被使用、未來如何改進等信息。作爲評估系統的直接的結果,系統使得60%的使用者改變了記筆記的習慣。我們同樣瞭解到並不是所有的這樣的改變都是變的更好的。例如不記筆記並不是一個好的學習的實踐。我們可以通過重新向用戶介紹筆記功能單元,告訴他們可以個性化筆記這樣可以使得用戶更好地使用筆記實踐功能。我們同時還認識到還應當簡化課程信息的基於內容的回放功能。這些認識激勵了以後的研究努力並可以建立一個長期的研究項目。
 
6.1.3 任務爲中心地評估策略是不恰當的。假設系統已經被可信地部署,那麼用戶是否對系統提供的服務滿意?用戶是否養成了使用系統的習慣?這就牽涉到如何定性或定量地評估系統的問題。多數的效用評估是任務爲中心的。如果用戶的任務是明確的,那麼可以通過決定系統的適合程度和完成任務的接口來評估系統。然而在不規律日常計算的情況下很難用任務爲中心的評估方法來評估。
 
6.2 普適計算的社會效應
我們努力嘗試使得對現實世界的現象的感知、理解、反應更簡單並記錄這些現象。這些技術同時也帶來很多的危險,例如,過於容易的在沒有控制的情形下跟蹤一個人。如果普適計算的研究者不能理解這些缺點,那麼他們就是失職的。但是不能因爲對可能帶來的錯誤的恐懼停止所有的工作,只不過繼續改進技術、設計來解決這些社會負面效應。
 
對所有儲存在計算機中的信息來說最基本的關注是誰有權利來訪問及修改這些數據。數據存放在哪裏?他們是否安全?安全和加密機制也是可行的解決方案之一,特別是數據從環境中採集並在網絡中傳輸的過程。類似的,可穿戴計算也強調設計的策略——把數據保留在身邊而不是把它通過網絡傳輸。
 
用戶恐懼的是缺乏對系統能作什麼的瞭解以及背後系統還做了什麼。雖然普適計算的原始觀點是把普適計算無形地融入到現實環境中去,但是這種無形與用戶要知道如何被感知相矛盾。要緩和這種矛盾就要求系統在部署的時候讓用戶知道信息是如何被感知的。例如感知現實現象和記錄現實情景的系統應當明顯地提醒用戶這些行爲正在發生。當這些感知和記錄功能越來越普遍的使用,普適計算的挑戰之一就是如何讓用戶知道他們是如何被感知的。我們需要把從現實空間的視覺轉變到對虛擬空間的視覺。
 
接下來的步驟是讓這些感知和記錄變成受控的,可以停止這種活動至少可以控制信息的分佈和使用。這種挑戰涉及到協作環境的設計,在這種環境中行爲和角色都是不斷變化的所以很難清晰的描述。信息的捕獲、分佈、使用根據不同的設置而決定。
 
關於什麼時候捕獲什麼樣的信息不同的系統建立者有不同的反應。在Xerox PARC,關於捕獲達成一個共識就是捕獲會議中總結性的部分。在Classroom 2000系統中,我們記錄所有一節課的信息而不注重捕獲每個人的高品質的音頻視頻信息,除了講臺上老師的信息。在FX-PAL的Dynomite系統中,筆記控制哪個部分的音頻信息用於以後的參考。最後一種方法可以看作對於高品質的音頻信息中減少存儲量的方法,從另外的角度看,完美的捕獲系統應當能夠合理地忘記一部分以前的信息。協作情景下一個重要的問題是提供一個策略來擦除或忘記共享存儲中的部分內容。關於這個觀點的一個更積極的傾向是在忘記部分捕獲歷史的情形下提高對捕獲信息有價值部分的感知。
 
雖然從人類的交流誕生開始關於信息的恰當使用和傳播就被關注,由於普適計算使得信息的獲取更爲簡單使得這一點更受關注。電腦可以更爲簡單地跟蹤人類的活動,而以前這樣的跟蹤需要人類付出大量的努力。爲了表示上述提到的安全性、可視性和信息控制,我們的策略是建立對信息恰當的、有使用權的應用示例。非實時的多粒度的圖像是在不違背個人隱私的前提下滿足感知和連續的要求。在Audio Aura系統的設計中,我們非常注重關於同事活動的定性信息的傳播。
 
此外還有很多與隱私並不直接相連的其他社會效應。例如對會議、課堂進行記錄對那些參與者有積極和消極雙重影響。積極的方面,知識的記錄減輕他們的筆記負擔。消極的方面,參與者害怕說了什麼以後遺憾的話語而拒絕參與討論。在我們的Classroom2000的實驗中還注意到另外一個很微妙的問題。有的學生選擇不回答問題,因爲等到結束的時候他們還可以回放課程的記錄。
 
總的來說,技術和設計的改進的同時伴隨着社會和法律的變革。人們在享受普適計算帶來好處的同時會比較花費的代價。例如,滑雪者和徒步旅行的人會選擇身穿無線傳輸的衣服方便救援人員的定位。救火隊員從相互瞭解對方在哪裏做什麼中獲益。在人們研究出新的、無法預料的這些技術的應用的時候在前面討論的這些技術的社會關注還會繼續。然而,對安全、可視性、控制性、隱私的關注能夠幫助我們積極的使用這些技術。
 
7.結束語
本文嘗試總結從普適計算開始研究的十年來的研究的歷程。我們提出了普適計算研究的三個主要領域,提供了關於這些領域研究的背景知識,指出了這些領域研究的已經達到的成就和還存在的挑戰。我們的目的是激勵普適計算的研究者去解決這些重要的問題。我們肯定遺漏了一些重要的問題,我們期望其他同仁提出並解決這些問題。
 
Weiser指出普適計算的關鍵是建立推動設備和基礎設施發展的令人矚目的應用。我們同意這種精神的同時提出普適計算與計算資源交互的效用的更廣的觀點。在人機交互的研究中,任務爲中心的研究是很重要的。然而,我們回首那些成功的計算技術,並不是單個應用推動關鍵技術的接受和發展。個人電腦的關鍵應用是哪個?那是針對於不同的人的很多不同的應用。普適計算的真實目標是聯合很多應用從而達到人與計算機之間連續的無縫的連接。我們完成某項任務並不是單個的交互接口,交互應當是自由而綜合的,類似於現實世界的與人和日常生活中的種種對象的交互。(李彬編譯)
 
 

人機交互中的計算機視覺技術
        在人們的交談和彼此間的交互過程中,視覺信息顯然是很重要的。通過視覺的模態,我們可以立即確定許多顯著的關於他人的事實和特徵,包括他們的位置、身份、大致的年齡、注意力的焦點、臉部表情、姿勢、手勢和一般的活動。這些視覺線索影響到了會話的內容和進程,並提供了一些上下文相關的信息,這些信息與言語不同,但與此相關,例如,一個手勢或面部表情可能是一個關鍵的信號,一個注視的角度可能可以消除在言語中“這個”或者“在那邊”的指帶不明。換言之,在人與人的交互中,視覺和言語是聯合表達,相互補充的通道。正如語音自動識別是試圖構造能夠感知人們交流的文字方面的機器,那麼計算機視覺技術是用來構造能夠“觀察人”並自動感知相關視覺信息的機器。
計算機視覺是一門試圖通過圖像處理或視頻處理而使計算機具備“看”的能力的計算學科。通過理解圖像形成的幾何和輻射線測定,接受器(相機)的屬性和物理世界的屬性,就有可能(至少在某些情況下)從圖像中推斷出關於事物的有用信息,例如一塊織物的顏色、一圈染了色的痕跡的寬度、火星上一個移動機器人面前的障礙物的大小、監防系統中一張人臉的身份、海底植物的類型或者是MRI掃描圖中的腫瘤位置。計算機視覺研究的就是如何能健壯、有效地完成這類的任務。最初計算機視覺被看作是人工智能的一個子方向,現在已成爲一個活躍的研究領域並長達40年了。
傳統上,計算機視覺研究是被一些主要的應用領域所推動的,例如生物視覺建模、機器人導航和操作、監防、醫療圖像以及各種檢查、檢測和識別任務。近年來,涌現了多模態和感知交互,推動了一大批關於機器視覺的研究。這些努力的重心大多是集成多種感知模態(例如計算機視覺,語音和聲音處理,觸覺的輸入/輸出)到用戶接口。尤其對於計算機視覺技術,主要的目標是在人機交互中採用視覺作爲有效的輸入模態。這種基於視頻的傳感是被動的、無插入的,因爲它不需要與用戶的交互或任何有特殊用途的裝置;傳感器也能夠被用於視頻會議和其他成像用途。這種技術在基於視覺的交互領域中具有良好的應用前景,例如遊戲、生物測定學和准入,還有一般的多態接口,能將視覺信息和其他的語音、語言技術,觸覺以及用戶建模等相結合。
這種關於人的視覺信息的獲取,已經通向了計算機視覺中大量的研究領域,着重於建模,識別和解釋人的行爲。如果可靠且健壯地發放了,這種視覺技術可以支持交互系統中的一系列的功能,主要通過傳遞相關的用戶視覺信息,例如身份、位置和動作,從而提供關鍵的上下文信息。爲了能充分地支持交互中的視覺部分,需要提出幾個任務:
l         人臉檢測和定位:場景中有多少人,他們在哪裏?
l         人臉識別:他是誰?
l         頭和臉部的跟蹤:用戶的頭部在哪裏,臉部的位置和方向是什麼?
l         臉部表情分析:用戶在微笑,大笑,皺眉,說話還是睏乏?
l         視聽語音識別:使用語音識別以及伴隨視話(lip-reading)和face-reading,判斷用戶說什麼?
l         眼睛注視跟蹤:用戶的眼睛朝哪裏看?
l         身體跟蹤:用戶的身體在何處?關節處(articulation)是什麼?
l         手跟蹤:用戶的手在哪裏?是2維的還是3維的?特別地,手的結構是怎樣的?
l         步態識別:這是誰的走路/跑步風格?
l         姿勢、手勢和活動識別:這個人在做什麼?
這些任務都非常困難,從一個攝像機拍得圖像(有時或者是多相機從不同的視角)開始,這項工作典型情況下至少包括每秒30次的240*320個像素(每像素24比特)。我們試圖很快地使這些數據變得有意義。與語音識別問題相比較,語音識別是從一個一維的,時間序列信號開始,然後嘗試將其分段並分類成相對少數目的已知類別(音素或詞)。計算機視覺事實上是一堆子問題的集合,這些子問題彼此間很少有共同點,且都非常複雜。
 
基於視覺的接口任務
至今,計算機視覺技術應用到人機交互中已取得了顯著的成功,並在其它領域中也顯示其前景。人臉檢測和人臉識別獲得了最多的關注,也取得了最多的進展。第一批用於人臉識別的計算機程序出現在60年代末和70年代初,但直到90年代初,計算機運算才足夠快,以支持這些實時任務。人臉識別的問題產生了許多基於特徵位置、人臉形狀、人臉紋理以及它們間組合的計算模型,包括主成分分析、線性判別式分析、Gabor小波網絡和.Active Appearance Model(AAM).許多公司,例如Identix,Viisage Technology和Cognitec System,正在爲出入、安全和監防等應用開發和出售人臉識別技術。這些系統已經被部署到公共場所,例如機場、城市廣場以及私人的出入受限的環境。要想對人臉識別研究有一個全面的認識,見[12]。
人臉檢測技術——在一個場景中從不同的範圍和方向檢測所有的臉——在近年來伴隨着實時統計學習方法已經有了顯著的發展。頭部和臉部跟蹤在一些強約束力的情況下運行得很好,例如,當在研究對象的臉上作標記時。但是,在一般環境下,臉部姿勢和臉部特徵位置的跟蹤依然是一個難題。臉部表情分析也同樣是,通常它是依據準確的臉部特徵跟蹤作爲輸入的。現在已經存在一些有前景的能夠識別一定範圍內的臉部特徵的原型系統,但是它們在性能和魯棒性上仍然有侷限性。
眼睛注視跟蹤(eye-gaze tracking)已經商業化多年,主要用於殘疾的計算機用戶和科學實驗。這些系統採用主動式傳感,向用戶的眼睛發送一個紅外燈源作爲一個基準方向,但嚴格限制了頭部的活動。以現在的形式,這些系統是不適合通用的多模態用戶接口的。
爲了確定一個人的位置或者爲頭部和手部的運動建立一個基準座標框架,在視頻流中跟蹤身體是非常有用的。早期的系統例如Pfinder,通過明晰靜態背景模型,產生了一個身體輪廓的表示,且標識了頭部和手部的可能位置。一些研究者使用了更爲詳細、關節運動更爲複雜的動態身體模型,儘管將圖像數據匹配到這些模型中是複雜而又慢的。雖然在動畫製作中廣泛使用了動作捕捉系統來捕捉身體的精確動作,但需要用戶穿上特製的衣服或者一些接受傳感器和標記物,這樣就使得這種方法無法適用於通用的多模態接口。
當環境被控制(例如,固定的照明條件、相機位置和背景)且手沒有重疊時,二維和三維的手部位置跟蹤並不困難,關注皮膚的顏色是典型的方法。然而,普通人的行爲,手常常是隱藏的(在口袋中,放在頭後)或是被另一個手臂、手所遮擋。在這些情況下,手部跟蹤就變得困難且需要基於人類運動的預測。一個更困難的問題是跟蹤完整的手部關節——由手結構定義(23個手腕DOF,6個位置和方向DOF)的29個自由度。Wu和Huang提供了一個對手跟蹤和手勢識別的概述。
對人身體及其組成部分的定位、識別和跟蹤只是交互的第一步,此外需要識別行爲。感興趣的行爲可能有結構化的、分離的手勢,連續的人類自然手勢或者由一系列時間範圍定義的行爲(例如,離開房間,在桌子上吃飯)。手勢識別可以作爲一個直接的模式識別問題來實現,它試圖匹配身體參數的某個序列,或者是一個概率系統用來推理基於統計定義的姿勢模型。這個系統必須要能區分偶然的人類動作,有目的的操作物體的動作和那些用於交流(有或無意識的)的手勢。語言和手勢間的關係是很複雜的,能使通用的且上下文無關的姿勢識別自動化是一個長期的目標。
雖然在某些情況中可以使用簡單的狀態空間模型,但在建模和識別序列姿勢時通常採用統計模型。由於統計模型在語音識別領域中的成功使用,隱馬爾可夫模型(HMM)已經被廣泛地用於建模和識別姿勢。一個早期的例子是一個識別系統,能夠識別一定數量的由Starner和Pentland開發的美國手語。現在已有一些源於基本HMM方法的變形,用於更好地匹配視覺中更爲廣泛的特徵和模型。因爲許多手勢包括多個組成部分,例如手部動作的弧線和姿勢,序列信號比語音識別中的更復雜。貝葉斯網絡在姿勢識別中也顯示其前景。
 
基於視覺的接口技術進展
儘管在一些個別應用中取得了成功,但縱使在幾十年的研究之後,計算機視覺還沒有在商業上被廣泛使用。幾種趨勢似乎表明了這種情形即將會發生改變。硬件界的摩爾定律的發展,相機技術的進步,數碼視頻安裝的快速增長以及軟件工具的可獲取性(例如intel的OpenCV libraray)使視覺系統能夠變得小巧、靈活和可支付。近年來,美國政府已經投資了一些人臉識別評估項目:最初爲1993年到1997年的人臉識別技術(FERET)項目,最近爲2000年到2002年的人臉識別vendor測試(FRVT)。這些項目提供了對用於研究和商業的人臉識別系統的性能評估。FRVT 2002全面地測試了10個商業系統,收集了一個非常大的數據集的性能統計:37437個人的121589張人臉圖像,通過多維(在室內或室外,男性或女性,年輕的或年長的)表示其性能特徵。圖3顯示了最佳系統對正面人臉圖像的5項分類的人臉檢驗結果。
最近幾年,DARPA資助了用於遠距離識別人和視頻監防的大型工程。正在進行中的遠距離人物身份(HumanID)項目將使用多模態融合技術,包括注視識別,即在很長的範圍內(25-100英寸)識別人物身份。視頻監防和監視(VSAM)項目試圖爲未來的監防應用開發對感興趣的活動的識別系統。國家科學基金已經給基於視覺接口技術的相關領域中的一些信息技術研究(ITR)獎勵了津貼。工業界中公司裏(例如微軟,IBM和英特爾)的研發實驗室在這些領域中做了很多的努力,同樣的在工業界中開辦了公司,例如個人機器人和娛樂。
近年來,隨着許多公司提供人臉識別技術(和人臉檢測、人臉跟蹤),包括3D方法(例如,Geometrix,A4Vision和3Dbiometrics,見Jain和Ross關於包括計算機視覺和其他模態的生物測定的詳細描述),生物測定學市場有了顯著地擴大。一些研究團體和公司已開發了人臉跟蹤技術,尤其是用於計算機圖形市場(遊戲和特效)。
簡單的視覺技術有效地用於交互環境的一個不錯的例子是MIT媒體實驗室的幼兒室工程。幼兒室爲孩子提供了一個交互的,敘述性的劇情空間。用計算機視覺來識別用戶的位置和他們的活動可以幫助給參與者傳遞一種強制性的交互體驗。現在已經有許多其他的由大學和研究實驗室開發的強制性原型系統,其中有些處於步入市場的初期階段。
 
技術挑戰
除了適合生物測定市場的人臉識別技術外,幾乎很少有成熟的計算機視覺產品或技術以支持與用戶的交互。然而,有大量且數量遞增的研究項目和這類原型系統。爲了從實驗室走向真實世界,必須說明幾個基本問題:
l         魯棒性:大多數視覺技術是脆弱,缺乏魯棒性的,照明和相機位置的微小變化可能會導致系統出錯。系統需要在各種條件下工作,且能適度地、快速地從錯誤中恢復。
l         速度:對於大多數計算機視覺技術,在全面和快速交互兩者間都採取了實際折衷。視頻數據太多了,以至於無法實時地做複雜處理。我們需要更好的算法、更快的硬件設備和更靈巧的方法來決策需要計算什麼,可以忽略什麼。(提供了已處理的圖像流的數碼相機能夠有很大的幫助)
l         初始化:許多技術在得到了初始模型後,跟蹤效果都很好,但是初始化步驟往往很慢且需要用戶參與。系統必須能快速和透明地進行初始化。
l         使用性:對於開發系統的人來說(花費了許多時間研究複雜難點)視覺技術的示範使用能工作地很好,但對於那些沒有經過“系統訓練”的新手卻很困難。這些系統需要適應用戶,處理無法預期的用戶行爲。此外,它們需要提供簡單的糾錯和處理錯誤解釋機制以及能提供反饋給用戶,以避免預料之外的災難性後果。
l         上下文集成:一個基於視覺的交互技術本身不是最終的結果,而是一個更龐大的系統中的組成部分。手勢和活動需要放在合適的應用過程中加以理解,而不是孤立的行爲。從長期來看,這需要在各種應用的上下文關係中深刻地理解人類行爲。
前三個問題已經在日常的研究實驗室和全球的產品研發組織得到了關注,使用性和上下文集成很少被考慮,但是隨着更多的應用開發,這兩個問題將會提到研究日程的前面。
 
結論
計算機視覺是一個非常困難的問題,在經過幾十年的研究及幾個主要應用的推動後依然不能解決通用情形。但是,在過去的十幾年裏,人們對於相機的迴轉使用以及用計算機視覺來“看人”的興趣提升,即檢測和識別人臉,跟蹤頭部、臉部、手部和身體,分析臉部表情和身體動作,識別手勢。在構造實時、健壯的視覺技術上取得了重要的進展,部分是因爲摩爾定律驅動的硬件性能的極大提高。一些子問題(例如,人臉檢測和人臉識別)已經獲得了顯著的商業成功,但是其他部分(例如手勢識別)還沒有在商業上找到一個大的位置。所有這些領域,仍然存在重要的速度和魯棒性問題,因爲快速的方法總是脆弱的,而依據原理的全面的方法又是非常慢的。與語音識別技術相比較,語音技術已經商業化多年,且穩步前進幾十年,計算機視覺技術HCI依舊處於“石器時代”。
然而,有許多理由可以對未來的計算機視覺接口技術充滿樂觀。個人組件技術在過去的幾十年發展迅速,一些領域趨於商業化,而其他的也應該很快跟上。計算機視覺的基本研究正繼續發展,新的想法將很快應用到基於視覺的交互技術中去。現在有許多關於這個研究領域以及與其他模態集成的會議和研討會。人臉識別領域提供了一個很好的模型,有向的資助、共享數據、短兵相接的競爭到商業應用,這些都極大地推動了技術發展水平。其他技術也可能沿着這條路走,最終,大量的研究、技術和商業應用將幫助計算機視覺技術走到多模態人機交互的前端。(劉婧編譯)
 
 
 
基於視覺感知網絡的行爲感知和理解技術
 
計算技術進化和用戶體驗渴望的雙重需求正推動着“人與環境交互”這一富挑戰性課題的發展[1]。本質上,無論是Weiser提出的普適計算(Ubiquitous Computing)[2],還是歐洲ISTAP (Information Society Technologies Advisory Group)描繪的環境智能(Ambient Intelligence)[3],目標都是要營造“環境智能化”和“服務人性化”的智能環境(Intelligence Space/Environment)[4][5]。這個環境既是一個基於傳感器網絡的智能物理空間,也是一個人與機器(空間)相互合作的複雜計算系統;既需要各種新型傳感器和智能設備[6]及無線傳感器網絡等網絡技術來支持環境與計算系統的通信和集成並體現計算的分佈性、普適性和透明性[7]-[9],還需要利用環境及上下文感知、多傳感器信息融合及智能系統等技術來支持環境對人類存在的感知和響應[4][10][11],並從用戶體驗角度提升用戶與環境間的融合度,讓用戶可利用日常技能獲取環境所提供的計算功能和服務[12]-[14]。概括起來,智能環境應具備的基本條件包括:能使人們在的正常行爲變得方便;能自動獲取和動態保存人類在其中所發生的行爲和事件數據;能對觸發事件和特殊事件做出反應;能適應各種動態變化。顯然,要實現這樣的環境需要各種形式的感知系統,且所有傳感器、處理器和通訊設備應該隱藏在底層結構中以支持參與者自然和靈活的交流。與其它傳感器相比,視覺感知設備(如:攝像機)具有覆蓋範圍大、信息豐富、精確度高,對環境和用戶透明而又非侵入等優點,隨着攝像技術向數字化、微型化、全方位、主動式和智能化方向發展[15]-[17],視覺信息在準確而有效表示智能空間中人的動態或靜態狀態和行爲方面發揮着愈來愈重要的作用[11],因此,利用分佈於環境中的攝像機組構建視覺感知網絡(Visual Sensor Network)[18]-[21],運用模擬人類視覺感知能力的視覺計算(Visual Computing)技術來捕捉、理解和響應環境中人的行爲舉止和情感狀態並進而協調其與環境間的交互關係是智能環境不可缺少的核心課題之一[11][22]。
從人機交互的角度來看,人類今天的生活片刻離不開計算,人機和諧共處愈顯重要,普適計算的探索進程也推動着人機交互從“以機器爲中心”的受限(Formal)模式向“以人爲中心”的非受限(Informal)模式方向發展[3],多通道/感知用戶界面(Multi-modal/Perceptive User Interface)[12][13][23]等新穎人機交互技術的目標是要實現用戶界面對人類自然能力(如:觸覺、語言、筆形、手勢和情感等)的感知、學習和理解,並通過協調感知和表現間的關係來模仿人與人及人與環境間的交互。其中,視覺行爲(Visual Behavior)及其所表現出的視覺情感(Visual Emotion)在人類日常交互中具有舉足輕重的作用,臉部表情和肢體動作等行爲線索能爲交互能提供相關上下文信息並影響交互內容和進程[24][25],尤其是情緒對所有非語言交流線索的激發調控才使人類在面對面交流中能毫不費力地察覺並解釋相互間的交互信號[26][27]。因此,利用視覺計算技術適當地探查、識別和綜合各種視覺行爲線索,進而運用情感計算(Affective computing)技術來實現計算環境對人類日常情感狀態的感知和學習並生動模仿和響應人類情緒表達是人機交互自然化和智能化的重要標誌[13][14],已在人臉/頭部檢測與識別[28]-[30]、筆形[31]和手勢識別[32][33]及表情識別[34][35]等方面進行了大量卓有成效的研究,頭部及視線跟蹤、手勢和表情等視覺人機交互模式已逐步應用到圖形用戶界面中並部分代替傳統界面模式[13][14],如:利用美國符號語言(American Sign Language)的手勢交互[36][37];IBM的藍眼(Blue Eyes)項目通過眉毛和嘴角的位置來進行人臉表情識別並實現對使用計算機的人情緒狀態的監控和響應[38],等等。但是,已有研究主要集中在對人體局部行爲和動作的識別和解釋方面。事實上,人類行爲是一個具多樣性、文化性個體性和可塑性的複雜過程,在人機交互中,人類將計算機看作是“社會代理人”並與它進行“面對面(界面)”交流,需要機器具有適應用戶的能力,而適應的時間、方式和重要性所涉及的是用戶情感狀態信息,機器恰當地對用戶的情感狀態做出反饋和反應才能使人感到更容易、自然、有效用且可信。因此,對人類行爲及其上下文相關性,尤其是其所表現出的情感狀態的綜合和分析是新一代人機交互進一步發展面臨的重要課題。
感知和識別複雜環境中人的行爲舉止也是智能視頻監控研究的熱點和難點課題之一[39]-[42],其任務是利用攝像機對特定環境中持續和瞬間物體進行實時監控和場景解釋,理解和預測上下文相關的物體行爲和事件並根據從傳感器獲得的信息與被觀測的物體進行交互,在公共設施、商業、交通和軍事等場景的檢測、監控、管理和指揮等應用中具有重要價值。衆多研究者對此進行了大量卓有成效的研究和應用,並已經在對象檢測和跟蹤[43]-[46]、人體運動分析[47][48]和行爲識別[49]等方面涌現了大量令人矚目的研究成果。尤其是二十世紀九十年代以來,日益增長的社會安全要求產生了對許多環境進行監控的需求,使得視頻監控技術的研究和應用受到學術界、工業界及政府部門更多的關注,大範圍嵌入型、多攝像機協同、多視角動態場景、多目標和多層次行爲的分佈式智能監控系統成爲這一領域的研究熱點[41][50][51],並在基於任務的攝像機網絡部署和控制[52]-[56]及多攝像機集成和協作[57]-[62],尤其是活動攝像[15]-[17]及其視頻內容處理[63]-[65]、視頻壓縮[66][67]、網絡通信協議和數據傳輸標準[59][68]-[70]等多方面進行了大量研究,也出現了許多針對地鐵、機場、車站等場所及交通運輸等領域的分佈式智能視頻監控系統,如:採用多攝像機對室內人體整體和局部動作進行監測和識別的DIVA(Distributed Video Arrays)系統[11];採用多攝像機在大範圍複雜動態場景中檢測和監控物體運動的VSAM(Video Surveillance And Monitoring)系統[71];採用嵌入式智能傳感設備和分佈式處理對車站等場所人羣活動進行跟蹤和監控的智能公共交通監控項目PRISMATICA[72];等等。然而,智能視頻監控是一個十分複雜的問題,它與攝像機數目(單攝像機vs.多攝像機)、攝像機的配置(集中式vs.分佈式)和方式(固定攝像機vs.活動攝像機)、運動目標數目(單目標vs.多目標和類型(剛體vs.非剛體)、傳感器類型(可見光圖像vs.紅外圖像)和樣式(單目攝像機vs.立體攝像機)及場景狀況等諸多因素有密切關係,除了在檢測、跟蹤和識別等算法對運動目標姿態或狀態改變及環境光照等因素變化的魯棒性,複雜目標和環境處理過程的準確性和快速性等關鍵問題外,在分佈式攝像機網絡資源的配置和優化、多攝像機協同和信息融合、模型數據庫的可測量性和增量式更新機制等諸多方面還有待於進一步深入研究。
智能環境中視覺行爲感知系統承擔着對環境中人進行監控與交互的雙重任務,其目標是利用多個攝像機形成的視覺感知網絡實現對人各種行爲舉止的感知和響應[20]。由於它不僅要關注人的空間位置和運動軌跡,而且要捕捉其各個層面的行爲,甚至是情感狀態,因此,視覺信息處理軟件系統需要以下幾個方面的功能[11][52]:利用多種類型攝像機獲取多層次信號的能力;從多層次信息融合和抽象中獲取行爲和事件語義的能力;關注特定場景及其行爲和事件的能力;在不同行爲和事件語義層間轉變注意力的能力。歸結起來,基於視覺感知網絡智能環境的軟件系統需要解決三大相互關聯的關鍵技術問題:一是面向多尺度行爲信息感知的多攝像機控制模型;二是面向行爲檢測和跟蹤的多線索融合技術;三是基於上下文的動作和活動分析與解釋方法。
多攝像機控制模型是分佈式視頻監控系統引入的嶄新研究課題之一[41][42],也是基於視覺感知網絡智能環境的基礎和關鍵技術之一[73]。傳感器網絡主要有兩種基本傳感模型:布爾傳感模型和概率傳感模型[21],然而,在視覺感知網絡中可能會存在各種類型的傳感器節點,這些不同類型節點的傳感模型不盡相同,多媒體傳感器節點傳感設備類型的多樣性和傳感模型的異構性,主要體現在視頻節點的方向性傳感和其它節點的全向性傳感之間的差異上,它對環境的感知受視角的限制是有方向性的,即節點的感知範圍是一個以節點爲圓心,半徑爲其感知距離,且與視角相關的扇形區域。同時,爲了讓視覺感知網絡完成目標監測和信息獲取的任務必須保證視覺傳感器節點的部署能夠有效地覆蓋被監測的區域或目標,目前研究較多的傳統傳感器網絡中的覆蓋方法包括:網格覆蓋、冗餘覆蓋、圓周覆蓋、連通性覆蓋、最壞與最佳情況覆蓋等[8]。然而,衆多類型的視覺傳感器節點共存於網絡中,使得視覺感知網絡中多攝像機的部署和協同覆蓋控制研究更有意義。已有研究主要集中在面向對象跟蹤性能最大化和能耗最小化的多攝像機任務管理和空間佈局優化及攝像機自動校準和糾錯等方面,如:DIVA系統[11]採用動態多線程視頻同步採集和多狀態分析結合的方式來實現最小時延的多攝像機協作;Snidaro等[53]提出了利用衡量攝像機信息度量的外觀係數(Appearance Ratio)來實現與跟蹤對象位置距離最小化的攝像機部署和選擇優化方法;Erdem和Sclaroff[54]考慮了固定、活動(PTZ)和全景攝像機三種類型及視野、空間分辯率和景深等攝像機參數,提出了面向響應時間最小化的室內多攝像機位置和數量部署優化方法;Dhanya等[56]通過定義通信圖(Communication Graph)和視覺圖(Vision Graph)而將攝像機的配置轉化爲圖優化問題;Volkan等[58]則將對象跟蹤的多攝像機部署視爲關注焦點FOA(Focus of attention)問題,提出了利用攝像幾何學及其對應的誤差度量間的關係來實現跟蹤期望目標位置誤差最小化的多攝像機部署優化方法;Makris等[59]通過對大量活動場景的無監督統計學習建立起各類活動對應的攝像機視圖間的連接關係模型,進而利用這個模型來自動確定攝像機網絡的拓撲結構並可跟蹤盲區中的目標;Trevor和James[61]採用爲每個攝像機配置一個無監督在線學習分類器的方法,並運用多分類器聯合方法來實現多攝像機協同的對象檢測和跟蹤。智能環境要求其攝像機監控空間能覆蓋整個環境,且能選擇、觸發和控制合適的攝像機在恰當的時間從特定地點獲取滿足多層次行爲和事件分析所需的多尺度信息的要求,也就是說,面向多尺度信息感知的多攝像機控制和管理必須同時滿足響應時間、空間位置、視頻內容分析(對象整體或局部信息)等要求,使檢測目標的可能性最大化並避免不必要或無效率的控制和計算,因此,如何在特定的感知信息階段以最小的代價來選擇和確定一組最有用的信息源仍是基於視覺感知網絡的智能環境中多攝像機控制模型的重要問題,同時,尚缺乏對系統性能和能耗建模和評價等方面的研究。
多線索數據融合是改善視覺計算系統性能的重要手段,在圖像分析、機器視覺、視覺人機交互和視覺信息檢索等領域中已有大量的研究和應用,如:遙感圖像分析中的圖像融合[73]、靜態對象識別中的多特徵融合[75]、視覺信息檢索中的視覺語義融合[76],等等。基於多線索數據融合的對象檢測及跟蹤也是視頻監控中的重要課題[62],藉助於諸如卡爾曼(Kalman)濾波、人工神經網絡、動態貝葉斯模型及隱馬爾可夫模型等技術,基於外觀、區域、輪廓和運動等線索及其組合的檢測與跟蹤已經得到廣泛研究[47][48]。但是,這些研究的主要目標在於融合同一感知源中的多種線索來提高檢測和跟蹤算法對場景、視角、光照和噪音等因素影響的魯棒性,如:融合顏色、紋理和運動等多種特徵信息可以增強混亂環境中物體檢測效果和追蹤性能[42][77]。智能環境需要系統而有效地解釋來自環境中不同模態和模糊性傳感器的大量信息,需要能根據多尺度視覺感知所擁有的信息量和所要求的細節層次進行多層次信息實時抽取和融合,並在合適的細節層次上實施對感知數據的時間狀態和時間尺度分析,進而判斷人的存在和分析人的行爲並進行有效的追蹤,因此,智能環境中的多線索融合不僅應使檢測和跟蹤算法具有對環境、對象及噪聲等變化影響的魯棒性,更重要的是對來自多攝像機的信息在內容度量(整體和局部)和時間尺度上進行關聯[10],需要在聯合特徵空間中按照上下文依賴模型進行表示和融合,以提高其對動態視覺內容特徵表達(時間進化)的敏感性。最直接的解決方法是利用立體視覺方法來建立三維場景模型並實現多攝像機感知信息的融合,如:DIVA系統[11]採用靜態攝像機組多基線立體視覺方式來建立三維場景模型而實現多攝像機信息融合,再通過對多攝像機同一場景重疊視圖的分析和匹配來支持多攝像機協同的對象檢測和跟蹤;類似地,Hampapu等[57]以單個攝像機基於對象外觀和位置的二維檢測和跟蹤爲基礎,採用多攝像機寬基準線立體視覺方法來獲取三維物體位置,再利用多攝像機視圖對象一致性來支持對場景中對象的檢測與跟蹤;Christopher[62]則通過建立多攝像機背景和前景對象外觀的統一場景模型,利用貝葉斯模型來實現多攝像機協作和多模式融合的室內對象感知和跟蹤。但是,智能環境中需要使用多個攝像機以聯合、主從和競爭等工作方式來完全覆蓋關注的場景並獲得可接受的分辨率,三維場景模型建立過程的相對比較複雜,而且現實世界環境通常是動態且隨時間而變化的,尤其需要處理遮擋等情況下的不同時刻的場景於對象間的對應關係;同時,儘管已有研究能做到對連續數小時的視頻序列分析,但對於需要對人類行爲舉止長時間監控的智能環境來說也需要使用特殊的攝像機和算法。因此,如何系統而有效地表示和融合具有不同抽象度和不確定性的多攝像機感知信息並進而對場景時間變化和場景級整體和局部對象建模和融合仍是基於視覺感知網絡智能環境中的一個難點問題之一。
基於視覺的人體姿態估計和動作識別是在視頻監控、醫學、機器人、視頻索引、電影和遊戲動畫等許多領域都受廣泛關注的研究課題,已經出現了很多思想和方法,文獻[47][48][49]對此做了系統而全面的總結。儘管這些研究成果依賴於研究者和應用目標,但無論是姿態估計還是動作理解都取得了很大進展[48]。一方面,姿態估計已經覆蓋了從多視角圖像中姿態估計到從單幅圖像中姿態估計、二維姿態估計到完整三維姿態重建等多個方面,尤其是通過採用基於示例的學習方法和基於模型的綜合分析方法提高了對複雜場景姿態估計的魯棒性和可重構姿態的複雜度[48],基於示例的學習方法利用人體動態捕捉數據庫中的數據來生成人體模型在多姿態下的運動學習模型[78],進而獲取二維圖像特徵到三維姿態之間的映射,最終實現從單視角圖像序列中估計人體姿態;也可能把學習得到的二維到三維的映射與二維姿態檢測組合起來從複雜場景的單視角圖像序列或單幅圖像中進行三維姿態檢測。基於模型的綜合分析方法則主要關注對複雜動作的可靠重構[79][80],它採用隨機採樣和搜索技術從多視角圖像中估計三維姿態,爲動作識別和重構提供強先驗知識,進而重構人體的三維姿態。但示例學習方法中對訓練樣本的動作類別和視角範圍的依賴性及模型綜合分析方法中先驗模型對一般動作重構的可擴展性仍有待於進一步研究和探索。另一方面,人體動作識別和理解在最近幾年受到幾乎爆炸性增長的關注[47][48][49],尤其是在智能視頻監控領域,且在監控應用中異常活動檢測及其它簡單動作的識別和動作語法的表示方面取得了顯著進步,如:採用整體方法來確定諸如性別和身份等整體信息或行走和跑步等一些簡單動作;使用局部方法則關注更爲細節的手勢和步法等局部動作或通過簡單動作單元來對複雜動作建模。但是,對人體行爲和動作的視覺理解總體上仍然不成熟,在考慮場景上下文和人與場景間交互的運動理解,尤其是涉及動作語義和動作語法的高層抽象方面研究較少,對被監控空間內的事件進行基於上下文的檢測和解釋仍然是一個有待研究的領域,其難點在於利用時間或配置條件等知識優化視頻分析,利用環境的幾何模型或其它物體和活動模型解釋事件以及採用學習的方法來提高系統的性能並檢測所關注的事件。智能環境需要能從視覺信號、對象、事件和上下文關聯等多層次抽象中獲得整體或局部行爲舉止語義信息並關注特定事件和行爲[73]和在不同語義層間轉變注意力[55][56]的能力,尤其是捕捉和區分持續時間較短且隨時變化的快速行爲信號能力,如:象徵性動作(如:眨眼或豎大姆指);操縱者(如:曾在環境中表現的行爲,或抓撓和咬嘴脣等自我操縱行爲);講解者(如:由話語伴隨的指點和擡起眉毛等動作);控制者(如:交換眼神、舉起手掌、點頭和微笑等);情感和態度的狀態(如:快樂、不在意、挫折感);等等。這就需要尋求更爲通用的身體模型及其在動態複雜場景中視角、身體形狀和衣着等的不變表示及身體整體或部分檢測和姿態估計方法等來捕捉和表示更大範圍的人體動作和行爲及其關係,並能藉助於用戶特定的情感/態度標記進行依賴於應用和任務的行爲和動作的高層推理和理解。因此,基於時間或配置條件等上下文的行爲和事件的識別和解釋是基於視覺感知網絡的智能環境面臨的重要問題之一。
此外,由於基於視覺感知網絡的智能環境涉及到多尺度視覺信息感知和融合、視覺信息分析和理解、視覺信息重建與顯示、大規模數據庫、知識處理、用戶智能代理及各種應用服務等多個組成部分,每個部分在獨立承擔一定功能的同時還需要與系統中其它部分進行實時通信與合作,顯然,單純依靠傳統的軟件理論和技術研製這一強調分佈、合作與通信特點的系統是很難達到滿意的效果;而借鑑和利用分佈式自治系統中多Agent技術是這一領域研究和開發的必然趨勢。利用Agent的自主性、可交互性、協作性及學習性,可以減輕對視覺傳感器硬件性能要求的壓力,增加系統的魯棒性,也可提高系統配置的靈活性,從而可以大大簡化系統的研發並增加其實用性。目前,這方面的研究也很少,如:Patricio等[18]提出了一個視覺感知網絡的多Agent框架,每個Agent對應於一個攝像機並採用內部符號模型描述其控制參數,攝像機間的協作通過Agent間的高層信息交換,每個Agent根據所有來自其它Agent的信息來解釋其當前狀態並改善其全局協作性;Norimichi和Takashi[81]則採用基於Agent的三層交互結構,每層採用動態存儲處理和交換不同類型對象信息,可以實現多活動攝像機協作的實時複雜動態場景多對象跟蹤。
概括起來,智能環境是普適計算時代面向計算技術進化和用戶體驗渴望雙重需求的複雜計算系統,它以分佈於物理環境中的傳感器網絡爲支撐,承擔着對人類及其活動感知與交互的雙重任務。儘管在無線傳感器網絡及基於傳感器的對象定位跟蹤等相關技術方面已有大量卓有成效的研究,但尚未真正形成完整而又實用的智能環境理論體系和軟件方法,尤其缺乏對基於視覺感知網絡的協同視覺行爲感知和理解這一關鍵技術及其軟件實現方法的研究。同時,已有相關研究成果大多側重於運動對象的魯棒跟蹤和簡單動作的有效識別方面,顯然,這些技術和方法主要適用於場景中短時間內異常行爲或局部動作的檢測和判別,尚不足以支持複雜場景中對人行爲舉止的長期感知和捕捉,尤其在多層次細節信息的協同感知、從多線索信息中獲取行爲及其語義、關注特定行爲的細微變化及不同行爲和事件間轉變注意力等方面的研究尚不能滿足基於視覺感知網絡的智能環境對視覺感知和理解的要求。需要借鑑認知科學、模式識別、機器學習、計算機視覺、傳感器網絡、協同計算、智能視頻監控和人機交互等相關領域的理論和方法,從計算技術進化和用戶體驗渴望這兩個方面分析智能環境的構成方式、技術特點及其與人類活動間的內在聯繫,從協同視覺行爲感知和理解角度研究多攝像機協同、多尺度時空信息感知、多線索信息融合和上下文敏感計算等關鍵技術,進而運用計算機軟件新技術研究基於視覺感知網絡的智能環境軟件系統架構和實現方法,並建立智能環境軟件系統模型及其評價體系。這無論是對於智能環境本身的發展和應用,還是對分佈式視頻監控和視覺人機交互的進步都具有十分重要的學術意義和應用價值。
 
普適計算中的數據管理

體積更小、處理能力更強的設備,改進的有線無線的網絡,數據傳輸和表示的標準( HTML、XML、HTTP、WAP等),這些因素的結合使得計算機在人的日常生活中扮演更重要的角色。有理由相信最終這些設備將普遍深入到我們生活中對我們的生活起到關鍵的作用,但是一切都是在不知不覺之中,好像在無形中發揮作用。這種被成爲普適計算的概念在過去的十年中吸引了很多計算機研究者,這個概念首先是由Mark Wieser提出的。
 
當然,任何依賴於計算機或PDA人知道,普適計算實現之前還有很多工作要做。加快實現普適計算的必須的技術是提高速率。很多這個領域的研究者關注的是改進設備本身和他們使用的通信技術。對於設備,關鍵是在減小體積、成本、功耗的同時提高它的功能。對於通信技術,關鍵是提高帶寬和覆蓋率,發展協議使得能有更強的容錯性和提供無線和移動連接。
 
改進的硬件和網絡顯然對於普適計算的發展十分重要,同樣重要的和困難的是數據管理。爲了支持計算行爲背景化,數據必須是可靠地、高效地被存儲、查詢和傳輸。傳統的數據管理如緩存、併發控制、查詢處理需要適應普適計算環境的要求和限制。這些環境包括資源限制、間歇的變化的連接、移動的用戶和動態的合作。
 
本文中,我們首先討論普適計算支持的應用的主要特徵和這些應用對數據管理的要求。然後我們介紹數據管理的不同方面以及它們是怎麼適應這些新的要求的。
 
應用和數據管理的要求
雖然對普適計算的前景大家由共識,但是並沒有明顯的所謂的“殺手鐗應用”。很多研究者和產品開發者開發樣品在特定情形下闡述這種技術的潛能。由於這種綜合的全局的普適計算的應用,特定的產品具有比單個應用多很多的功能。有的廠家提出這種技術強調的是用戶的經歷而不是一個或以一套特定的應用。這些情形中用戶被若干移動設備“包圍”,在不同的環境(家、辦公室、汽車、會議室)中移動。這些設備主動地提醒用戶制定的任務,對這些任務相關的部分或所有信息提供訪問,並且使得在任務中的獨立的小組之間通信變得簡單。
 
功能的種類
與其舉例另外的場景還不如分類各種場景功能有用。這些功能分類用來決定數據管理的要求。功能可以按照以下的方式分類:
1)對移動的支持-小型設備與無線通信的融合意味着這些設備可以被用於移動的情況下。所以,相關的應用要能夠在變化的、動態的通信計算環境中運行,可以從一個網絡提供商移動到另一個網絡提供商下正常操作。此外,本地化的新的應用同樣要被開發。
2)上下文感知-如果設備真正做到是普遍存在的,那麼它們就必須做到在大範圍的持續變化的條件下使用。對於那些真正對人有幫助的設備,它們必須對環境以及用戶正在執行的和即將執行的認爲能夠感知。上下文感知的系統從智能提示系統(提醒用戶一個重要的事件或者數據)到“smart空間”(房間或者環境能對當前出現的人和事進行適應)。
3)協作的支持-普適計算應用的另一個重要主題是對一組人的支持。這種支持包括通信、會議和共享數據的存儲、維護、傳輸以及表示。如果所以的參與者可能的話,協作可以是實時發生的,當然可以是異步的。除了支持當前發生的協作,系統還要求能回溯和分析已經發生的行爲。
 
適應性和用戶交互
上述的這些功能對數據管理提出了許多挑戰,其中對適應性的要求是所有的功能共同要求的。移動的用戶和設備、不斷改變的上下文、動態的羣組這些對適應性提出很高的要求,而這恰恰是傳統的數據管理技術不能表示的。適應性是本文餘下部分討論的技術的共同的主題。
 
普適計算是爲了提高人在執行各種任務的能力的,所以這些應用中用戶是實時地與計算機進行交互。有的情形下,我們把提供用戶對不確定事件的動態干預作爲提高適應性的一個方面。羣組系統中對共享數據的訪問和更新是這種設計思想的具體的例子。不像傳統的數據庫系統併發控制機制中利用嚴格的用戶交互的類型和度的限制,羣組系統數據管理者則很少採用嚴格的限制規則。放寬規則降低了系統自動處理的範圍的衝突。系統自動處理它們能夠處理的事件,當它們檢測到不能處理的衝突的時候,只是簡單地提醒用戶發生衝突了並允許用戶根據當時的情形來處理衝突。把用戶包括在處理的過程中可以提供更強的適應性。
 
其它還要一些數據管理的要求雖然並不像適應性那樣作爲所有功能共同要求的,但是爲了支持全面的普適計算的環境也應當被提出來。例如,移動性帶來很多問題。首先,移動的終端以及有限的存儲能力意味着普適計算系統能夠從不同的變化的位置接受和發送數據。這就需要對不同的代理支持,因爲用戶要在不同的代理之間移動。協議就必須在這樣的要求下構建以滿足不見斷的支持代理的變動。移動性還要求智能的數據籌備,這樣數據能夠在用戶需要的時候放置在離用戶很近的位置。
 
其次,移動性把在固定場景下不是很重要的位置因素引進到應用中來。例如,很多爲移動設備服務的系統是以位置爲中心的。假定有這樣的系統,它能夠回答這樣的問題“找出以我的位置爲中心2英里內的藥店”。這樣的系統一定可以跟蹤當前用戶的位置並能夠訪問到與相關位置、距離有關的信息。從更一般的範圍說,系統能夠大量的移動對象,並能預測它們未來的位置。例如交通控制系統要追蹤大量的汽車,包括它們的當前位置、方向以及速度。以位置爲中心的計算要求特定的數據結構,這種結構能夠把位置信息有效地保存起來。
 
上下文感知的要求
上下文感知的功能對系統中保存的知識以及如何利用這些規則提出要求。爲了支持上下文的感知,系統必須保存用戶的要求、角色、偏愛等內部信息。這種系統的一個例子就是智能的日程安排系統,它能夠根據用戶的近期安排給用戶發送信息。比如用戶下午與特殊的客戶下午見面,系統可以自動向用戶發送與下午見面相關的信息(客戶帳戶、以前會談的結果、與會議主題相關的文章)。
 
負責的系統可能利用各種傳感器來監控環境並跟蹤用戶的行爲以幫助用戶完成正在進行的任務。這種基於傳感器的系統要求能夠實時處理數據流並能夠分析和解釋這種數據流。所以普適計算中數據流處理扮演着重要的角色。
 
無論系統是怎樣接受上下文信息,從傳感器、用戶輸入、個人信息管理運用或者聯合各種方式,系統必須能夠很好地對這些數據提供處理以能夠準確地獲致當前環境的狀態或者用戶的興趣。上下文感知的應用還要求系統有推論和機器學習的能力。所有的這些必須能夠處理不完整的、有衝突地數據,並能夠足夠有效地與用戶進行交互。
 
協作的要求
我們討論的最後一組要求是爲了支持動態的一組人或者工作的協助。如前面所述,這種應用的主要的要求是適應性的要求。此外,除了適應性還有其它的一些尚未討論的要求。首先是同步和一致性地要求。任何支持協作的應用的核心是一組共享的數據的建立、訪問、修改和刪除。這種功能必須是靈活的這樣不同類型的交互(從聊天的工具到傳統數據庫的四個特性——原子性、一致性、隔離性、持久性)才能夠很好的支持。
 
協作應用的另一個要求是對歷史的可靠的可行的存儲。如果協作是在同步方式下發生的,用戶要能夠訪問在協作的早些時候發生的事件。還有,如果協作的參與者允許在中途有變化,對參與者和其行爲的持久的記錄可以加快新的參與者的融入。這種持久的記錄可以有效的作爲行爲的日誌,而用作對協作的各種結果的起因的追蹤,或者用作機器學習或者數據挖掘來幫助優化以後的協作。
 
數據管理技術的例子——當前進行的項目
前面的討論中描述了爲了支持普適計算場景的數據管理中遇到的挑戰並概述了普適計算應用的特性。這一段,我們主要描述兩個正在進行的系統。第一個系統是Data Recharging,發掘用戶的興趣和偏好信息並把這些信息更新和相關的信息傳遞給用戶的移動設備。第二個系統是Telegraph,建立適應數據流結構的數據處理來處理不同的數據流上(傳感器數據流、動態環境數據流)的查詢操作。
 
Data Recharging:Profile-Based Data Dissemination and Synchronization
移動設備需要兩個資源:數據和能源。由於移動設備體積和成本的限制使得它不可能始終連接到固定的能源和數據(因特網等)上。移動設備利用緩存技術來解決這種不相連接的問題。設備利用充電電池來緩存能源,利用本地存儲來緩存數據。一段時間後,設備本地的資源必須連接到固定的資源上“充電”。利用現在的技術設備中已駐數據的更新和補充比能源的補充更麻煩、和易出錯。能源的補充可以在任何地方,只需要很少的用戶干預,並能夠累進的進行——充電時間越長,能源儲備越充足。但是,數據的補充並不具備這些特性。
 
Data Recharging項目是開發這樣一種服務和相關的基礎設施,使得移動設備在任何地方、任何時間內接入到因特網以後設備就擁有比接入以前更多更有用的信息。數據更新的開始要求設備擁有一個插入式的接入因特網的接口。設備接入因特網的時間越長,獲取的信息越豐富。雖然和充電類似,但數據更新在數據傳輸中的數據類型和數據量更加複雜。數據的更新必須根據更新設備的能力、更新數據要支持的任務來量身定做。
 
不同的移動用戶有不同的數據需求。商務旅行者希望更新合同信息、目的地的旅館概況和價格等。學生要求訪問最近的課程筆記、預習課件、查看實驗室公告。數據的更新把用戶不同的需求看作特徵。特徵可以理解爲對可用數據的詳審找出與用戶相關的信息並決定它們對用戶的價值。
 
數據更新的特徵包括三個類型的信息:首先,特徵描述了用戶感興趣的數據類型。這種描述應當式公開的,這樣它能夠把新創造的數據和已經存在的數據都包含進來。這種描述也應當非常靈活的這樣才能夠表達不同類型數據和媒體的屬性。第二,由於帶寬、本地存儲容量、數據更新時間的限制,只有一定範圍內的數據能夠被傳輸到設備中來。特徵還要根據數據的優先級、多個可選項中用戶的選項、一致性的要求和其它的特性能夠表述用戶的偏好。最後,用戶的上下文能夠動態地和由用戶的特徵參數化表示的更新過程相協作。
 
我們前面對用戶的特徵的工作主要關注以下幾點:
1)     XML文檔流上高效處理特徵;2)通過外在的用戶的反饋學習和維護用戶特徵;3)開發移動設備同步大規模的可靠的系統。數據更新是建立在這些工作的基礎上,但針對更加意圖明顯的用戶特徵(包括用戶偏好、上下文信息等)還要開發相應的語言和處理策略。此外,我們還需要開發可爲全球衆多人口提供數據更新服務的可升級的廣域系統體系結構。
 
適應的數據流操作
普適計算環境的另一個關鍵的方面是數據可用性的不確定和動態數據流的管理操作存在的挑戰。例如在移動的應用中,數據根據用戶的需要在不同的系統之間移動。當數據在端點生成以後,數據會以不確定的方式流向系統,過程中可能被代理商存儲、轉發。在有的應用中信息流也會出現,像數據分發系統中新建立數據和修改過的數據發送到用戶和緩存中去。
 
傳統的數據庫查詢系統在這種環境中由於以下幾個原因而停頓:首先,它們是基於靜態的查詢優化策略。數據庫的查詢方案是通過簡單的成本模型和對數據的統計來建立的。在動態的數據流環境中,這種方案是不能很好的執行的。因爲數據到達的速率、順序和數據流的行爲是難以預測的,從而對數據就沒有可靠的統計。
 
第二,現在的方案不足以處理查詢操作中的失敗。在現在的數據庫系統中,數據源的失敗沒有被檢測到,則只是簡單的凍結查詢操作,以等待數據的到來。如果檢測到了數據源的失敗,則只是放棄或者重新開始查詢。在數據源和流動作不可預測的普適計算環境中這些方法是不恰當的,因爲查詢操作可能要運行很長時間。
 
第三,現在的查詢方案是優化成分批的操作,整個查詢的結果作爲最後的目標來傳輸。在普適計算環境中,用戶要與系統進行交互,這種策略是不可取的。一旦可以了,處理的數據應當傳遞給用戶。而且,由於是交互的,用戶可能要根據前面返回的信息或其它因素來修改查詢。系統應當能夠根據用戶的需求調整變化。
 
加州大學伯克利分校的Telegraph項目通過開發適應性數據流操作引擎來研究這些問題。Telegraph利用一種新穎的策略來執行查詢操作。這種策略是基於這樣的思想,數據流控制結構把數據逐項發送給查詢操作者。Telegraph並不依賴於傳統的查詢方案,但是允許在查詢中應用這些方案。對連續的動態的數據流的查詢,系統能夠適應於數據到達的速率、數據特徵、存儲通信資源的可用性等因素的變化。
 
除了新穎的控制結構,Telegraph還使用了非阻塞的均衡的查詢處理操作,如Xjoins和Ripple,這些能夠處理它們輸入數據的變化和不可預測的數據到達。Telegraph系統還存在的問題由基於羣的開發、處理引擎的廣範圍的實現、容錯機制的設計、對傳感器的連續的查詢、基於特徵的信息分發和用戶接口問題。
 
結論
普適計算是未來一個引人矚目的現象,它在以越來越快的速度在一步一步地實現。更小的、處理能力更強的設備通過有線的或無線的網絡相連接組成了全新的應用,改變了現有的計算形式。除了新的設備和通信的機制,實現普適計算的關鍵技術是數據管理。數據是普適計算應用的核心,這些應用和環境又對數據管理技術提出了新的挑戰。
 
在本文中,我嘗試着從數據管理的前景來概述普適計算的關鍵的因素。這些方面歸納成三個方面:1)對移動性的支持,2)上下文感知,3)對協作的支持。我們檢查每個因素來找出這些因素對數據管理提出的要求。適應性是這些因素提出的根本的要求。傳統的數據管理技術在這種計算環境中被重新考慮。
 
我描述了兩個正在進行的項目來檢查數據管理中的幾個關鍵的技術:DataRecharging項目的目的是基於複雜的用戶的特徵提供與移動用戶的高度相關的數據的同步和分發。Telegraph項目是開發動態數據流的處理引擎來高效地處理從網絡資源到傳感器的數據流。
 
當然,數據管理領域中還有很多本文中沒有涉及到的問題。首先,多個應用和數據類型之間的協同,這取決於數據交換的標準、資源的發現、對象之間的通信。這個領域有了很大的進展,這些研究只是標準化過程中的一小部分。其次,另一個重要的領域是開發全球範圍的、安全的、關於檔案的信息存儲應用。這種應用的例子是加州大學伯克利分校正在開發的OceanStore系統。
 
總的來說,在可以預見的未來,普適計算給數據管理帶來了很多的機會和挑戰。我們應當認識到,雖然現在很多關注在於通信的協議研究,但是在普適計算的開發中數據管理扮演着核心的角色。這個領域的進展最終取決於我們解決複雜的數據管理問題的能力。(李彬編譯)

0

閱讀(73) 評論 (0) 收藏(0) 禁止轉載 打印舉報
已投稿到:
加載中,請稍候......
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章