論文學習:Feature Learning for Activity Recognition in Ubiquitous Computing.

論文原文:點擊此處
爲了方便大家學習,我從sci-hub找到了論文的pdf版本:點擊此處

Abstract

Feature extraction for activity recognition in context-aware ubiquitous computing applications is usually a heuristic process, informed by underlying domain knowledge. Relying on such explicit knowledge is problematic when aiming to generalize across different application domains. We investigate the potential of recent machine learning methods for discovering universal features for context-aware applications of activity recognition. We also describe an alternative data representation based on the empirical cumulative distribution function of the raw data, which effectively abstracts from absolute values. Experiments on accelerometer data from four publicly available activity recognition datasets demonstrate the significant potential of our approach to address both contemporary activity recognition tasks and next generation problems such as skill assessment and the detection of novel activities.

在上下文感知的普適計算應用中,活動識別的特徵提取通常是一個啓發式過程,由底層領域知識提供信息。當目標是在不同的應用程序域中進行泛化時,依賴這種明確的知識是有問題的。我們研究了最新的機器學習方法在發現通用特徵方面的潛力,以用於活動識別的上下文感知應用。我們還描述了一種基於原始數據的經驗累積分佈函數的替代數據表示,它有效地從絕對值中提取。對四個公開的活動識別數據集的加速計數據進行的實驗表明,我們的方法在解決當代活動識別任務和下一代問題(如技能評估和新活動檢測)方面具有巨大的潛力。

1 Introduction

**活動識別(AR)**是泛在計算(ubicomp)社區的一個核心關注點[Atallah和Yang,2009年],在領域的上下文感知應用和交互願景中發揮着核心作用。一般來說,傳感器,要麼戴在身體上,要麼嵌入到物體和環境中,用來捕捉運動或用戶行爲的各個方面。理想情況下,通過應用信號處理和模式分類技術,可以自動分析傳感器數據,從而對用戶所從事的活動進行實時分類。

活動識別是一個經典的(多變量)時間序列或序列分析問題,其任務是檢測和分類傳感器數據流中覆蓋目標應用程序感興趣活動的相鄰部分。AR的主要方法是基於滑動窗口過程,其中固定長度的分析窗口沿信號序列移動以進行幀提取。連續幀通常在某種程度上重疊,但單獨處理。然後,預處理將原始信號數據轉換爲特徵向量,這些特徵向量由最終提供活動假設的統計分類器進行處理。

對於任何模式識別任務,成功的AR關鍵是:(i)適當設計傳感器數據的特徵表示(ii)設計適當的分類器。ubicomp文獻描述了各種創造性應用的分類方法。相比之下,很少有系統的研究涉及到特徵設計問題,幾乎所有以前的工作都使用啓發式選擇的一般度量。這些特徵要麼在時域中計算,要麼根據傳感器數據的符號表示計算,要麼基於光譜。缺乏對特徵的系統研究被認爲是當前AR系統的主要缺點之一[Lukowicz等人,2010年]。例如,下一代應用程序(如行爲分析或技能評估)是否可以僅通過使用啓發式選擇的功能來實現,這是值得懷疑的。這些問題需要對基礎數據進行定量分析,而這些數據超出了當前程序在有限的活動範圍內進行區分和拒絕未知樣本的能力。

特徵設計最直接的方法是研究要分析的數據的性質,並開發一個顯式捕獲其核心特徵的表示。對於ubicomp-AR問題,不存在提供通用特徵表示的專家驅動設計的全能模型。然而,一般機器學習領域的最新發展有潛力通過自動發現此類ubicomp傳感器數據的通用特徵表示來克服這一缺點。

提出了一種通用的特徵提取方法,並研究了特徵學習在ubicomp活動識別任務中的適用性。我們使用一個學習框架,該框架自動發現不依賴於特定於應用程序的專家知識的合適特徵表示。我們使用無監督特徵學習技術,即**(變異)主成分分析深度學習**,並展示自動提取的特徵如何在一系列AR應用中優於標準特徵。這種自動特徵提取方法不需要人工優化,對未來的開發應用具有重要意義。深度學習方法允許對底層數據進行深入分析,因爲新的表示隱含地突出了所分析數據中信息量最大的部分。這可能對新的活動分析類(如技能評估)很重要。

2 State-of-the-Art

AR的預處理技術的最新研究[Figo等人,2010]根據預處理的域來區分計算方案的主要類:(i)時域;和**(ii)頻域**。最廣泛使用的特徵提取方案直接根據原始傳感器數據計算統計指標,獨立於通過滑動窗口過程提取的每一幀。常用的度量包括平均值標準差能量相關係數。頻域特徵提取通常基於分析框架的傅立葉係數。Huynh和Schiele對特徵表示能力進行了實驗性評估,即統計度量和傅立葉係數[Huynh和Schiele,2005]。他們得出結論,基於傅里葉係數的表示比統計度量更合適

雖然大多數已發表的著作使用標準特徵,但也提出了少量替代方法。最近,時滯嵌入被用於活動和步態識別[Frank等人,2010]。時滯嵌入是一種從物理學中借用的技術,它通過相空間分析來描述複雜系統的狀態。這種新的傳感器數據表示方法在分析重複(週期或準週期)活動中被證明是非常有用的。然而,基於時滯嵌入表示的分類器不太適合於非週期活動。另一種新興的方法是使用離散域特徵並計算傳感器數據字符串表示上的距離度量,這種方法與活動發現應用程序(例如[Minnen等人,2006])具有特殊的相關性。然而,所需的傳感器數據的量化去除了對於深入分析某些感興趣的活動非常重要的詳細信息。

3 Feature Learning for Activity Recognition

對於靜態數據(如計算機視覺中的目標識別),特徵學習是一種研究得很好的方法。目標是自動發現要分析的數據的有意義的表示。與啓發式特徵設計相反,在啓發式特徵設計中,利用特定領域的專家知識來手動指定特徵,特徵學習尋求優化目標函數,以捕獲特徵的適當性。標準方法包括能量最小化[LeCun等人,2006年]、流形學習[Hou等人,2004年]和使用自動編碼器的深度學習[Hinton,2007年]。

我們開發了一個基於特徵學習的序列數據特徵提取框架,並將其集成到一個通用的活動識別工作流程中(圖1)。滑動窗口程序從連續傳感器數據流中提取重疊的固定長度幀,在我們的實驗中,連續傳感器數據流是三軸加速度計的x、y、z數據值(圖1的左上部分)。從原始數據中提取的幀用於估計實際特徵學習過程的參數(參見圖1中的“fex”塊)。然後使用該特徵提取器將原始傳感器數據轉換爲應用程序要分析的數據。
在這裏插入圖片描述
我們的特徵學習(圖1中的“fex”)設計標準如下:

  1. 能夠提取一般適用的表示——不限於特定的AR任務。
  2. 不能依賴於訓練數據的地面真實性註釋的可用性。
  3. 受益於更大的數據集,但不依賴於它們。
  4. 提供內部信息(用於子框架分析)。
  5. 必須在計算上可行並且適用於實時應用環境。

考慮到這些設計要求,我們重點研究了兩種學習技術:PCA基於自動編碼器的深度學習

3.1 PCA based Feature Learning

PCA是一種用於數據去相關和降維的成熟技術。主成分分析(PCA)是特徵學習的一種基本形式,因爲它自動發現原始數據的緊湊和有意義的表示,而不依賴於領域特定(或專家)知識。樣本集協方差的特徵向量對應於其最大特徵值,用於跨越一個低維子空間,該子空間集中了原始數據的方差。原始數據在方差最大化子空間上的投影作爲特徵表示,可用於可視化或輸入後續分類器。樣本協方差特徵值譜的自動分析揭示了特徵空間中合適的目標維數。

基於ECDF的傳感器數據表示 衆所周知,如果輸入數據沒有正確規範化,PCA的性能就很差。不幸的是,當組件涉及到一個現象的完全不同的方面時,盲區規範化通常會引入更多的問題;在AR環境下,當使用較大的幀尺寸時,這就成了問題,爲了解決這個問題,我們開發了一種基於樣本數據的經驗累積分佈函數(ECDF)的替代原始數據表示方法。其思想是導出輸入數據的表示形式,該表示形式獨立於絕對範圍,但保留了結構信息。這種表示受到時間序列分析的其他應用領域中使用的方法的啓發,例如生物信息學[Chou,1995]。

在這裏插入圖片描述

3.2 Deep Learning for Feature Extraction

事實證明,自動編碼器網絡是通用半監督特徵發現的強大工具[Hinton,2007]。這些目標是學習輸入數據的低維表示,當用於重建原始數據時,產生的誤差最小。作爲連續傳感器流基於PCA特徵提取的一種替代方法,我們採用深度學習方法對序列數據進行基於自編碼的特徵學習。通過一個由一個輸入層、一個輸出層和奇數個隱層組成的前饋神經網絡來發現所需的表示。每一層都與相鄰層完全相連,並使用非線性激活函數。訓練過程中的目標函數是在輸出層重構輸入數據。自動編碼器通過網絡的每一層發送輸入數據的描述。由於網絡的最內層具有較低的維數,因此只有對輸入進行有意義的編碼,才能通過此瓶頸實現描述的傳輸。因此,這種非線性低維編碼是一種自動學習的特徵表示

對於穩健模型訓練,我們遵循[Hinton等人,2006]中的建議,即通過將編碼器中的每一對後續層視爲受限玻爾茲曼機(RBM),我們以自下而上的方式貪婪地學習自動編碼器網絡的層。RBM是一個完全連接的、兩部分的、兩層的圖形模型,它能夠生成模型數據。它訓練一組隨機二值隱藏單元,有效地充當低層特徵檢測器。通過將一個RBM的特徵檢測器的激活概率作爲下一個RBM的輸入數據,對每對後續層訓練一個RBM。一旦RBMs的堆棧經過訓練,生成模型就被展開,以獲得最終完全初始化的用於特徵學習的自動編碼器網絡。

RBMs中的實值輸入單元存在不同的建模方法。我們採用高斯可見單元作爲第一級RBM,它激活二元隨機特徵檢測器(Gaussian-binary)。隨後的層可以依賴於公共二進制RBM。最後一層是binary-linear RBM,它有效地執行線性投影。

在訓練期間,樣本數據按批處理,其中每個批理想地包含來自訓練集中所有類的樣本。請注意,類信息的可用性不是必需的。RBMs也可以以完全無監督的方式進行訓練。然而,平衡與classes分佈相關的批次,即執行半監督training,提高了模型質量,因爲它消除了人爲偏見的可能性。

4 Experimental Evaluation

爲了評估AR特徵學習的有效性,我們使用已發表的數據集進行了大量實驗,將所提出的方法與啓發式選擇的特徵狀態進行了比較。傳感器數據通過(先前優化的)滑動窗口過程進行分析,提取n=64個相鄰樣本的幀,其重疊率爲p=50%然後在逐幀的基礎上進行特徵提取。我們評估的重點是特定特徵表示的能力。因此,我們不關注分類器優化,而是關注特徵本身。根據ubicomp AR的最新技術,我們選擇了一種標準的基於實例的分類方法最近鄰(NN),並將其“原樣”應用於所有任務。

在給定的ground truth annotations中,我們將分類精度報告爲神經網絡分類器提供的正確預測的百分比。實驗以N=10倍交叉驗證進行(除非另有說明)。通過從原始數據集中隨機選擇樣本來創建摺疊,從而尊重所有類的摺疊均衡分佈(即要識別的活動)。

4.1 Datasets

我們選擇了四個標準數據集進行評估,每個數據集在文獻中都有描述,並且是公開的。所有數據集都與人類在不同環境下的活動有關,並已使用三軸加速度計進行了記錄。傳感器要麼被受試者穿戴,要麼安裝在受試者操控的物體中。

Ambient Kitchen 1.0 (AK) Pham等人。[Pham和Olivier,2009]建立了一個數據集,其中20名參與者使用裝有傳感器的廚房用具準備三明治或沙拉。改進後的Wii控制器集成在刀柄、勺子和勺子上,作爲連續記錄三軸加速度數據的傳感平臺。總的來說,數據集包含了近4小時的傳感器數據,其中約50%涵蓋了十種典型的食品製備活動。給定40Hz的採樣頻率滑動窗口程序產生了近55000幀

Darmstadt Daily Routines (DA) 在[Huynh等人,2008]中,日常生活活動(ADL)的分析是通過穿戴的傳感器來解決的,這些傳感器用於在類似實驗室的活體實驗中監測個體的日常活動。兩個三軸加速度計(手腕戴在口袋裏)記錄100Hz的運動。預處理和子採樣產生2.5Hz的總採樣頻率。使用我們的滑動窗口程序,總共提取了24000多幀用於腕帶和袖珍傳感器。Ground truth annotation使用了35種不同抽象層次的活動。交叉驗證實驗是基於類平衡,隨機選擇框架創建摺疊。我們只報告了pocket-sensor實驗的結果,正如在原始出版物中所報告的,其結果明顯優於基於腕部穿戴傳感器數據的結果。

Skoda Mini Checkpoint (Skoda) [Zappi等人,2008]描述了在汽車生產環境中識別裝配線工人活動的問題。在這項研究中,一名工人戴着多個加速計,同時進行手動質量檢查,以確保新制造的汽車零件裝配正確(10個有趣的操縱手勢)。我們將實驗限制在一個單一的傳感器上,這足以識別所有10種活動(即右臂)。總的來說,數據集包含一個受試者3小時的記錄(以96Hz採樣,結果爲22000幀)。由於樣本分佈不均,我們只能進行4倍的交叉評估。

Opportunity – Preview (Opp) 最終數據集涉及家庭環境(廚房)和使用多個磨損和嵌入式傳感器的ADL分析[Roggen等人,2010年]。雖然記錄了多個受試者在不同日期的活動,但最近公佈了一份關於單個受試者註釋數據的官方摘錄。我們的分析是基於被試右臂上的加速計記錄的傳感器數據。我們考慮了10個基本的興趣活動加上一個未知的活動類別。加速度數據以64Hz採樣,產生約4200幀。

4.2 Features Analyzed: Overview

爲了分析用於活動識別的已學習特徵的性能,我們進行了分類實驗,比較了傳感器數據流的最新表示能力和已討論的已學習特徵。爲了允許對結果特徵表示進行比較,我們確保每個特徵表示的目標維度在大致相同的範圍內。由於我們使用了基於實例的分類器,因此不需要使用相同的維數進行客觀比較。這與生成模型(如混合密度)形成對比,生成模型的基礎數據維度上的微小差異可能對估計過程產生重大影響,從而對模型的能力產生重大影響。

Statistical Metrics 活動識別中最常用的特徵提取方法可能是使用一組統計度量來表示相鄰多維傳感器數據的幀。給出了由滑動窗口程序提供的192維分析框架(64×3),我們首先計算了pitchroll values。隨後,對於每個源信道(即x、y、z、pitch和roll),我們計算平均值、標準差、能量和熵。加上三個相關係數(估計爲x、y、z軸的所有組合),這產生了由分析幀覆蓋的原始信號數據的23-D表示。(5×4+3)

FFT coefficients 從特定譜的變化可以看出某些活動的特徵差異,因此我們可以應用頻率變換提取此類活動識別問題的特徵表示。我們對分析幀的原始信號數據進行了信道傅里葉分析。給定得到的譜,我們選擇每個通道(x,y,z)的第一個f係數,並將其連接到單個特徵向量中。在我們的實驗中,我們評估了f的不同選擇。
對於我們的維度範圍(23-39),分類準確度的差異可以忽略不計——對於簡潔性,我們只報告**f=10(目標維度30)**的結果。

PCA 我們利用基於PCA的特徵進行了實驗,其中投影子空間由對應於c=18、23、30和39個最大特徵向量的特徵向量跨越。這些c的選擇通過數據特徵值譜的顯著下降來證明的,並且與所研究的其他方法所選擇的目標維數相對應。對於c的四種選擇,分類準確度沒有顯著變化,因此我們給出了c=30的結果。對原始傳感器數據和基於ECDF的表示進行了實驗。注意,基於核主成分分析的方法被排除在我們的無監督特徵提取方法之外,因爲它們在訓練過程中的轉換時間過高

Deep Belief Networks 自動編碼器網絡包含許多自由參數,包括網絡拓撲結構,即內部層的數量及其維數。爲了顯示該方法的一般適用性,通過交叉驗證在AK數據集上調整學習參數和網絡佈局(一個用於原始數據,一個用於ECDF表示),然後按原樣用於其餘任務。優化後的網絡佈局由4層模型組成,每個隱藏層有1024個單元頂部有30個單元192-1024-1024-30)。在所有的實驗中,第一層訓練了100個epochs,而隨後的一層訓練了50個epochs。對於包含大量類(35)的DA數據集,每個批中的樣本分佈與訓練集的分佈相對應,而對於其他集,每個批在所有類中平均分配,每個類包含10個樣本

4.3 Results

Classification accuracy 第一組實驗用於評估分類性能,因爲在使用特定特徵表示時可以實現分類性能。
圖2顯示了四個分析數據集的結果。將我們的結果與這些數據集已經發表的結果進行對比,我們發現我們的結果具有廣泛的可比性(準確度在74%到90%之間)。有趣的是,傳統的統計特徵在斯柯達和Opportunity數據集上表現得相當糟糕。
在這裏插入圖片描述
兩種學習特徵的變體都能顯著提高所有分析數據集的分類精度(95%置信度)。這些對統計特徵和基於FFT的表示的改進是有意義的,特別是當我們認爲特徵表示是在不依賴領域特定專家知識的情況下自動學習的時候。結果還表明,我們的特徵學習方法大大受益於基於ECDF的輸入數據表示,這在大多數情況下都能顯著提高分類精度

總之,這兩種學習技術都可以用於不同的AR任務,以發現比經典方法更好的緊湊和有意義的特徵表示。特徵是以無監督的方式發現的。爲了優化深度學習方法,利用了關於類的潛在分佈的先驗知識,得到了一種半監督方法。

Influence of Sample Set Size 第二組實驗解決了稀疏數據問題特徵學習依賴於足夠數量的樣本數據。PCA過程投影子空間的構造依賴於樣本集協方差的統計穩健分析。對於小數據集,協方差矩陣的經驗估計會導致奇異性,從而破壞子空間的創建。第二種學習方法中自動編碼器的參數估計也依賴於一個有代表性的樣本集。不具有代表性的樣本集會使參數估計過程產生偏差,使得得到的特徵不足以靈活地捕獲未知數據

我們評估了當用於估計特徵提取過程的訓練集被人爲限制時所能達到的分類精度。考慮到最初的N次交叉驗證過程,我們逐漸從訓練集中移除樣本,像以前一樣執行特徵學習,並運行分類實驗。圖3示出了分類結果對可用於訓練特徵提取器的樣本數據量的依賴性。爲便於比較,x軸表示原始數據集的分數y軸表示分類精度的相對變化。我們對所有四個數據集進行了評估,但爲了清晰起見,我們將我們的展示侷限於Skoda Mini Checkpoint (Skoda)數據集所取得的結果,Skoda數據集代表了其他數據集(取得了類似的結果)。從結果(圖3)可以清楚地看出,樣本集的大小沒有實質性地影響結果分類器的能力。然而,與RBMs相比,PCA似乎更依賴於可用訓練數據的數量。根據第二組實驗的結果,我們可以得出結論,特徵學習滿足實際AR應用的第三個設計準則。
在這裏插入圖片描述
Further Analysis學習到的表示可用於深入分析底層傳感器數據(第3節中描述的第四個標準)。例如,對重建誤差的幀分析提供了對所執行活動質量的洞察。除了簡單的聚類、活動質量評估的默認選擇之外,還可以開發更合適的度量,這可能是定量活動分析的關鍵。

一旦特徵學習方案的參數被估計(離線),學習特徵的提取對應於簡單的矩陣乘法。因此,特徵學習的結果可以應用於在線交互應用(第五設計準則)。對於某些應用,分類器甚至可以在傳感器本身上實現,這將大大減少數據傳輸,並在實際應用中成爲一個更具響應性的系統。

5 Conclusion

普適計算活動識別的一個主要缺點缺乏系統的特徵提取方法。通過明確地解決這個缺點,我們已經證明了特徵學習對於AR的適用性,爲下一代AR應用提供了基礎。我們確定了這類活動識別系統的實用設計準則,並據此開發了一個活動識別框架,該框架採用PCA和深度信念網絡進行特徵學習基於信號的逐幀經驗累積分佈估計,提出了傳感器數據的另一種表示方法。通過對4個公開的AR數據集的識別實驗,評價了特徵學習方法的能力。對於我們考慮的所有分析AR任務,自動估計的特徵都優於經典的啓發式特徵。我們還證明了特徵學習可以從更大的數據集中獲益,但並不依賴於它們。這種學習方法在計算上是可行的,可以直接應用於交互式應用。

我們的特徵提取框架在ubicomp AR應用中具有普遍的適用性,特別是在對目標域知之甚少的情況下。該框架可以“原樣”用於活動識別任務。我們的實驗評估提供了證據,證明特徵學習提供了合理的表示,可以立即用於進一步的分析任務。深度學習過程提供子框架洞察,這對於徹底分析捕獲的數據非常重要。

根據我們的發現,還可以考慮一些擴展。儘管它在一定程度上避開了我們所支持的學習方法,但我們可以通過在特徵表示中顯式地結合導數來克服當前幀分析過程(通常)獨立處理每個樣本的侷限性。此外,在建模過程中可以放鬆線性假設。在子空間投影過程中,利用核主成分分析方法可以捕捉時間數據中的非線性相關性

下一代活動識別的方法學關鍵在於對所分析的傳感器數據進行系統分析。除了區分固定數量的某些感興趣的活動之外,行爲監控或技能評估等領域還需要對底層的順序數據流進行定量分類。我們的研究爲此類傳感器數據分析的系統研究提供了一個起點。鑑於實驗評估的良好結果,特徵學習可以被認爲是具有巨大潛力的活動識別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章