論文學習:Deep Convolutional Neural Networks On Multichannel Time Series For Human Activity Recognition

論文來源:點擊此處
論文原文:點擊此處
論文日期:July 2015

Deep Convolutional Neural Networks On Multichannel Time Series For Human Activity Recognition

Abstract

This paper focuses on human activity recognition(HAR) problem, in which inputs are multichannel time series signals acquired from a set of bodyworn inertial sensors and outputs are predefined human activities. In this problem, extracting effective features for identifying activities is a critical but challenging task. Most existing work relies on heuristic hand-crafted feature design and shallow feature learning architectures, which cannot find those distinguishing features to accurately classify different activities. In this paper, we propose a systematic feature learning method for HAR problem. This method adopts a deep convolutional neural networks (CNN) to automate feature learning from the raw inputs in a systematic way. Through the deep architecture, the learned features are deemed as the higher level abstract representation of low level raw time series signals. By leveraging the labelled information via supervised learning, the learned features are endowed with more discriminative power. Unified in one model, feature learning and classification are mutually enhanced. All these unique advantages of the CNN make it outperform other HAR algorithms, as verified in the experiments on the Opportunity Activity Recognition Challenge and other benchmark datasets.

本文研究的是人體活動識別(HAR)問題,其輸入是從一組人體慣性傳感器獲取的多通道時間序列信號輸出是預先定義的人體活動。在這個問題中,提取有效的特徵來識別活動是一個關鍵但具有挑戰性的任務。現有的研究大多依賴於啓發式的手工特徵設計和膚淺的特徵學習體系結構,無法找到能夠準確分類不同活動的特徵。本文針對HAR問題提出了一種系統的特徵學習方法。該方法採用深卷積神經網絡(CNN)對原始輸入的特徵進行自動學習。通過深入的體系結構,學習到的特徵被認爲是低級原始時間序列信號的高級抽象表示。通過監督學習利用標記信息,學習特徵被賦予了更大的辨別能力。特徵學習和分類統一在一個模型中,相互促進。CNN的這些獨特優勢使其優於其他HAR算法,這在機會活動識別挑戰和其他基準數據集的實驗中得到了驗證。

1 Introduction

自動識別人類的身體活動(亦稱人類活動識別(human activity recognition,簡稱HAR)已成爲普適計算、人機交互和人類行爲分析的關鍵問題[Bulling等人,2014;Pl–atz等人,2012;Reddy等人,2010]。在這個問題中,人類的活動是基於從多個磨損的(或嵌入的)慣性傳感器獲取的(實時的)信號來識別的。對於HAR,體上傳感器獲取的信號可以說比攝像機獲取的信號有利原因如下:i)體上傳感器減輕了攝像機經常受到的環境約束和靜止設置的限制[Bulling等人,2014;Ji等人,2010;Le等人,2011];ii)多個體上傳感器可以更準確、更有效地將信號採集部署到人體上;iii)體上傳感器具有信息保密的優點,因爲它們採集的信號是特定目標的,而攝像機採集的信號也可能包含場景中其他非目標對象的信息。在過去的幾年裏,基於穿戴的HAR在遊戲機、個人健身訓練、藥物攝入和健康監測等方面有着廣闊的應用前景。在[Bulling等人,2014]上可以找到關於這一主題的出色調查。

HAR系統成功的關鍵因素是找到一個有效的時間序列表示方法。儘管爲調查這一問題作出了大量的研究工作,但收益卻在減少。傳統上,HAR問題常被視爲時間序列分析的具體應用之一。HAR中廣泛使用的特徵包括基變換編碼(例如,使用小波變換和傅里葉變換的信號)[Huynh和Schiele,2005年]、原始信號的統計(例如,時間序列的均值和方差)[Bulling等人,2014年]和符號表示[Lin等人,2003年]。儘管這些特徵在許多時間序列問題中得到了廣泛的應用,但它們是啓發式的,不依賴於任務。值得注意的是,HAR任務有其自身的挑戰,例如類內可變性類間相似性零類優勢體育活動的複雜性和多樣性[Bulling等人,2014年]。所有這些挑戰使得開發一種系統的特徵表示方法來有效地描述與活動識別任務相關的信號的性質變得非常有必要。

最近,深度學習作爲一系列學習模型而出現,這些模型旨在對數據中的高級抽象進行建模[Bengio,2009;Deng,2014]。在深度學習中,爲了實現特徵設計的自動化,建立了一個多層的深度體系結構。具體來說,深層架構中的每一層都對前一層的輸出進行非線性轉換,以便通過深層學習模型,數據由一個從低級到高級的特徵層次表示。衆所周知的深度學習模型包括卷積神經網絡、深度信念網絡和自編碼。根據標籤信息的使用情況,深度學習模型可以在有監督或無監督的情況下學習。雖然深度學習模型在計算機視覺、自然語言處理、語音識別等領域取得了顯著的效果,但在HAR領域還沒有得到充分的開發。

在本文中,我們採用一種特殊的深度學習模型——卷積神經網絡(CNN)來解決HAR問題CNN的關鍵特性是交替地執行不同的處理單元(例如卷積、池、sigmoid/雙曲正切擠壓、整流和歸一化)。這樣的多種處理單元可以有效地表示信號的局部顯著性。然後,深度結構允許這些處理單元的多層堆疊,使得這種深度學習模型能夠表徵不同尺度下信號的顯著性。因此,CNN提取的特徵是任務相關的,並且不是手工製作的。此外,由於CNN可以在輸出標籤的監督下學習,這些特性也具有更大的辨別力。CNN的所有這些優勢將在下面的章節中進一步闡述。

如以下各節所述,在HAR上的應用中,CNN中的卷積和池化濾波器沿時間維度應用於每個傳感器,並且需要將不同傳感器的所有這些特徵映射統一爲神經網絡分類器的公共輸入。因此,本文提出了一種新的CNN體系結構。在實驗中,我們在基準數據集上對所提方法與現有方法的比較進行了廣泛的研究。結果表明,該方法是一種很有競爭力的HAR問題求解算法。我們還研究了CNN的效率,並得出結論,CNN對於在線人類活動識別是足夠快的

2 Motivations and RelatedWork

開發一種系統化、任務相關的HAR特徵提取方法是十分必要的。雖然從可穿戴傳感器採集到的信號是時間序列,但它們不同於語音信號和金融信號等其他時間序列。具體地說,在HAR中,連續信號流中只有少數部分與感興趣的概念(即人類活動)相關,而占主導地位的不相關部分主要對應於空活動。此外,考慮到人類活動在現實中是如何進行的,我們瞭解到每一個活動都是幾個基本的連續運動的組合。通常情況下,一個人的活動可以在練習中持續幾秒鐘,在一秒鐘內,一些基本的動作就可以參與其中。從傳感器信號的角度來看,基本連續運動更可能對應於平滑信號,不同基本連續運動之間的轉換可能導致信號值的顯著變化。HAR信號的這些特性要求特徵提取方法能夠有效地捕捉基本連續運動的性質以及基本運動組合的顯著性

因此,我們打算構建一系列用於特徵提取的信號處理單元的深層架構這種深結構由多個淺結構組成,每個淺結構由一組線性/非線性局部平穩信號處理單元組成當所有淺層結構級聯時,捕獲不同尺度信號的顯著性這種深層次的體系結構不僅可以將一個大而複雜的問題分解成一系列小問題,更重要的是可以獲得不同尺度下信號的特定“方差”。這裏,信號的“方差”反映了信號的顯著模式。如[Bengio,2009]所述,對於學習算法的泛化而言,重要的是我們希望在學習後獲得的信號的這種“方差”的數量。

相比之下,傳統的特徵提取方法,如基變換編碼(如小波變換和傅里葉變換的信號)[Huynh和Schiele,2005年]、原始信號的統計(如時間序列的均值和協方差)[Bulling等人,2014年]和符號表示[Lin等人。,2003年]被認爲在一個深度學習模型的一個層中,通過一個或幾個神經元轉換數據起到了類似的作用。另一種類型的深度學習模型,稱爲深度信念網絡(DBN)[Hinton and Osindero,2006;Le Roux and Bengio,2008;Tieleman,2008],也由[Pl–atz et al.,2012]對HAR進行了研究。然而,這種特徵學習方法沒有使用有效的信號處理單元(如卷積、池和整流器),也忽略了特徵提取中可用的標籤信息。CNN的主要用途主要是二維圖像[Krizhevsky等人,2012年;Zeiler和Fergus,2014年]、三維視頻[Ji等人,2010年]和語音識別[Deng等人,2013年]。然而,在本文中,我們試圖構建一個新的CNN架構來應對HAR存在的獨特挑戰。最相關的工作是[Zeng等人,2014],其中使用淺層CNN,而HAR問題僅限於加速度計數據。

3 Convolutional Neural Networks in HAR

卷積神經網絡在識別HAR信號的各種顯著模式方面具有很大的潛力。具體地說,下層的處理單元獲得信號的局部顯著性(以表徵人類活動中每個基本運動的性質)上層的處理單元在高層表示中獲得信號的顯著模式(以表徵幾個基本運動組合的顯著性)。注意,每一層可以具有如下所述的多個卷積或池運算符(由不同參數指定),因此在CNN中聯合考慮從不同方面學習的多個顯著模式。當這些具有相同參數的算子應用於不同時間段的本地信號(或其映射)時,得到了一種形式的平移不變性[Fukushima,1980;Bengio,2009;Deng,2014]。因此,重要的只是信號的顯著模式,而不是它們的位置或尺度。然而,在HAR中,我們面對的是多通道的時間序列信號,傳統的CNN不能直接使用該問題面臨的挑戰包括:(i)CNN中的處理單元需要沿時間維度應用(ii)在多個傳感器之間共享或統一CNN中的單元。在接下來的內容中,我們將沿着時間維度定義卷積和池運算符,然後介紹在HAR中使用的CNN的整個架構。

在這裏插入圖片描述
圖1:用於基於多傳感器的人類活動識別問題的CNN體系結構的圖解。我們使用第4節中介紹的Opportunity Activity Recognition數據集作爲示例。層標記括號中的符號**“c”、“s”、“u”、“o”分別指卷積、子採樣、統一和輸出操作**。“@”之前和之後的數字是指該圖層中feature map的數量feature map的尺寸。請注意,由於空間的限制,沒有顯示池、ReLU和規範化層。

我們先從CNN上使用的符號開始。採用滑動窗口策略將時間序列信號分割爲一組短信號。具體來說,CNN使用的一個實例是包含r個原始樣本(每個樣本具有D個屬性)的二維矩陣。這裏,選擇r作爲採樣率(例如,實驗中使用的30和32),滑動窗口的步長選擇爲3。可以選擇較小的步長來增加實例的數量,同時可能導致較高的計算成本。對於訓練數據,矩陣實例的真實標籤由r個原始記錄的最常出現的標籤決定。對於CNN第i層的第j個特徵圖,它也是一個矩陣,爲了方便起見,將傳感器d的第x行的值表示爲Vij x,d 。(ij爲下標,x,d爲上標)

3.1 Temporal Convolution and Pooling

在卷積層中,前一層的特徵映射被幾個卷積核卷積(在訓練過程中學習)。卷積算子的輸出加上偏差(待學習)通過激活函數形成下一層的特徵映射。形式上,值vx;d ij由下式計算:
在這裏插入圖片描述
式中,tanh()是雙曲正切函數,bij是該特徵映射的偏差,m是連接到當前特徵映射的第(i≤1)層中特徵映射集的索引,wij p,m是卷積核位置p處的值,Pi是卷積核的長度。

池化層中,降低了特徵映射的分辨率,提高了特徵對輸入失真的不變性。具體地說,前一層的特徵映射通過max pooling函數在局部時間鄰域上進行合併,其中Qi是彙集區域的長度。
在這裏插入圖片描述

3.2 Architecture

基於上面介紹的運算符,我們構建了一個CNN,如圖1所示。爲了方便起見,CNN的所有層都可以分爲五個部分,如下所述。

對於前兩個部分,每個部分由**(i)卷積層構成,該卷積層將輸入或前一層的輸出卷積成一組待學習的核;(ii)校正線性單元(ReLU)層**,該層通過函數ReLU(v)=max(v,0)映射前一層的輸出;(iii)找到最大值的最大池化層局部時間鄰域範圍內的特徵映射(通常涉及子採樣算子);(iv)規範化層,規範化前一層中不同特徵映射的值。在這裏插入圖片描述
對於第三部分,它僅由卷積層ReLU層規範化層構成,因爲在卷積層之後,特徵映射的時間維度變爲1(注意,由該層輸出的特徵映射的大小爲D × 1),因此這裏避免了池化層。

第四部分中,我們的目標是將第三部分輸出的特徵映射統一到所有D個傳感器中。我們開發了一個完全連接的層來統一這些特徵映射,而不是簡單地連接這些特徵映射,從而在這個層中實現參數連接。如圖2所示。數學上,該層第j個特徵圖的值由vij=在這裏插入圖片描述計算,然後是ReLU層規範化層

五部分全連接網絡層。該層與標準的多層感知器神經網絡相同,它將潛在特徵映射到輸出類中。
此層的輸出由softmax函數控制在這裏插入圖片描述,其中C是輸出類的數量。此softmax函數提供分類結果的後驗概率。然後,根據訓練實例的真實標記和softmax函數的概率輸出,構造熵代價函數。
在這裏插入圖片描述
爲了將CNN給出的矩陣級預測轉換爲最初期望的樣本級預測,使用以下兩個步驟。首先,矩陣級實例中的所有樣本都由該矩陣級實例的相同預測標籤標記。其次,對於位於重疊矩陣級實例中的樣本,使用投票方法來確定該樣本的最終預測標籤

由於傳感器信號的時間依賴性,實例的標籤通常具有平滑的趨勢,如第2節所述。最近,[Cao等人,2012]提出了一種簡單而有效的平滑方法來對預測標籤進行後處理,以提高預測性能。其思想是採用低通濾波器去除脈衝噪聲(潛在的錯誤預測)並保持邊緣,即活動轉移的位置。特別地,對於第i個實例,在以第i個實例爲中心的序列上應用具有預定義長度ui的平滑過濾器。此篩選器查找此序列中最頻繁的標籤,並將其分配給第i個實例。我們將在實驗中研究使用/不使用這種平滑方法的預測結果。

3.3 Analysis

注意,ReLU和normalization層在圖1中CNN的前四個層中是可選的。在我們的實驗中,我們發現合併這兩層可以得到更好的結果。此外,爲了避免維數災難,我們可以在CNN中使用dropout和正則化方法,儘管在我們的實驗中沒有使用它們,因爲它們產生的性能差異很小

Remark 1. 圖像/視頻案例中使用的傳統CNN[Krizhevsky等人,2012;Wan等人,2014;Ji等人,2010]沒有圖2所示的統一層因爲圖像/視頻信號被認爲來自單個傳感器信道。因此,所提出的CNN結構是傳統CNN的一個推廣,它考慮了多個數據通道

在CNN中,所有處理單元中的參數和連接權重通過全局目標函數(即熵代價函數)共同學習,該函數依賴於所有這些未知變量。這種全局目標函數可以通過所謂的反向傳播算法進行有效優化[LeCun等人,1998]。

全局目標函數與基於地面真值標籤計算的訓練誤差以及CNN最後一層softmax函數的輸出有關。此函數的變量控制信號的各種特徵映射。因此,通過優化模型,特徵學習和分類這兩項任務相互增強,CNN所學習的特徵具有更強的判別能力w.r.t.是最終的分類任務。

4 Experiments

4.1 Datasets

我們考慮兩個不同關注點的人類活動識別數據集。第一個數據集與全身運動相關,而第二個數據集則特別關注手的運動。

Opportunity Activity Recognition 機遇活動識別數據集^1 [Sagha,2011年;Roggen等人,2010年;Cao等人,2012年]是關於與早餐情景相關的人類活動的。此數據集包含從三個執行日常生活活動(ADL)的受試者上配置的傳感器收集的數據。此活動識別任務^2中有18個類。Null類爲非相關活動或非活動。使用的傳感器包括各種各樣的身體穿戴、基於對象和環境的傳感器——總共有來自10種模式的72個傳感器——在家庭環境中有15個無線和有線傳感器網絡。傳感器信號的採樣率爲每秒30次每個記錄由113個不包括時間信息的真實值感官讀數組成。利用這些傳感器,每個受試者執行一個訓練會話(drill),其中在一個感官數據序列中有20個預定義動作的重複,以及5個ADLs。繼[Cao等人,2012]之後,我們使用Drill和前兩組ADL作爲訓練數據,使用第三組ADL作爲測試數據

Hand Gesture 手勢數據集[Bulling等人,2014年]3是關於人類手部運動的不同類型。在這個數據集中,兩名受試者在日常生活中用八種手勢進行手勢動作,在打網球時用三種手勢。這個手勢識別問題總共有12個類 ^4。與第一個數據集類似,Null類引用沒有特定活動的時段。所用的穿戴傳感器包括一個三軸加速度計和一個二軸陀螺儀,採樣率爲每秒32個採樣。然後,每條記錄總共有15個真實值的傳感器讀數。每個受試者重複所有活動約26次。我們隨機選擇一個重複作爲測試數據,其餘重複作爲訓練數據。

1The link is http://www.opportunity-project.eu/challenge.
2The 18 classes are Null, open door 1, open
door 2, close door 1, close door 2, open
fridge, close fridge, open dishwasher, close
dishwasher, open drawer 1, close drawer 1,
open drawer 2, close drawer 2, open drawer
3, close drawer 3, clean table, drink cup and
toggle switch.
3The link is https://github.com/andyknownasabu/ActRecTut/.
4The 12 classes are Null, open a window, close a
window, water a plant, turn book page, drink
from a bottle, cut with a knife, chop with a
knife, stir in a bowl, forehand, backhand and
smash.
在這裏插入圖片描述

4.2 Experimental Settings

機會活動識別數據集中使用的CNN的體系結構如圖1所示。同樣的CNN結構也被用於手勢數據集,只是在特徵映射的數量和卷積核的大小上有所不同,因爲這些數據集的輸入和輸出的維度是不同的。在CNN的正規化算子中,所有實驗的參數選擇爲k=1;α=2×10^-4;β=0.75,G(·)的大小爲5。我們遵循[LeCun等人,1998]中的經驗法則來選擇其他參數,因爲如何在CNN中找到最佳參數仍然是一個懸而未決的問題。

將該方法與SVM、KNN、MV和DBN四種基線進行了比較。其中,前兩種方法和第三種方法分別在機會活動識別數據集和手勢數據集上展示了最新的研究成果。第四種方法是最近發展起來的HAR深度學習方法。

  • 支持向量機[Cao等人,2012]。採用徑向基函數**(RBF)核的支持向量機(SVM)**作爲分類器。在該基線中,原始時間序列樣本直接作爲支持向量機的輸入。採用交叉驗證方法對支持向量機參數進行優化。
  • KNN[Cao等人,2012年]。[Keogh和Kasetty,2002]對時間序列分類問題進行了全面的實證評估。有趣的是,歐氏距離的簡單技術KNN(具體地說,1NN,即基於前一個最近鄰的分類)被證明是最好的技術。因此,我們將K=1的KNN作爲分類器。與支持向量機基線一樣,原始時間序列樣本直接作爲KNN的輸入
  • Means and variance (MV) [Bulling等人,2014]與提出的CNN方法一樣,首先使用滑動窗口策略生成一組r ×D矩陣級實例。然後提取每個r×D矩陣中r樣本上信號的均值和方差,構成分類器輸入數據的特徵。使用的分類器是K=1的KNN
  • 深度信念網絡(DBN)[Pl¨atz et al.,2012]與CNN和MV方法相同,首先生成一組r×D矩陣層級實例。然後,使用每個r×D矩陣中r個樣本上的信號平均值作爲DBN5的輸入。該方法所使用的分類器是在K=1的KNN和多層感知器神經網絡之間選擇的,並給出了性能較好的分類器。

對於MV和DBN方法,矩陣級預測轉換爲基於第3.2節中介紹的CNN方法中使用的相同策略的樣本級預測。我們評估所有方法在有/無第3.2節中提到的平滑方法的兩種設置下的性能。如[Cao等人,2012]所建議,平滑方法中的參數ui建議選擇在[60,100]的範圍內。

4.3 Experimental Results

所提出的CNN方法和四種基線方法在機會活動識別數據集和手勢數據集上的結果分別顯示在表1和表2中。在[Cao等人,2012]之後,使用平均F-測度(AF)、標準化F-測度(NF)和準確度(AC)來評估所有實驗中不同方法的性能。每個評估指標的最佳性能都以粗體突出顯示
在這裏插入圖片描述
Figure 3: Confusion matrix yielded by the proposed CNN method (without temporal smoothing) on the Opportunity Activity Recognition dataset for Subject 1 (the larger the value the darker the background).

從結果可以看出,在有/無平滑策略的兩種情況下,所提出的CNN方法在所有三種評估指標方面均優於所有四個基線。值得注意的是,對於第一個數據集中的Subject 3和第二個數據集中的Subject 2,所提出的方法在具有/不具有平滑設置的兩種情況下的準確度方面都優於最佳基線5%左右。當使用平滑策略時,所有方法的性能都得到了提高,但所有方法的性能排名幾乎保持不變。類不平衡問題是所有方法面臨的主要挑戰。這可以從圖3所示的CNN方法生成的混淆矩陣中看出。由於占主導地位的空類,除了類close drawer 2中的信號樣本外,所有信號樣本都傾向於歸爲空類。類不平衡問題引起的相似現象在所有方法中都存在,但對於其他基線方法來說更爲嚴重

CNN的性能優於DBN,說明有監督的深度學習優於無監督的深度學習。這一現象在其他應用中,如圖像分類和語音識別中也有發現。請注意,SVM和KNN使用本文中的原始實例,而在[Pl–atz等人,2012]中,它們使用的矩陣級實例的數量小於原始實例的數量。這或許可以解釋爲什麼在我們的實驗中,DBN比支持向量機和KNN差一點,而在[Pl–atz等人,2012]所示的實驗中,DBN比支持向量機和KNN稍好一點。證明CNN比支持向量機、KNN和MV具有更好的性能,說明CNN比基於淺層學習結構和啓發式特徵設計的HAR問題更接近於在特徵表示中發現信號的本質

我們還進行了實驗,將原始數據的傅里葉變換幅度作爲所有方法的輸入。但是,無法提高性能。在[Cao等人,2012]中也觀察到類似的觀察結果。

所有的實驗都是在一臺PC上進行的,該PC有Intel i5-2500 的 3.30Ghz 處理器 和 8 GB RAM。由於篇幅的限制,我們將CNN的計時結果都針對受試者^1的機會活動識別數據集,因爲該數據集是所有實驗中最大的一個。該數據集的訓練樣本數爲136869,測試樣本數爲32466,輸入維數爲107。CNN的訓練時間約爲1小時,而測試時間爲8分鐘。平均而言,CNN可以在一秒鐘內預測56個原始實例的標籤。因此,CNN的效率對於在線HAR來說是足夠好的。注意,當CNN的並行計算[Jia等人,2014;Donahue等人,2014]被實現時,訓練和測試時間可以顯著減少。這一研究課題將在今後的工作中得到充分的探討。

5 Conclusions

本文針對人類活動識別任務提出了一種自動提取特徵的新方法。該方法爲CNN研究多通道時間序列數據提供了一種新的深層結構。這種深度結構主要採用卷積和池化運算來捕獲不同時間尺度下傳感器信號的顯著模式。所有識別出的顯著模式在多個通道中系統地統一起來,最後映射到不同的人類活動類別中。該方法的主要優點是:1)特徵提取是以任務相關和非手工方式進行的2)提取的特徵具有更高的分辨力w.r.t.人類活動的類別3)特徵提取和分類統一在一個模型中,因此它們的性能是相互增強的。在實驗中,我們證明所提出的CNN方法優於其他最新的方法,因此我們相信所提出的方法可以作爲HAR問題的特徵學習和分類的競爭工具。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章