神經網絡算法揭示人類聽覺行爲和大腦皮層處理層次

任務優化的神經網絡在預測大腦響應和揭示人類聽覺行爲、大腦皮層處理層次的應用

A Task-Optimized Neural Network Replicates Human Auditory Behavior, Predicts Brain Responses, and Reveals a Cortical Processing Hierarchy

概要

聽覺神經科學的一個核心目標是構建量化模型來預測皮層對自然環境中聲音的響應。研究人員針對語音和音樂識別優化了一種層次化的神經網絡。網絡在初期進行共享處理,然後分爲兩個通路,即語音通路和音樂通路,可能刻畫了人類的皮層組織形式。設計的神經網絡在這兩類識別任務中和人類相媲美,同時自然地表現出和人類類似的錯誤情形,這在一定程度上說明了所設計的神將網絡模型和人類的表現受到相同的限制。網絡對fMRI體素的響應進行預測,其結果大幅度優於傳統的譜-時間濾波模型。

引言

人類從自然世界中提取大量的聲音信息。人類的這種能力是將進入耳朵的聲音波形通過神經元的處理轉換成大腦皮層的表徵來實現的,這種表徵方式被認爲能夠使重要的行爲聲音特性變得清晰。儘管人們對聲音的外圍處理有很多瞭解,但對大腦聽覺皮層的瞭解卻比較少,同時關於聽覺皮層的一些區域和聽覺通路的組織結構情況仍未研究透徹。

對聽覺皮層的理解在一定程度上受限於缺乏適當的量化模型來解釋神經迴路將聲波形式轉換成與行爲相對應的皮層表徵的這一過程。現有的聽覺處理模型大部分侷限於一個或兩個階段,典型的方法是基於類譜圖輸入的線性濾波。神經響應是聲譜圖的非線性函數,同時最先進的機器聽覺系統是高度非線性的,這表明聽覺識別需要恆定性,而這種恆定性無法從通常採用的線性聽覺模型操作中獲得。

研究人員設計了一種多階段計算模型,用來處理現實世界中的聽覺任務。設計算法模型的基本假設是,日常的識別任務可能會對聽覺系統施加特定的約束,基於這些聽覺任務而優化的模型可能會收斂到類似大腦的表徵轉換。根據任務,利用了最近在深度學習方面的進展,對深度神經網絡進行優化,將聲音波形映射到有行爲意義的類別(單詞或音樂類型)。

通過將其任務性能與人類在各種條件下的性能進行了比較,對設計的網絡進行了評估。該網絡可以像人類一樣識別單詞和音樂類型,並且自然地呈現出和人類相似的錯誤模式。然後,利用該網絡的特徵來預測整個聽覺皮層的fMRI體素響應,發現它比通常使用的光譜時間濾波模型具有更好的預測結果。

基於實驗結果,該網絡可以在一定程度上來說明聽覺神經科學中一個尚未解決的問題:聽覺皮層計算在多大程度上是由一系列階段組成的層次結構,可能與皮層區域相對應。在非人類動物中,細胞結構和示蹤研究與三層層次組織一致,各種生理證據來源也印證了層次組織。然而,人類是否具有同樣的特性尚不明確。在人類中,層次結構最常用於語音處理,其中特定於語音的響應只出現在主要區域之外,暗示了多個處理階段。然而,目前還不清楚這些地區差異是否反映了處理階段的順序。事實上,還有一些研究人員反對層次處理結構,他們提出了一個解剖學上的分佈式組織形式。

本文提出的神經網絡模型本質上是層次化的,一個階段的輸出形成下一個階段的輸入,因此它提供了一種可操作並且可評估聽覺皮層不同部分反應複雜性的方法。該方法在視覺系統中取得了明顯的成效,視覺系統中的層次結構也已被很好地建立,不同的網絡層預測了視覺皮層層次結構的不同階段的反應。使用類似的方法來探索聽覺皮層不同部位的反應複雜性,大型組織在這些部位的穩定性較差。我們發現中間的模型層最能解釋初級聽覺皮層反應,而較深層的模型層最能解釋非初級區域的體素。這些結果爲人類聽覺皮層的計算層次提供了定量證據。

結論

網絡任務

在建立神經網絡模型的過程中,使用兩個與行爲相關的任務,這兩類任務可以獲取大量的標記數據:單詞識別和音樂類型識別。

單詞任務要求識別587個單詞中的哪一個位於2秒演講節選的中點;流派任務要求識別41個音樂流派中一個2s音樂剪輯屬於哪個流派。

演講和音樂訓練的例子來自於大型的標記語料庫和被疊加在不同類型的真實世界的背景噪音,使任務更具挑戰性和真實性。儘管與我們的文字識別任務類似的任務對人類來說在生態上是重要的,但體裁任務之所以被選擇,主要是因爲當代訓練深度神經網絡的方法需要大型的、有標記的數據集,而與其他音樂描述符不同,體裁標籤目前可用於數百萬個音樂片段。

網絡的輸入是一個耳蝸報(cochleagram),一種模擬耳蝸信號處理的聲音信號的時頻分解。對網絡參數進行優化,將耳蝸報映射到兩個任務的類標籤。

網絡架構優化

該網絡由一系列層組成,實例化了幾種標準操作:伴隨線性濾波器的卷積、逐點非線性、標準化和池化。神經網絡訓練通常與網絡濾波器權值的優化有關,但網絡也由能夠顯著影響性能的體系結構超參數定義,例如包括網絡層的數量、每層的單元數量、每層選用的操作、過濾器大小規模和池化操作的類型。對特定的任務通常可以使用已經表現出良好的任務性能的架構進行處理。然而,由於本文使用的兩個任務對於卷積網絡來說相對較新,並且希望單個網絡同時執行兩個任務,所以除了網絡權重之外,研究人員跨體系結構超參數進行了優化。通過兩階段的優化過程來選擇模型架構,首先分別獨立學習在單個任務中表現良好的架構,然後學習將架構組合成執行這兩項任務的單個網絡的方法。

在第一階段,生成了近200個候選架構。對於每種結構,通過隨機梯度下降法對單詞識別或音樂類型任務的網絡權重進行優化。通過將每個單詞或體裁的樣本與不同信噪比下的背景噪聲進行疊加,生成了數百萬個標記訓練樣本。訓練結束後,對每種架構的性能進行評估。最終實驗得出了一個體繫結構,在兩個任務上分別都可以達到了效果最優,該架構有12層處理:5個卷積、3個池化、2個標準化和2個完全連接的層。

在第二階段,尋找一個同時處理單詞和類型任務,並且都表現良好的模型。根據先驗知識,語音和音樂(以及其他潛在的)任務似乎使用聽覺神經元的共享初始階段來處理。因此,創建了在第一階段中發現的體系結構的分支版本(圖1C),在分支爲兩個特定於任務的處理流之前,共享一些初始處理層。實驗共設計了7種網絡,在分支網絡中沒有改變池化層和規範化層中的操作,和第一階段架構相同。使用隨機梯度下降法,爲這兩個任務聯合優化的網絡訓練濾波器權值,然後評估任務性能。

根據評估結果可以發現,在分類層之前,具有完全分離路徑的網絡架構比具有共享處理的架構表現出更好的任務處理效果,這是因爲完全獨立的體系結構有更多的參數。然而,根據圖1D,共享幾個早期層的架構幾乎與完全獨立的架構具有相同的效果。基於節省資源的原則,選擇了儘可能共享早期處理的體系結構,並且相對於完全分離的模型,不會顯著損害任務性能。選定的體系結構(圖1E)首先共享七層網絡,然後分爲兩組五個特定於任務的層,輸出層的響應可以解釋爲每個任務(即單詞或類型)在類別上的概率分佈。優化結果表明,一定程度的語音和音樂特定處理有助於獲得良好的任務性能,但如果資源有限(例如,神經元數量),共享早期處理可能是有益的。由此產生的網絡結構與最近在非初級聽覺皮層中分離語音和音樂通路領域的研究證據一致。
在這裏插入圖片描述

Kell A J E, Yamins D L K, Shook E N, et al. A task-optimized neural network replicates human auditory behavior, predicts brain responses, and reveals a cortical processing hierarchy[J]. Neuron, 2018, 98(3): 630-644. e16.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章