Nature Communications:使用連接組的嵌入向量表徵映射大腦結構與功能之間的高階關係

 

連接組(Connectomics)用於表徵腦網絡中的節點以及節點之間成對的連接。節點的功能角色是通過它們與網絡其餘部分的直接或間接連接來定義的。但是,不能在單個節點上直接表示節點在腦網絡中的語義關係(當前的處理方式是用通過計算節點中不同方面的屬性來表示該節點在網絡中的關係的,但不同指標都指向不同方面,不像是自然語言處理中,詞彙編碼可以容忍上下文的語義信息,其表徵本身就已經攜帶語義關係信息)自然語言處理中的類似問題已經通過word2vec等算法得到了一定程度地有效解決,這些算法可以在有意義的低維向量空間中創建單詞的嵌入及其上下文關係。在這裏,作者應用這種方法來創建大腦網絡中的嵌入向量表徵——或者稱之爲連接組嵌入(connectome embeddings, CE)。CE可以表徵大腦區域之間的對應關係,並且可以用於推斷原始結構擴散成像所缺少的連接,例如,半球間同位連接(inter-hemispheric homotopic connections)。此外,本文建立了功能和結構連接的深度學習預測模型,並以面部處理系統爲例,模擬了在整個網絡上的損傷效果。CE爲揭示連接組結構和功能之間的關係提供了一種新的方法。在深度學習與神經影像處理結合越來越緊密的今天,本文提出了一個更基本的對網絡特徵進行編碼的方法,相比降維處理,這種方法可能在日後會有更大的發展空間。除此以外,本文對word2vec的解釋通俗易懂,可能對你更快地學習這種方法有很大幫助。 Introduction生物體的神經系統由專門的大腦區域組成,每個區域都具有獨特的加工能力和反應能力。 但是,這些區域並不是孤立地工作的,實際上,區域的功能作用與其在系統中其他區域的解剖連接性和生理相互作用緊密相關。通過使用網絡科學的概念可以系統地分析並總結這些連接和交互作用。網絡由一組元素及其二元(成對)連接組成,可以表徵每個元素的連接模式。連接組提供了這樣一種網絡描述,將一個有機體的完整神經系統概括爲一個圖,它代表了神經元對或大腦區域對之間的所有連接的集合。儘管最近在連接組映射方面取得了進步,但二元關係的結果集合本身並不能完全表示和量化網絡中節點之間的高階關係。在網絡的級別中,每個節點由一個向量定義,該向量對應於其與所有其他節點的連接,並分佈在高維拓撲空間中。這樣的二元描述不容易進行可視化、分類、對缺失邊緣和節點的預測以及瞭解不同網絡之間的關係。儘管有許多描述性的圖度量可以描述局部和全局網絡特徵,但其中大多數度量並非用於描述拓撲空間的特徵,這個拓撲空間嵌入了這個網絡的所有節點。評估網絡連接模式之間的距離以及隨後的特徵降維可以揭示成對節點之間的相似性,但是這種方法無法捕獲其他關係,例如同源性或高階正則性。在連接組學之外,另一個專注於元素之間映射關係的領域是自然語言處理,在自然語言處理領域中單詞可以由嵌入在低維分佈矢量空間中的向量表徵。通過將相似的單詞組合爲相似的嵌入表徵,此表徵可以促進更高級別的自然語言處理任務。用於學習單詞的向量表示的一種最新模型是word2vec,它對語言的規律性和模式進行編碼。可以使用線性運算來操縱這些規則。例如,計算這樣一個向量操作vec(“King”)—vec(“Man”) + vec(“Woman”)更接近vec(“Queen”),而不是其他的單詞向量。重要的是,最近已經普遍使用word2vec算法來表示網絡而不是文本。在網絡中句子的類似物是網絡中隨機生成的遊走序列。所得的潛在節點表徵在維度相對較小的連續向量空間中可以捕獲鄰域相似性和社區成員信息。這些低維嵌入對於隨後的旨在揭示網絡節點的結構關係和相似性的機器學習應用程序很有用。在這裏,本文基於以上的優勢構建了基於人腦連接組的嵌入表徵(connectome embedding, CE)。其目的是在低維連續向量空間中捕捉大腦區域之間的結構網絡關係,以便對它們的功能角色和關係進行推斷。本文認爲,CE爲腦網絡組數據建模提供了一種通用方法,這種方法有許多潛在的應用,包括髮育、個體差異和臨牀/轉化研究。爲了測試CE的實用性,首先,使用網絡嵌入算法將彌散磁共振結構MRI連接組數據嵌入到一個連續的向量表示中,即CE(圖1a-e)。接下來,本文證明CE在神經生物學上是有意義的,並且可以通過線性操作來操縱。然後,本文證明了CE(連接組嵌入)可以從結構連接預測功能連接,對於直接連接和間接連接都具有較高的準確性。最後,本文使用CEs來預測結構網絡局部病變的網絡級別的功能效應。

Fig. 1 構建連接組嵌入的工作流。註釋:a.連接組嵌入算法的輸入是一個結構連接,用於描述大腦區域(節點)之間的成對連接。每個字母表示大腦左右半球中唯一的、對應的節點 (例如a和a '代表同倫區域)。根據結構連接矩陣,虛線表示區域之間可能的直接連邊,而實線表示隨機遊走的路徑連邊。b. 使用node2vec算法在網絡上執行隨機遊走,生成節點序列(注意,爲了演示目的,這裏只提供了3個步長的序列,實際序列更長)。c.每個節點的序列被用作word2vec算法(這裏使用的是Continuous Bag of Words (CBOW)算法)的輸入。簡單地說,對於每個序列,每個節點依次被認爲是一個目標,R(t),它是由相同序列的其他節點[R(t−1),R(t + 1)..]所預測的。目標是最大化條件概率p(R(t)| R(t−1),R(t + 1)..;θ),參數theta使用2層神經網絡來估計。d,所獲得的參數,即向量捕獲規律,可以作爲後續各種任務的基礎,形成每個節點的向量分佈表示。e. 這樣產生的節點向量表示的方向具有拓撲意義。例如,對立半球的同源節點之間的嵌入向量之間的差異是類似的。(具體算法見Method

 

MethodMRI Data.數據集:對40個被試(數據集1)的數據集進行分析,並在100個被試(數據集2)的獨立數據集上進行驗證。數據集1(Lausanne):在收集MRI數據之前,該項目已提交洛桑大學倫理委員會[機構審查委員會(IRB)]批准。研究方案由當地IRB批准,並在納入研究前獲得每個被試的知情書面同意。40名健康被試(16名女性;25.3±4.9歲),無相關醫學或精神病史,在32通道頭線圈的3T西門子Trio掃描儀上進行MRI掃描。採用梯度回波(MPRAGE)序列T1加權磁化快速採集,平面分辨率爲1 mm,層厚爲1.2 mm。彌散譜成像(Diffusion Spectrum Imaging, DSI)包括128個擴散加權volume+ 1個參考b0 volume,最大b值8000 s/mm2, 2.2×2.2×3.0 mm體素大小,TR 6800 ms, TE 144 ms。以3.3 mm平面分辨率和3.3 mm切片厚度的梯度回波EPI序列以及TR 1920 ms和TE 30 ms記錄了BOLD成像數據。使用Connectome Mapping Toolkit處理DSI,靜息態fMRI和MPRAGE數據。基於MPRAGE volume對灰白質進行分割。使用Desikan-Kiliany圖譜將大腦皮層劃分成83個區域。使用重建的DSI數據進行譜成像全腦結構構建。在靜息態fmri採集過程中,被試躺在掃描儀內並保持睜眼9分鐘。功能數據預處理包括頭動矯正,白質、腦脊液和全局信號迴歸,線性去趨勢、低通濾波等。計算每個皮層區域的平均時間信號,並使用pearson相關計算功能連接。數據集2(Human Connectome Project;HCP);在收集MRI數據之前,HCP掃描方案已獲得聖路易斯華盛頓大學當地機構審查委員會的批准,並在納入研究之前獲得每個被試的知情書面同意。有關HCP數據集的完整詳細信息之前已發佈。在HCP900被試數據發佈中,使用了100例無關被試進行分析。結構數據:通過使用Stejskal–Tanner(單極)擴散編碼方案獲得了非常高分辨率的採集(各向同性1.25 mm)。HCP DWI數據是按照MRtrix3規則處理的,並使用Desikan-Kiliany模版將全腦劃分爲82個區域。功能數據:靜息態fMRI(HCP文件名:rfMRI_REST1和rfMRI_REST2)是在兩天不同的時間段中分別獲取的,每天有兩次不同的獲取(左到右或LR,右到左或RL)。對於所有采集run,都使用了左右(LR)和右左(RL)相位編碼中的數據來計算連接矩陣。使用HCP functional pipeline處理數據。該處理流程包括去除僞影,運動校正和配準標準空間。MELODIC ICA用於volume數據;使用FIX識別僞影並進行去除。對volume數據和gray ordinate數據進行了僞影和與運動相關的時間過程的迴歸。此外,從體素時間信號中迴歸全局灰質信號;在正向和反向方向使用一階Butter worth濾波器;使用workbench軟件對體素時間信號進行z-score歸一化,並對Desikan-Kiliany模版所劃分的82個腦區中的時間信號進行平均,去除掉偏離均值3個標準差的異常時間點。計算成對節點中時間信號的pearson相關係數,爲每個被試的每個fmri session計算一個對稱的連接矩陣。最後將每個被試的所有的4個連接矩陣進行平均得到最終的連接矩陣。對於這兩個數據集,後續的結構連接分析和建模是基於組水平連接矩陣上的,組水平矩陣是通過對在至少25%的被試上出現的連接進行平均得到的。功能連接的組水平矩陣則是對所有被試的連接矩陣進行平均得到的。 Word and network embedding. Word2vec算法主要包含兩個模型:skip-gram和CBOW。簡而言之,給定一個單詞w及其上下文的語料庫c,skip-gram模型的目標是通過估計參數θ來最大化條件概率p(c|w;θ);而CBOW模型的目標是通過估計參數θ來最大化條件概率p(w|c;θ)。這樣產生的參數或詞向量捕獲了語言規律,這是後續各種任務的基礎。這裏簡要介紹一下word2vec算法,word2vec算法是google於2013年提出的nlp模型,其主要任務就是將單詞編碼爲低維向量,從而可以在詞向量空間中比較詞與詞之間的相似性。詞向量具有這樣的性質:1.越相似的詞之間在詞向量空間的夾角越小;2.詞向量具有線性性質:vec(woman) - vec(man) = vec(queen) - vec(king)。如下圖所示:

King與Man在語義上比較相近,所以vec(Man)與King之間的夾角較小
 

詞向量具有線性操作性質
Word2vec算法本質上是一個三層神經網絡,如下圖所示。假設詞庫中單詞的數量爲10000,詞向量的長度設定爲300,下以單個訓練樣本爲例介紹。1. 輸入詞向量爲長度爲10000的one-hot向量,假設輸入單詞在詞庫中的順序爲i,則輸入向量的第i個元素爲1,其餘則爲0。這個單詞的輸入向量則爲[0,0,0,...,1,...0].

Word2vec算法流程圖2. 隱藏層的神經元個數就是詞向量的長度。隱藏層的參數是一個[10000,300]的矩陣。 實際上,這個參數矩陣就是詞向量。這個矩陣編碼了將單詞從one-hot向量到詞向量的映射關係。如下圖所示,左邊的向量爲某個單詞的one-hot向量,中間的矩陣則爲某個word2vec算法的隱藏層參數,右邊的向量則爲這個單詞的詞向量。

3. 輸出層神經元個數爲10000,即輸出層的每個神經元都是對應單詞的預測概率(見word2vec算法流程圖)。可以看到,word2vec其實就是利用單詞預測單詞來訓練神經網絡中間層參數以獲得詞向量。這裏的簡化模型是由一個單詞預測一個單詞。真實場景中,可能是由一個單詞預測上下文或者由上下文預測一個單詞(有點像完形填空)。這裏就引出了skip-gram模型和CBOW模型。Skip-gram模型:核心思想是根據中心詞來預測周圍的詞。假設中心詞爲brown,窗口長度爲2,就根據brown預測左邊兩個詞和右邊兩個詞。即用中心詞作爲神經網絡的輸入,周圍的詞作爲輸出。CBOW模型:與Skip-gram模型類似,只不過是由周圍的詞預測中心詞。如下圖所示

可以從圖1看到,本文采用的是CBOW模型。在本文的應用中,中心詞和上下文等價爲連接組中的待預測節點和經過該節點的隨機遊走序列。

 

網絡域中的上下文指的是網絡中生成的隨機遊走序列。網絡上序列的生成方式區分了不同的網絡嵌入方法。網絡節點嵌入的一種最新實現是node2vec,它使用2個參數控制隨機遊走的深度,允許局部或全局隨機遊走,從而生成節點的不同表示(圖1a-e)。與利用圖的譜特徵的無監督特徵學習方法相比,node2vec模型在一系列後續的有監督學習節點分類任務和連邊預測中具有更高的預測能力。此外,已有研究表明,類似的網絡嵌入算法在將所有k階關係信息投影到公共子空間的同時,也能捕獲圖中每個頂點與其k階鄰居之間的k階關係(k = 1,2,3,..)。作者使用Node2vec和底層的Gensim python軟件包在結構連接矩陣上運行CBOW node2vec算法500次,因爲它可以在每次迭代中產生不同的結果。每次迭代包括800次隨機遊走,遊走步長爲20。將嵌入向量的維數設置爲30(表示節點的每個向量的長度),將確定每個節點上下文的窗口大小(來自每個節點的步長置爲3。將算法參數設置爲對應於局部隨機遊走 p = 0.1, q = 1.6)。根據連接體邊緣的權重對遊走概率進行加權。 利用深度學習預測功能連接此前,Grover和Leskovec(2016)已證明Hadamard運算(向量對之間的逐元素乘法)對於學習連邊特徵非常有效。可以在這種情況下利用節點對錶示來學習結構嵌入和功能連接之間的映射,同時採用監督學習交叉驗證方案。具體而言,將平均功能連接矩陣的連邊隨機分爲訓練(75%)和測試集(25%)。利用Keras實現一個深度學習多層神經網絡模型,將自變量定義爲Hadamard嵌入,因變量定義爲功能連接。首先通過僅使用訓練集在參數空間中使用交叉驗證網格搜索來優化網絡架構參數。這樣就產生了一個具有四層全連接的神經網絡,每一層有350個神經元,dropout rate爲0.1,使用ReLU函數作爲激活函數,batch size爲140,使用Adam優化器訓練170輪。模型構建示意圖如下圖所示,a與a’爲某兩個結點的嵌入向量,進行元素間乘法後輸入到神經網絡中預測功能連接。


利用基於深度學習的預測模型預測因病變引起的功能表現爲了測試人工病變對功能連接的影響,首先在FFA(面孔識別區)去除後(病變後的嵌入與原始病變前的嵌入相比)構建了新的500個連接組嵌入,因爲這是面部識別網絡的主要樞紐。這是通過運行node2vec算法500次,並在將所有右FFA連邊設置爲0之後對結構連接矩陣進行隨機初始化來實現的。由於嵌入向量元素可能會因權值隨機初始化而發生變化(但向量之間的餘弦相似度是保持穩定的),因此損傷前的網絡嵌入與功能連接映射之間所學習到的映射關係不能推廣爲另一個連接組的嵌入。因此,本文設計了一個訓練程序,其目標是學習連接組嵌入與功能連接之間的映射關係,這個映射對於權值的初始化條件是不變的。爲此,這裏實現了一個嵌套的交叉驗證方案,在該方案中,僅使用連接和連接組嵌入的子集,在連接組嵌入的許多隨機權重初始化中訓練病變前結構嵌入和功能連接之間的映射,以避免數據過度擬合 。具體而言,將連接分爲3部分,在每次迭代中,將其中2部分用於訓練(2268條連接),將剩下一部分用於測試(1134條連接)。此外,還將500個連接組嵌入隨機劃分3次,連接組嵌入的90%(500箇中的450個)作爲訓練集,10%(500箇中的50個)作爲測試集。僅僅對測試集中的嵌入向量和連接進行預測。此外,對病變前連接組嵌入進行訓練,並對病變前連接組嵌入和病變後連接組嵌入進行預測。最後,進行了10,000次迭代的置換重採樣測試,以比較病變前和病變後連接組預測之間的每條連接的差異。

 

Results半球間類比測試爲了測試CE向量表徵是否具有與大腦拓撲模式具有類似的特徵,並且可以使用線性運算進行解釋和操縱,本文設計了半球間類比測試。人腦的基本組織特徵之一是功能同倫,即在兩側同源的大腦區域之間存在對稱的半球間相關性。高比例的胼胝體纖維支持功能同倫,這有助於同倫連接。此外,兩個半球的結構和功能連接模式顯示出高度的跨半球的相似性。因此,爲了設計一個用於測試和調整連接組嵌入的基準,這裏假定一個半球中每對區域之間的關係應類似於另一半球中相同的成對關係。本文在node2vec和譜嵌入這兩個算法中都測試了所有節點之間所有可能的半球間類比。在每一次類比測試中,將會計算線性組合向量[vector(“Right Node A”)—vector (“Right Node B”)+vector (“Left Node B”)]與連接組中其他所有節點向量之間的餘弦相似性,以捕獲兩個向量夾角之間的角度注:理論上來說,如果假設嚴格成立,那麼與線性組合向量之間夾角最小的節點向量應該是vector(“Left Node A”))。這個計算過程將生成一個餘弦相似距離向量,向量中的每個元素表示線性組合向量與其他節點向量之間的餘弦距離,然後按升序排列。在每一次類比測試中,期望向量(“Left Node A”)的在餘弦相似距離向量中的排序(rank)會被記錄下來。這裏把這個計算過程稱作半球間類比測試。將根據更標準的譜嵌入算法對結果進行基準測試,該算法是一種無監督的方法,旨在通過使用圖拉普拉斯算子的分解來計算數據的低維非線性嵌入。譜嵌入的基礎假設之一是,互相連接的節點在向量空間中將會一起嵌入(同質性),並且這些嵌入表徵可用於分類。對於每次半球間類比測試注:由於node2vec算法會受到參數初始化的影響,因此會計算500次減弱隨機效應,計算500輪node2vec算法中期望向量的排序的中值。例如,與其他節點嵌入向量相比,vector(“Right Amygdala”) 與線性組合向量[vector(“Left Amygdala”)—vector(“Left Fusiform Gyrus”) + vector(“Right Fusiform Gyrus”)]之間的距離應當最小(如圖1e所示)。如果計算出的向量確實確實最接近vec(“Right Amygdala”),則類比測試得到的排序(rank)應該爲0。那麼這個節點被稱爲期望節點(本例中爲Right Amygdala)。請注意,較高的排序(rank)意味着期望的節點嵌入與所計算的線性組合向量不太相似,因此較高的排名反映了較差的性能。因此,如果在所有可能的類比測試中,較高比例的期望節點將具有較低的排序(與線性組合向量相距較小的距離),則可以推斷出所獲得的向量表示將包含有意義的拓撲信息。 數據集1:在所有半球間類比測試中,有54%的預期節點,即820個(有82個同源節點的半球間類比測試的數量)中的444個,在使用連接組嵌入時被列爲排名前五的節點。相比之下,使用常規譜嵌入算法,820個預期節點中只有153個節點排在前五名,佔18.6%兩種嵌入方法中排名前5位的節點所佔百分比差異顯著,χ2(1, N = 1640) = 223, p < 2.2e-16(圖2)。數據集2:與數據集1的情況一樣,連接組嵌入和譜嵌入算法之間的差異是顯著的。在所有半球間類比測試中,30%的預期節點,即820箇中的246個(82個同源節點間可能存在的半球間類比測試對)在使用連接組嵌入時被列爲排序前五名節點。相比之下,使用傳統的譜嵌入算法,820個預期節點中只有108個(13%)排在前5位。兩種嵌入方法中排名前5位的節點所佔百分比差異顯著,χ2(1, N = 1640) = 68.6, p < 2.2e-16。

圖2 兩種節點嵌入算法在半球間類比測試中的性能。備註:半球間類比測試評估了兩個嵌入節點向量的表徵能力,在給定一個半球中的成對關係時,以推斷另一個半球中每對節點之間的關係。對所有成對節點進行類比測試,並對結果進行排序(rank),以使rank越低越好。在node2vec算法的500次迭代中,預期節點的排序以5分別進行劃分。箱線圖代表了500次node2vec中的期望節點的排序劃分。紅色三角形代表譜嵌入算法的期望節點的排序。重要的是,node2vec算法有更高比例的預期節點處於最低的排序區間中(0-5)。請注意,譜嵌入算法中有較高比例的期望節點處於較高的rank中,這表明該算法在此任務的性能較差。該結果表明,node2vec向量嵌入成功地包含了功能同倫信息。

 

節點表徵的相似性正如半球間類比測試所暗示的,學習到的CE載體之間的關係包含有意義的神經生物學信息。爲了進一步探討此問題並瞭解每對節點之間的成對關係的性質與功能同倫的關係,本文刻畫了它們各自的CE向量的表徵相似性。具體來說,在每對連接組嵌入向量之間計算了餘弦相似度(圖3)。此過程相當於對結構連接矩陣進行重建(embedding reconstruction, 嵌入重建)。這裏並不期待對結構矩陣進行完美重建。相反,這裏假設如果CE能夠捕獲高級拓撲屬性,則應將其反映在CE的成對關係中。作者首先計算了每個嵌入重建(node2vec和譜嵌入算法)與使用擴散成像獲得的結構連接矩陣之間的Spearman Rho(秩相關係數)。

圖3 結構連接矩陣和節點嵌入的餘弦相似度。a. 具有83個預定義感興趣區域的原始結構連接矩陣。每個格子代表一對區域之間的結構連接。b. 原始的平均功能連接矩陣。c. 譜嵌入重建矩陣。d. node2vec算法重建矩陣

 

數據集1:連接組結構矩陣與譜嵌入重建矩陣之間呈現弱相關,rs = 0.2,p <10-6,而與node2vec嵌入重建矩陣呈現強相關rs = 0.62,p <10-6(圖3)。數據集2:類似於數據集1中測得的相關性,連接組結構矩陣與譜嵌入重建矩陣不相關rs = -0.02,p = 0.11,但與node2vec嵌入重建矩陣有很強的相關性rs = 0.63,p <10-6。作者假設node2vec和譜嵌入重建之間的差異可能部分是由於嵌入算法傾向於根據現有的高階關係推斷丟失的連接。例如,使用擴散成像無法很好地捕獲同源的半球之間的結構連接。最近,一項使用具有32,350個連接報告的分析(是根據已發表的大鼠通路追蹤實驗整理而來的)表明,所有皮質區域中約有三分之二發送同倫連接。因此,由於通過嵌入捕獲的拓撲特徵,同倫半球間連接可以在node2vec連接性重建中得到更好的恢復。爲了比較原始結構連接矩陣和重建的嵌入連接矩陣之間同位半球之間的連接數,作者對每個矩陣使用Z分數歸一化,並使用閾值進行矩陣二值化。數據集1:node2vec重建矩陣的同位半球間連接佔比爲73%,而在0閾值時原始結構連接矩陣中的同倫半球間連接佔比爲48%。 這種差異具有統計學意義(χ2(1,N = 82)= 9.76,p = 0.001)。相似的模式隨着閾值提高到0.9一直存在,但是當閾值提高到1時則消失。並且node2vec重建矩陣和原始結構連接矩陣中僅分別出現44%和34%的同源半球連接。閾值爲0時,譜嵌入重建矩陣(53%)和結構連通性矩陣(48%)之間同位半球間連接的差異不顯著(χ2 (1, N = 82) = 0.39, p = .53)。閾值提高到0.9時也出現相似的結果。數據集2:與數據集1具有相似的結果,node2vec重建矩陣的同位半球間連接佔比爲56%,而在閾值爲0時原始結構連接矩陣中的同位半球連接佔比爲21%。這種差異具有統計學意義(χ2(1,N = 82)= 27.9,p <10-6)。 當應用各種閾值直至0.9時,出現相似的模式,但在閾值爲1時這種模式消失,並且node2vec重建矩陣和原始結構連接矩陣的同源半球間連接分別爲19%和12%。在較低的Z閾值(0.0–0.1)下,譜嵌入重建矩陣與結構連接矩陣之間的同位半球間連接仍然存在顯著差異(χ2(1,N = 82)= 6.97和6.2,p = 0.008和 0.01)。一旦將閾值增加到0.1以上,則在任何閾值上都沒有顯著差異。 與靜息態功能連接的關係正如迄今爲止的發現所報告的,CE可以爲結構連接提供有意義的表徵,因此,本文將研究其與靜息態功能連接網絡之間的關係。具體而言,區域時間序列之間的統計依賴性通常稱爲功能連通,許多先前的研究表明,長時間處於靜息狀態期間記錄的功能連接與底層的結構連接密切相關。儘管這種靜息態連接取決於底層結構,但它也表徵了網絡節點之間的較高級別的交互關係,而不一定由被直接的成對的結構連接捕獲。例如,除了直接的解剖連接的節點之間的靜息態功能連接(直接連接)之外,由於整個網絡和網絡之間的間接交互作用,在間接解剖連接的節點之間也存在許多功能連接(間接連接)。正如上面的分析所證實的,CE重建矩陣包含高級拓撲連接信息。這裏假設,此類信息與靜息態功能連接的關聯性可能比原始結構連接矩陣更大,因爲它可能能夠捕獲很大比例的間接效應。數據集1:實際上,與功能連接和譜嵌入重建連接之間的相關性相比(rs = 0.13,p <10 -6;圖4b),以及功能連接和原始結構連接之間的相關性相比(rs = 0.311,p <10-6;圖4a),node2vec重建連接與功能連接之間獲得了更高的相關係數(rs = 0.328,p <10-6;圖4c)。重要的是,當考慮在原始結構矩陣中並未直接連接的節點對時,這裏獲得了node2vec重構與功能連接矩陣之間的正相關關係(rs = 0.127,p <10-6),而譜嵌入重建連接和功能連接之間沒有顯著的相關。數據集2:與從數據集1獲得的結果相似,node2vec重建矩陣與功能連接之間測得較高的相關係數(rs = 0.31,p <10-6;補充圖3c)。功能連接與譜嵌入重建連接之間的相關性(rs = 0.15,p <10-6;補充圖3b),以及功能連接與原始結構連接之間的相關性(rs = 0.21,p <10 -6;補充圖3a)。在驗證原始結構矩陣中的間接連接的節點時,作者測量到node2vec重建連接與功能連接矩陣之間呈正相關(rs = 0.27,p = 0.003),但譜嵌入重建連接與功能連接之間無顯著相關(rs = 0.17,p = 0.069)。這些發現表明,node2vec嵌入能夠捕獲與功能關係有關的重要信息,如在靜息態功能連接中所測。

圖4 靜息態功能連接與結構連接之間的對應關係。靜息態功能連接(進行 Fisher Z變換之後)與 a)原始DSI連接矩陣之間的相關性(rs = 0.311,p <10-6)與b)譜嵌入重建矩陣之間的相關性(rs = 0.13, p <10−6) 與c) node2vec重建矩陣之間的相關性(rs = 0.328, p <10−6)
如果您對腦影像機器學習及腦網絡數據處理感興趣,可點擊以下鏈接瞭解思影科技課程及服務(可添加微信號siyingyxf18983979082進行諮詢):
 

第十屆腦影像機器學習班(南京,6.30-7.5

 

第十一屆腦影像機器學習班(南京,8.25-30

 

第十四屆磁共振腦網絡數據處理班(重慶,7.26-31

 

第十六屆磁共振腦網絡數據處理班(南京,8.12-17

 

思影科技功能磁共振(fMRI)數據處理業務
思影科技腦影像機器學習數據處理業務介紹 深度學習用於將結構連接映射到功能連接爲了驗證重構的CE與功能連接之間的映射是否可以進一步改善,作者採用了監督式深度學習框架。利用節點對錶示來學習結構嵌入和功能連接之間的映射,並採用監督學習交叉驗證方案。數據集1:當評估測試集中的預測功能連接與靜息態功能連接之間的對應關係時,獲得了很強的正相關性(rs = 0.6,p <10-6)(圖5),並且對於直接連接(rs = 0.6,p <10-6)和間接連接(rs = 0.52,p <10-6)都存在很強的正相關。數據集2:在預測功能連接與靜息態功能連接之間存在強正相關(rs = 0.52,p <10−6),並且對於直接連接(rs = 0.52,p <10−6) )和間接連接(rs = 0.6,p = 0.001)都有很強的正相關。因此,CE編碼的有關間接功能連接匹配甚至超過了通過計算機模擬以及基於圖分析的模型獲得的先驗結構-功能對應關係的大量信息。爲了進一步驗證,本文還進行了簡單的線性迴歸分析。數據集1:在測試集中,預測功能連接和靜息態功能連接之間呈現正相關(rs = 0.45,p <10−6),並且在直接連接(rs = 0.41,p <10- 6)和間接連接(rs = 0.32,p <10-6)的預測上都比較顯著。數據集2:在測試集中,預測功能連接和靜息態功能連接之間呈現正相關(rs = 0.41,p <10-6),並且對於直接連接(rs = 0.41,p <10-6) )和間接連接(rs = 0.57,p <10−6)都呈現較強的正相關。可以看到,線性相關的擬合結果弱於由深度學習擬合的結果。

圖5 使用深度學習從結構嵌入預測靜息態功能連接。綠點和紅點分別標記直接連接和間接連接。當考慮所有的連接 (rs = 0.6, p < 10−6)以及直接連接 (rs = 0.6, p < 10−6)和間接連接 (rs = 0.52, p < 10−6)的時候,靜息態功能連接與預測功能連接之間的相關都很顯著。

 

FFA病變後對於功能連接的預測連接組嵌入對於功能連接具有較高的預測性能,這種新型的預測模型可以用於理解大腦結構與功能之間的關係。一種潛在的應用是預測由於基於結構的連接組嵌入的變化而導致的功能連接的變化。具體而言,在諸如人工損傷病變或基於特定節點或連接的選擇性增強等操作之後,可以創建結構連接組的嵌入表徵。然後可以使用此連接組嵌入來預測經過例如人工病變等操作後的功能連接。作者利用面部識別網絡(face network)進行該應用框架的測試。面部感知是通過面部處理網絡的協調活動來完成的。面部識別網絡的主要樞紐之一是right fusiform face area(FFA)。該區域的病變可能導致臉盲症,一種面部識別缺陷。然而,尚未明確驗證與這種病變相關的全網絡效應。但是,作者的團隊先前的研究表明,當被試看到完整的臉部時,諸如右FFA等關鍵區域將成爲臉部網絡的樞紐,但通過物理操作臉部(例如將人臉旋轉180度),這些區域的連接性將會遭到破壞。至關重要的是,在這種中斷的條件下,其他區域(right LOC,right IPS和右顳下皮質)會參與其中,並在此網絡中扮演樞紐區域的角色。當先天性面部加工能力受損的人感知到完整的面部時,也會出現類似的表現。因此,作者預測,右側FFA的損傷將模擬面部感知受損的情況,從而導致面部網絡的中斷,從而影響相關中樞的連通性。在這裏,作者嘗試模擬對面部網絡進行修改,該修改可能會引發與使用人工病變的類似結果。使用CE框架,可以估計右FFA節點(面部網絡的主要樞紐)的病變如何影響整個大腦網絡。通過將其所有連接都設置爲零來模擬節點病變。使用10000次迭代的排列測試,作者計算了病變前和病變後所模擬的功能連接之間的差異。病變後,每條邊緣的功能連接要麼降低(病變前>病變後)要麼增加(病變後>病變前)。數據集1:使用節點度差異的度量來量化病變前和病變後預測的功能網絡之間的差異,該差異可捕獲連接到節點的重要邊緣數量的差異。病變後,右側枕葉皮質(LOC)和右側頂下溝(IPS)增加了最多的節點度(分別增加27和9條連接)。相反,由於病變,右LOC和右顳下皮質減少了最多的節點度(分別是20和17條連接)。數據集2:病變後,右側枕葉皮層(LOC)和右側顳下皮層節點度增幅最大(分別增加20和14條連接)。頂下皮層的節點度排名第六。 相反,由於病變,右側LOC和右側海馬區域表現出最大程度的節點度降低,而右側顳下皮質僅排名第三(10條連接)。可以看到,這些模擬測試與和臉盲症相關的樞紐區域具有一致的結果(如果能做一個針對性的數據驗證可能會更牛)請注意,這兩個數據集在節點的排名上產生了一些細微的差異,這表現在在病變前後對比以及在特定的被影響的連接處的節點度提升最多。鑑於這兩個數據集是完全獨立的,並且具有不同的預處理流程,並且採用了不同的量度來構建結構連接(請參見方法,以瞭解詳細信息),可以推斷出這些結果之間存在這種差異。

6模擬右FFA的人工病變損傷對功能連接的影響。

綠色和紫色分別表示右半球和左半球節點,並且通過連接節點的藍線描繪了受病變嚴重影響的模擬的連接差異。紅色表示所選節點及其統計上的顯著的連接。a. 在病變後>病變前對比中,右LOC和右IPS節點具有最高的節點度。b. 在病變前>病變對比中,右下顳皮質和右LOC節點度最高。

 

連接組嵌入與網絡拓撲的關係顯而易見,CE捕獲了重要的拓撲信息。爲了研究CE與更標準的低階拓撲度量之間是否存在潛在關係,作者計算了每個結點的CE的每個維度與若干拓撲度量之間的相關性。具體來說,作者驗證了CE與節點中心度(節點度、特徵向量中心度),節點的整合程度(介數)和節點的分離程度(聚類係數)之間的Spearman相關係數。結果顯示,特徵向量中心度僅僅與CE的兩個維度具有最高的相關量級(最大Spearman相關係數ρ= 0.51,p <10-6,最小相關係數ρ= -0.57,p <10-6)。然而,CE中的數據成分與常規的圖論指標(低階拓撲度量)之間的相關值較低,並且沒有明顯的規律(圖7)。結果中,顯著的相關性似乎是零星散佈的,並且它們不能解釋與CE相關的大多數變異。這表明,CE捕獲的網絡屬性超出了通過標準拓撲度量所能衡量的網絡屬性。

圖7 不同CE維度與標準拓撲度量之間的關聯。特徵向量中心度僅僅與CE的兩個維度表現出最高的相關性(最大Spearman相關係數ρ= 0.51,p <10-10,最小相關係數ρ= -0.57,p <10-10)。然而,CE中的數據成分與圖論度量之間的相關值較低,並且沒有遵循明顯的有意義的模式。

 

總結:在連接組學的背景下,將詞嵌入技術(如word2vec)應用於網絡科學具有廣闊的前景。在當前的研究中,本文證明了CE表徵能夠編碼高維拓撲信息,例如半球間相似性。而且,CE能夠以優於先前方法的水平揭示功能和結構的關係以及並實現相互預測,並且能夠模擬局部網絡病變對功能連接整體模式的影響。機器學習技術與腦網絡建模進行結合是一個相對較新的領域,成功應用的例子仍然有限。先前的研究大多將特徵嵌入作爲fMRI數據的降維步驟,並用於後續的機器學習任務,例如對精神分裂症、抑鬱症、阿爾茨海默氏病和多發性硬化症患者進行分類。先前已經使用heat diffusion的平均相似性研究了結構連接之間的差異以及由於連接缺失而導致的網絡退化。但是,word2vec系列模型與深度學習算法尚未在腦網絡中應用。此外,這項研究第一個創建全面的機器學習框架的框架,該框架將有意義的結構嵌入轉換爲功能連接,從而產生了一種新穎的預測模型,該模型預測了功能連接如何受到結構連接的改變的影響,這可能對於大腦網絡異常的研究非常有用。爲了測試CE向量表徵是否反映了已知的大腦拓撲屬性,是否能用線性操作進行解釋,作者在兩個獨立的數據集上測試了幾個基準。他們在HCP項目(100個被試)的經過嚴格預處理的被試子集進行了驗證,並復現了主要結果。請注意,由於數據採集中的技術差異,數據集之間的預處理管道以及結構連接的構建方法均不同,這進一步增強了本文方法的通用性。最初的半球間類比測試證明,CE向量表徵捕獲了已知的功能同倫特徵。如所預測的,一個半球中大多數區域對之間的關係類似於另一半球中相同的成對關係,其中CE方法表現出優於以前的嵌入技術的性能。接下來,作者進一步驗證了CE和結構連接矩陣之間的相關性是否反映了結構連接的高階屬性。結果證明,與原始的結構連接矩陣相比,CE重建矩陣中的同倫半球間連接更加顯著,這是由於CE捕獲了高階拓撲特徵,例如同倫半球間連接。此外,與原始連接矩陣相比,CE矩陣與靜息態功能連接之間的相關性更高。 此外,利用深度學習算法來改善了結構到功能的映射性能。這種映射算法使得預測的功能連接與靜息態功能連接之間產生了較高的相關性,不管是對於直接連接還是對於間接連接來說都有較高的相關。CE方法優於以前的結構-功能映射模型。未來的研究可能會利用相同的預測算法來預測缺失的結構連接,在這種情況下可能只有部分結構連接數據可用。爲了利用CE功能映射的高預測能力,作者進一步測試了是否有可能預測由基於結構的連接組嵌入的變化而導致的功能連接的變化。具體來說,他們將面部識別網絡用作測試平臺,並模擬了右FFA的結構病變。模擬結果與先前的研究發現非常吻合。基於CE的模型還預測了先前的研究中所報告的右LOC、顳下皮質和IPS之間的超連接性。與以前的工作一致,本文的發現表明,網絡尺度上的功能變化可能是由局部操作(例如抑制單個節點)引起的。本文的結果與建模框架一起,進一步邁向了在結構和功能網絡變化的背景下檢驗因果關係的可能性。可以使用相同的框架來模擬病竈、節點、連接以及整個子網的過度表達。這樣的模擬可能有助於闡明在神經發育障礙(例如自閉症譜系障礙(ASD))中發生的網絡連接變化的結構基礎,其中自閉症譜系障礙表現爲超連通性,以及發育障礙和閱讀障礙。而且,可以模擬正常的被試在不同的認知和感知需求下所觀察到的網絡拓撲的變化。嵌入算法(node2vec)和當前研究中使用的參數不一定是最佳的,並且在此工作的將來擴展中有待進一步改進。本文的工作表明,CE爲探索連接組數據集的高階網絡結構提供了一種有效的方法,在建模和比較人類個體差異方面具有潛在的應用價值。另一個未來的應用是使用CE來發現跨物種的大腦架構之間的關係和同源性。 如需原文及補充材料請加思影科技微信:siyingyxf 或者18983979082(楊曉飛)獲取,如對思影課程感興趣也可加此微信號諮詢。覺得有幫助,給個轉發,以及右下角點擊一下在看,是對思影科技莫大的支持。

 

 

微信掃碼或者長按選擇識別關注思影

非常感謝轉發支持與推薦

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章