讀《Computational-method-for-single-cell-data-analysis》

跟着運來兄搭建自己的生物信息小書房。趁年輕,讀幾本硬書,到老了慢慢反芻。

如果讓我推薦一本比較全面的單細胞數據分析教材,我想會是《Computational-method-for-single-cell-data-analysis》。在2019年剛出版沒多久的時候,就有趁着一次在中科院的生物信息會議之後,打印了這本書(僅作個人學習之用)。

本書談及單細胞數據分析深入淺出,一大特色是實操性很強,每一節都有代碼示例。現在再翻看這本書,一個體會是:很多分析工具其實早就爲我們做好了,不必爲工具的不斷迭代而糾結。身處哪個時代,我們就用那個時代的工具來分析我們的數據。另一個體會是:雖然工具不斷迭代,但是生物學問題是不變的,比如如今我們還是會問:細胞類型和細胞狀態的區別到底是什麼?連續中包含着離散嗎?

全書以單細胞數據質控開始,以空間數據分析結束。完整介紹了單細胞數據分析的流程:

  • 質控
  • 均一化
  • 高變異基因
  • 細胞類型鑑定
  • 稀有細胞類型
  • 小鼠細胞圖譜
  • 通路分析
  • 擬時序分析
  • 基因共表達網絡
  • 單細胞等位基因
  • 單細胞可變剪切
  • 單細胞表觀
  • 單細胞抗體
  • 空間轉錄組

借題發揮一下,這裏分享一番讀者本人對單細胞數據分析中的數據質控的基本看法。這一部分是大部分入門單細胞數據分析第一個要面臨的困惑:nFeature/mt 的閾值到底設置多少是合適的,5%,15%還是25%?單細胞的數據質控到底有沒有一個統一的標準?

答案是還沒有。

爲啥呢?

這就要回到單細胞這項技術解決的基本生物學問題上來:他回答的就是組織內細胞的異質性,什麼叫異質性?另一個名字叫:不一樣。

以線粒體基因的表達爲例,一開始人們認爲線粒體基因表達量高的細胞狀態不好,可能瀕臨死亡,這些細胞需要去除。隨着研究的深入,我們發現有些細胞類型線粒體基因表達量確實比一般的細胞高,比如神經細胞。退一步講,瀕臨死亡的細胞就不值得被研究了嗎?一些腫瘤組織的線粒體基因確實較高呀,你按照5%的閾值去卡,10000個細胞還剩下200個。

再以細胞週期爲例,在一些單細胞數據分析教程裏演示瞭如何迴歸掉細胞週期對分羣的影響,得出的結論是:你看我對細胞週期進行了迴歸,這樣細胞圖普就正常多了。然而,當我們研究的是腫瘤細胞的話,這樣的迴歸是否有必要呢?腫瘤的一個特色就是細胞週期失控,一些細胞週期調控基因表達量很高。

另一方面,在數據分析的實踐中,我們從一個表達矩陣中刪除細胞、亞羣、基因是一件很好操作的事情。但是如果在條件還不是那麼明朗的情況下就貿然刪除掉某些細胞,再想把他們加回來就不好操作了:很多分析需要重新做。更重要的是:很多事,一旦錯過了,就不再。

所以單細胞數據質控的一個基本原則是什麼:

You cannot stop it if you cannot see it

特別在剛讀入數據的那個晚上,對手裏的數據局勢還不是很明朗,不能以莫須有的名義刪除我們花了大貴价錢測來的細胞或者基因。說人話就是:在最開始的數據質控中,我們可以把質控條件設置的寬一些。然後再根據數據分佈特徵(如小提琴圖)或者基因通路來判斷某些亞羣的去留。總結起來就是:

  • 具體問題具體分析
  • 數據質控有理有據

回到咱們這本書上來,印象最深的內容有郭老師參與寫作的scMCA: A Tool to Define Mouse Cell Types Based
on Single-Cell Digital Expression
這一章,介紹了小鼠細胞圖譜以及如何利用它來做細胞類型的鑑定,也是在那個時候開始follow這個團隊。

直到現在,我還在是不是翻看這本書,每有會意往往有得。

這幾年單細胞數據朝着多組學、高通量的方向發展,單細胞數據分析也沉澱一些經典的分析工具,同時也出現一些新興的實踐。不變的是我們不斷對生物學問題的探索和追問,讓我們一起在這個快速發展的領域:荷道以躬,輿之以言。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章