單細胞數據科學四大過程組兩大知識領域與三重境界

很多朋友問是如何保持閱讀量的,其實,大部分是之前的存貨。有一部分是每有會意,把之前的舊書拿出來再翻一翻,做個導圖放上來的。今天,我想和大家分享一點最近對單細胞數據科學的理解,總結爲一句話:

單細胞數據科學四大過程組兩大知識領域與三重境界

說到單細胞數據科學,不得不回憶起2020年的一個無名的夜晚,那一晚無意間瀏覽到一篇文章:

Eleven grand challenges in single-cell data science ,Lähnemann et al. Genome Biology (2020) 21:31

這是我第一次知道有單細胞數據科學這一概念,後來以single-cell data science(SCDS)作爲關鍵字,做過幾次檢索,也讀過幾本數據科學的書籍,這個概念慢慢明晰起來。當別人在討論單細胞數據分析、生信分析、數據挖掘的時候,我開了一個單細胞數據科學專欄。在單細胞生信分析到單細胞數據科學的過渡中,有一篇文章不得不提:

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

在這篇文章中,作者提出了單細胞數據分析的最佳實踐,也奠定了目前大部分單細胞數據分析的基本框架:

不管哪家公司做的數據分析,不管是哪個平臺的單細胞數據,數據分析的基本流程逃不過這個流程。

現在看來,雖然這兩年單細胞技術也在發展,數據分析工具依然層出不窮,但是2020年的時候,數據分析的基本框架基本形成。這兩年大家基本上是在反芻前人的理念。

這並不妨礙我們依然可以發現許多新的見解,如任老師在一次訪談中提出:

  • monocle把單細胞從分析離散的亞羣推向刻畫發育的連續性。
  • RNA velocity 把絕對定量擴展到可變剪切。
  • scomap把組織解離損失的空間結構找回來

書讀百遍,其意自見。下面就來分享一下:單細胞數據科學四大過程組兩大知識領域與三重境界。

四大過程組

單細胞數據科學的過程主要是:

  • 產生矩陣。成熟的細胞解離、分離、細胞標記、核酸捕獲、二代測序,爲獲得高通量的單細胞表達矩陣提供了保證。也是單細胞數據科學的第一個過程組,也可以喚作實驗過程組。這個過程組中可以選擇不同通量、不同平臺。

  • 探索數據。獲得單細胞矩陣之後,接下來是簡要探索一下數據的基本表現,正所謂:降維聚類,必知必會。這個過程組中,最基本的品格是:探索時貪婪。從不同側面觀察數據,選取不同特徵表現數據,不同分組間差異基因分析。數據探索的方法流程都比較成熟,如R語言生態下的Seurat,python生態下的scanpy,不需要太多的生物學背景。

  • 推斷分析。與數據探索不同,推斷分析需要分析者具備一定的生物學背景,這樣的推斷纔是有方向的,也纔是有益的。推斷過程組可以分爲兩個小方向:細胞方向的細胞軌跡、基因方向的調控與通路。

  • 多方驗證。隨着單細胞技術的發展,單細胞數據往往需要和其他技術或組學相互結合與驗證。此過程組的基本品格是:探索時貪婪,驗證時謹慎。

兩大知識領域

單細胞數據科學可以分爲兩大知識領域,一個是細胞層面的細胞生物學,一個是基因表達或者表觀的高通量多組學。

  • 細胞層面的細胞生物學,可以說是連接的是細胞表型,如細胞類型、細胞圖譜,細胞之間的關係。推薦的書籍有《細胞生物學》、《細胞》、《癌生物學》、《醫學免疫學》等。
  • 基因表達或者表觀的高通量多組學,可以說是連接的是分子機理,往往指向的是基因表達調控的特異性。推薦的書籍有《細胞分子生物學》、《基因X》、《分子生物學》、《高通量測序技術》等。

這兩大知識領域目前都是在不斷快速發展過程中,單細胞技術也在促進我們不斷拓展這兩大知識領域的認知邊界。

三重境界

說起三重境界,我們都不陌生。雖然我們已經歸納出單細胞數據科學有跡可循,但是這一點也不妨礙數據科學是一個需要探索、發掘、驗證、攀登的科學這一事實。特別是單細胞技術在如此火熱的大環境下,不少朋友想喫快餐,昨晚連夜釋放的數據,天一亮就從網上覆制代碼來分析自己的數據。

我們不要忘記單細胞數據科學也有三重境界:

  • ‘昨夜西風凋碧樹,獨上高樓,望盡天涯路’,此第一境也。
  • ‘衣帶漸寬終不悔,爲伊消得人憔悴’,此第二境也。
  • ‘衆裏尋他千百度,驀然回首,那人正在燈火闌珊處’,此第三境也。”

【降維聚類,必知必會】很簡單,能配置分析環境和複製代碼就可以。
具備一定的生物學背景之後,【探索時貪婪,驗證時謹慎】也不是難事。
但是真正走過四大過程組,諳熟兩大知識領域,歷盡三重境界方纔修得單細胞數據科學家之名。

在節目的最後,作者本人在單細胞數據科學四大過程組兩大知識領域與三重境界的基礎上,寄語單細胞數據科學新人六大箴言:

  • 生信雖好,不要貪杯哦。編程語言先學一門,數據分析技術先學一種,不要並行開搞。
  • 相信我,你並不孤獨。大部分你遇到的問題,別人都已經遇到過了,並已經解決了,又並寫出來發在網上了。
  • 基礎不牢,地動山搖。雖然單細胞數據下機之後,就處於不斷貶值的過程中,但是如果貪快,不求甚解地分析數據,往往會帶來無盡的返工。
  • 先練兵,再打仗。先學習如何分析數據,再利用學到的數據分析知識,去分析自己的的數據。而不是,數據下機之後,複製網上的代碼去跑自己的數據。
  • 輸出倒閉輸入。教,纔是最好的學習。學到的要交給別人,賺到的要花出去。
  • 讀源碼,解決實際問題。要勇於,善於閱讀源碼、原文檔、原理。

加油,少年,開卷有益(juan,第一聲)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章