前言
NGS系列文章包括NGS基礎、轉錄組分析 (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
之前整理的一篇大綜述 — Nature重磅綜述 |關於RNA-seq,你想知道的都在這收到了熱烈反響,閱讀人數過萬。
行文很長,最後精煉下來的文字近三萬,適合深度閱讀思考。
上次發出時,有讀者留言說部分專業名詞不理解。爲了方便理解和對綜述有個概覽,特整理了下面的思維導圖,對應原文,共計8個大標題,大標題下又分有小主題,各個分支介紹有每個主題的主要內容及採用方法。
內容已發佈在石墨文檔,鏈接如下:
https://shimo.im/mindmaps/qQVV3r3Pqx8DVGjC/ 《RNA-seq思路圖(歡迎大家備註、修改,可先創建副本,在副本文件修改)》,可複製鏈接後用石墨文檔 App 或小程序打開
Note:想要打開全部分支、添加備註或修改信息,請先創建副本,在備份文件打開修改,原文件不支持修改
原文在深度總結了RNA-seq
這些年的同時,還分享了文中一些名詞的解釋,編譯分享如下,希望有助於進一步理解學習。
- NGS基礎 - FASTQ格式解釋和質量評估
- NGS基礎 - 高通量測序原理
- NGS基礎 - 參考基因組和基因註釋文件
- NGS基礎 - GTF/GFF文件格式解讀和轉換
- NGS基礎 - 測序原始數據下載
Read depth
Read深度:一個樣本測序得到的reads數;容易和基因組測序的覆蓋度 (多少基因組區域被測到了)和測序深度混淆 (單個核苷酸被測到的次數或所有核苷酸被測到的平均深度)。Short-read
短讀長:測序得到的長度最大是500 bp
的reads,常見的測序片段長度爲100-300 bp
;本文中的短讀長測序片段代表測到的mRNA片段和降解了的mRNA。Long-read
長讀長:測序得到的超過1000 bp的reads,本文中代表全長或近乎全長的mRNA。Direct RNA sequencing
(dRNA-seq): 直接測序RNA而非cDNA的測序技術,通常用於測序全長或近全長的mRNA 。Multi-mapped reads
多重比對的reads:從轉錄組同源區域測序得到的reads,不能精確確認其轉錄本或基因組的來源。Synthetic long reads
合成long reads:通過組裝多個短讀長得到長讀長的方法。- 唯一分子標識符(
UMIs
):在擴增前,構建RNA-seq文庫的時候加入的短序列或barcodes,理想情況下每條轉錄本結合一個唯一的標識符,含有此標識符的reads都來源於此轉錄本,定量時只計算一次。可以用來降低RNA-seq的定量偏好性,在RNA起始量低的單細胞實驗中尤爲適用。 Read length
讀長:單個測序reads的長度,short-read RNA測序得到的長度通常是50-150 bp。Sensitivity
敏感性:樣本中多大比例的轉錄本會被測到,敏感性越高,這一比例越高。它受樣本處理、文庫製備、測序和計算偏好性的影響。Specificity
特異性:度量差異表達轉錄本被正確鑑定出的比例的方法,它受樣本處理,文庫製備,測序和計算偏好性的影響。Duplication rates
重複Reads比率:比對到轉錄組相同位置的的測序reads的比例。在RNA-seq文庫中,一些轉錄本可能有高的重複率,因爲它們在樣本中表達水平高。高表達的基因的重複率很高,而低表達基因的或許有着最小的重複率。由此RNA-seq面臨着一個挑戰,該技術中大部分重複可能是高表達轉錄本帶來的真實信號,而另一些則是由於擴增和測序偏好性造成的。Single-end sequencing
單端測序 (SE):只測序cDNA片段的一端,因其費用低,常用於只關注差異基因表達的項目中。(NGS基礎 - 高通量測序原理)Paired-end sequencing
雙端測序 (PE):cDNA片段兩端分別測序,可以測序到cDNA的更多鹼基,更好的識別剪接位點,常於差異基因表達分析項目。- 生物學重複:對生物來源不同的樣本的多次檢測,比如來自三個個體的組織,用於捕獲生物個體自身的變化;這個變化要麼是待研究的對象,要麼是噪音。相較之下,技術重複是對同樣的樣本做重複的操作—比如,對一個組織做三次處理。
Expression matrix
表達矩陣:差異表達RNA-seq項目的核心數據文件。每一行代表一個RNA,比如基因或者轉錄本。每一列是一個測序的樣本。矩陣中的數值是每個RNA的reads數。這些可能是對轉錄異構體的計數估計,並通常在後續的分析前先進行標準化轉化。Spike-in control
內參:按特定濃度添加到樣品中的外源核酸庫。它們通常是預先合成的不同濃度的RNA,用於監測反應效率和技術方法的偏差和假陰性結果。Spatialomics
空間轉錄組學:能保留給定樣本(通常是組織切片)中每個轉錄本的空間信息的轉錄組分析方法。Nascent RNA
新生RNA:剛剛轉錄出來的RNA,與已經加工並運輸到細胞質的RNA相對應。Translatome
翻譯組:細胞、組織或生物體中正在翻譯成蛋白質的mRNA集合。Structurome
結構組:細胞、組織或生物體中RNA的二級和三級結構集合。Interactome
互作組:細胞、組織和生物體中分子相互作用的集合,包括有RNA-RNA或者RNA-蛋白質的相互作用。Differential gene expression (DGE)
差異基因:兩個實驗組中表達顯著變化的基因。