原创 基因芯片(Affymetrix)分析3:獲取差異表達基因

芯片質量分析芯片數據預處理獲取差異表達基因GO和KEGG分析聚類分析 (本文於2013.09.04更新) “差異”是個統計學概念,獲取差異表達基因就要用統計方法,R的統計功能很強大,適合做這樣的事情。 用前面的方法讀取數據: li

原创 用R和BioConductor進行基因芯片數據分析(三):計算median

我們已經知道要分析的數據對每個基因有3個重複測定值,經過缺失值填充後,每個基因都有3個可用值。 這一步很簡單,就是取這3個值的中位數,即median。 方法很多,在excel中可以用median函數; 在R中以下代碼進行操作:

原创 馬爾可夫入門概念

爲了清楚整理馬爾可夫相關概念,做了下筆記,首先拋出一些概念: 1 【馬爾可夫性質  馬爾可夫過程  馬爾可夫鏈】概念:其未來由現在決定的程度,使得我們關於過去的知識絲毫不影響這種決定性。這種在已知“現在”的條件下,“未來”與“過去”彼

原创 R語言編程入門--replicate()函數比較有意思!

I. 導論 簡單來講,編程是藉助計算機來解決某個問題。學習編程的就是訓練我們解決問題的能力。有這樣一種說法:在未來,不會編程的人即是文盲。 1 爲什麼要學習R編程 大部分情況下解決某些問題還需要依賴一些事實或數據,結合數據

原创 R入門

基礎 ls()顯示內存中的對象 rm()刪除內存中對象,rm(list=ls())刪除全部 ?lm顯示幫助 help(lm)幫助 getwd()獲取當前工作目錄 setwd("C:/data")改變工作目錄 從外部文件中讀

原创 R語言學習筆記(2):數據類型和數據結構

R中的數據結構主要面向《線性代數》中的一些概念,如向量、矩陣等。值得注意的是,R中其實沒有簡單數據(數值型、邏輯型、字符型等),對於簡單類型會自動看做長度爲1的向量。比如: > b=5 > length(b) [1] 1 > typeo

原创 用R和BioConductor進行基因芯片數據分析(四):芯片內歸一化

歸一化是從normalization翻譯過來的。歸一化的目的是使各次/組測量或各種實驗條件下的測量可以相互比較,消除測量間的非實驗差異。非實驗差異可能來源於樣品製備,點樣,雜交過程,雜交信號處理等。 歸一化的方法有很多,對於寡聚核苷酸

原创 數據挖掘的R包和函數的集合

數據挖掘的R包和函數的集合 1、聚類 常用的包: fpc,cluster,pvclust,mclust 基於劃分的方法: kmeans, pam, pamk, clara 基於層次的方法: hclust, pvclust,

原创 用R和BioConductor進行基因芯片數據分析(五):芯片間歸一化

上次進行了芯片內的歸一化,但是我們的數據來自於10張芯片,爲了讓這10張芯片之間有可比性,需要進行芯片間歸一化。 具體原理就不介紹了。 這裏用到Bioconductor的一個package,叫做limma,以及其中的函數normal

原创 偏相關係數

在多元相關分析中,簡單相關係數可能不能夠真實的反映出變量X和Y之間的相關性,因爲變量之間的關係很複雜,它們可能受到不止一個變量的影響。這個時候偏相關係數是一個更好的選擇。偏相關係數是在排除了其他變量的影響下計算變量間的相關係數。假設我們需

原创 R語言進階之3:數據彙總/透視/提煉

一、行列求和、平均值和頻度 rowSums, colSums, rowMeans, colMeans 可以簡單理解爲按行或列求和或求均值,table把數字或字符當成因子統計頻度,都相當簡單: > a <- array(rep(1:3

原创 基因芯片(Affymetrix)分析2:芯片數據預處理

芯片質量分析芯片數據預處理獲取差異表達基因GO和KEGG分析聚類分析 (本文於2013.09.04更新) 基因芯片技術的特點是使用寡聚核苷酸探針檢測基因。前一節使用ReadAffy函數讀取CEL文件獲得的數據是探針水平的(pr

原创 [轉載]蛋白質相互作用數據庫

去,來,最終還是到蛋白質! PPI :protein-protein interaction  1. DIP (database of interacting proteins)     http://dip.doe-mbi.uc

原创 用R和BioConductor進行基因芯片數據分析(六):差異表達基因

經過一系列的預處理,包括缺失值填充,中位數計算以及歸一化,我們的數據終於可以用啦。 下面我們就來分析一下new population和old population的個體是否有差異表達基因。 判斷一個基因是否差異表達有許多方法,最早使

原创 基因芯片篩選差異表達基因方法比較

摘要: 基因芯片篩選差異表達基因方法比較單文娟, 童春發, 施季森 摘要: 使用計算機模擬數據和真實的芯片數據, 對8 種篩選差異表達基因的方法進行了比較分析, 旨在比較不同方法對基因芯片數據的篩選效果。模擬數據分析表 ...