原创 scRNA數據分析處理流程

1.cellranger 數據拆分 2.cellranger 數據統計 3.下游分析(標準化) 4.細胞聚類 5.全自動細胞類型註釋 6.僞時間分析

原创 宏基因組分析流程

1.md5sum+trimmomatic md5sum SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz java -jar /data/XXXXX/software/software/Tr

原创 miR數據分析處理流程

1.rename方便後續處理。 2.trim_galore去接頭。 #這個軟件使用之前要先安裝fastqc和cutadapt ls -d OV*|while read OV; do echo $OV; trim_galore -q

原创 轉錄組分析處理流程

1.fastqc 2.STAR ##build_index STAR --runThreadN 9 --runMode genomeGenerate \ --genomeDir /data/XXXXX/bio/task_LE-mi

原创 kaggle

kaggle(以下選擇性用R/python來完成) 先做點playground。 1st:Predict Future Sales(R) https://www.kaggle.com/c/competitive-data-s

原创 WGS數據分析處理流程

1.拿到數據後先檢查數據是否完整。用md5sum命令。 #生成md5文件 ls KPGP*| while read KPGP; do echo $KPGP;md5sum ${KPGP} >> ${KPGP}.md5; done #檢

原创 TCGA樣本編號

TCGA樣本編號爲:TCGA - A6 - 6650 - 01A - 11R - 1774 - 07 詳解: TCGA:Project 項目名稱 A6:TSS 組織來源代碼 6650:Participant 科研參與者 01A:

原创 ROC曲線概略

作用 1.查出任意邊界值對疾病識別能力 2.選擇最佳診斷界限值,越靠近左上角,accurary越高 3.進行比較,AUC越大,效果越好 AUC AUC 效果 AUC>0.9 較高準確性 0.7<AUC<0.9 有一定

原创 離羣值的處理

離羣值的產生 1.總體固有 2.由實驗,觀測等產生 離羣值的處理 保留,修正,剔除,替補… 檢驗方法的選擇 1.限定檢出個數<=1時: n method n<31 Grubbs法 n>30 正態,偏度-峯度檢驗

原创 關於自由度

我們做統計的時候常會用到自由度,那麼怎樣才能更好的理解自由度呢。 自由度,從定義來看,是在計算某一統計量時,取值不受限制的變量個數。即df = n(樣本量) - k(被限制條件/變量個數)。 舉個簡單的栗子。 在估算總體均值時,由於樣

原创 NGS測序二三事

NGS測序的二三事常見誤區一些計算duplication reads清洗數據後RPM的計算 常見誤區 在測序時,我們需要將DNA打斷成fragment,構建library。這些fragment需要接上adaptor再擴增。illumi

原创 linux,R,python中常用命令(持續更新)

linux ssh cp mv ls cat grep chmod which head less find ps top nohup … & jobs vi … dir() setwd() make cat *.sql > merg

原创 關於p-value

p-value的六大原則 1. p值可以指示數據與給定模型的不相容程度 我們基於一系列的假設建立的模型爲原假設,同時我們還會建設零假設,即指某種我們想要檢測的效應不存在,例如兩組無差,或者某個因子與結果無關。p值越小,說明數據與零假設