原创 生物信息學習網站參考

1.教學網站或博客類 1.1 Python學習相關:廖雪峯的官方網站、菜鳥教程-Python 1.2 Perl學習相關:菜鳥教程-Perl 1.3 R學習相關:菜鳥教程-R 1.4 Linux學習相關:菜鳥教程-Linux 1.5 生信

原创 Linux服務器硬件情況的查看

對於服務器配置的大概情況 一、首先是偏硬件的說明 1、首先是對於CPU的說明 服務器CPU性能參數主要信息可以通過查看/proc/cpuinfo獲得。具體查看指令及效果如下: (base) qianwj@ubuntu-NF5280M5:~/

原创 利用guppy進行basecalling guppy介紹

目前,絕大部分的生物信息分析是從原始測序的fastq格式文件開始的。而nanopore可以保存爲fast5格式,MinKNOW軟件是可以直接進行basecalling輸出fastq格式文件的。但是這個過程比較耗時,如果使用MiniION,

原创 Linux文本三劍客之----grep的使用

awk、grep、sed是linux操作文本的三大利器,合稱文本三劍客,也是必須掌握的linux命令之一。三者的功能都是處理文本,但側重點各不相同,其中屬awk功能最強大,但也最複雜。grep更適合單純的查找或匹配文本,sed更適合編輯匹配

原创 Linux文本編輯三劍客之---awk的使用

1、awk 1.1 認識awk awk是一種編程語言,用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入(stdin)、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是linux/u

原创 Linux文本處理三劍客之--- sed的使用教程 sed

sed 3.1 認識sed sed 是一種流編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩衝區中,稱爲“模式空間”(patternspace ),接着用sed 命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。

原创 AWK的使用簡介 awk命令的使用

awk命令的使用 awk 是一種編程語言,用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入(stdin)、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是linux/unix下的一

原创 GATK使用流程簡介

1. 軟件介紹 GATK 是 Genome Analysis ToolKit 的縮寫,是一款從高通量測序數據中分析變異信息的軟件,是目前最主流的snp calling 軟件之一。GATK 設計之初是用於分析人類的全外顯子和全基因組數據,隨着

原创 SGE作業調度系統

1. 作業調度系統概述 Sun網格引擎(Sun Grid, SGE)是一種來自於 SUN Microsystem的分佈式資源管理和調度系統,它用來在基於UNIX的計算環境中優化軟件和硬件資源的使用。 爲了有效利用集羣系統計算能力,合理分配計

原创 【R】字符型數據及處理

字符型向量 字符型向量是元素爲字符串的向量。 如 > s1 <- c('abc', '', 'a cat', NA, '李明') 注意空字符串並不能自動認爲是缺失值, 字符型的缺失值仍用NA表示。 paste()函數 針對字符型數據最常用

原创 【R】向量下標和子集

正整數下標 對向量x, 在後面加方括號和下標可以訪問向量的元素和子集。 設x <- c(1, 4, 6.25)。 x[2]取出第二個元素; x[2] <- 99修改第二個元素。 x[c(1,3)]取出第1、3號元素; x[c(1,3)] <

原创 【R】數值型向量及運算

數值型向量 向量是將若干個基礎類型相同的值存儲在一起, 各個元素可以按序號訪問。 如果將若干個數值存儲在一起可以用序號訪問, 就叫做一個數值型向量。 用c()函數把多個元素或向量組合成一個向量。如 > marks <- c(10, 6, 4

原创 【R】數據類型及性質

存儲模式與基本類型 R的變量可以存儲多種不同的數據類型, 可以用typeof()函數來返回一個變量或表達式的類型。比如 > typeof(1:3) ## [1] "integer" > typeof(c(1,2,3)) ## [1] "d

原创 3、RNAseq(3)--對RNAseq測序數據的質量控制(fastqc)

質量彙報生成與讀取 fastq質量彙報 使用命令fastqc -o <output dir> <seqfile1,seqfile2..>來進行質量報告。 # 下載fastqc工具包 $ wget https://www.bioinforma

原创 6、無重複差異基因分析(edgeR包的使用)

1)簡介 edgeR作用對象是count文件,rows 代表基因,行代表文庫,count代表的是比對到每個基因的reads數目。它主要關注的是差異表達分析,而不是定量基因表達水平。 edgeR works on a table of int