原创 序列比對(18)重複匹配問題的補充說明

前文介紹了重複匹配問題的動態規劃算法,但是遺留了重複結果輸出的問題。本文對該問題進行了補充說明。 (公衆號:生信了) 前文《序列匹配(五)——重複匹配問題的動態規劃算法》介紹了重複匹配問題的動態規劃算法。重複匹配問題就是從序列

原创 R-概率統計與模擬(三)變換均勻分佈對特定分佈進行抽樣

本文介紹瞭如何變換均勻分佈以便對特定分佈進行抽樣。 如果你要進行隨機抽樣,R語言提供了諸多現成的函數供你使用,比如: runif: 均勻分佈抽樣 rbinom: 二項分佈抽樣 rpois: 泊松分佈

原创 序列比對(20)基序發現問題的算法及實現代碼

前文介紹了基序發現問題和中間字符串問題,本文給出了基序發現問題的具體算法和實現代碼。 基序發現問題的簡單算法及僞代碼 前文《序列比對(19)基序發現和中間字符串問題》介紹了基序發現問題和中間字符串問題,本文將介紹基序發現問題的

原创 Python+selenium自動下載xml或exe文件

本文介紹了用 Python + selenium 的方式從網絡上自動下載 xml/exe 文件。 筆者最近在寫一個小工具,需要從pubmed上批量下載包含文獻信息的xml文件。很明顯,這是一個爬蟲任務,筆者選用了python+

原创 R語言近期記錄(201911)

本文是筆者近期使用R語言的一個簡單記錄。 本文包括以下五個小節: ggplot2 手動調整線條顏色 ggplot2 修改座標軸 ggplot2 組合圖形 ggplot2 多圖 dplyr包中 filter 函數的一個坑 g

原创 生信(11)htslib處理bam或sam文件的簡單示例

本文給出了一個示例,介紹如何使用htslib編寫c程序來處理bam/sam文件。 (本文寫於2020年初,隨着將來htslib和samtools庫的更新,本文部分內容可能會不適用,請讀者注意官網的更新動態。) 我們通常會使用s

原创 生信(九)生信代碼中的位操作

本文介紹了生信代碼中用到的一些位操作。 我們知道,0和1構成的二進制充斥着計算機語言的世界。一般來說,我們對二進制可以操作的最小單位就是一個bit(位)了,一個bit要麼是0,要麼是1。在編寫代碼的過程中,如果我們能瞭解一點位

原创 R-概率統計與模擬

本文記錄了三個概率統計相關的小題目,以回顧一些概率統計的知識。 (公衆號:生信了) 正如筆者在前文《公衆號一歲啦》中所說,近期在複習概率統計相關的知識。機緣巧合,筆者遇到了幾個比較有意思的題目,和朋友們分享一下: 這幾個題目都

原创 (轉載)算法四:KMP算法

關鍵詞:KMP; string; match; 字符串匹配是一個既古老又現代的問題,歷久彌新。生信領域中字符串處理更是daily work。諸如bwa這般神一樣的軟件,本質上也是在解決字符串非精準匹配的問題。所以,從本文開始,我們

原创 R-概率統計與模擬(二)

本文繼續介紹一些和概率統計相關的模擬。 (公衆號:生信了) 前文《R-概率統計與模擬》介紹了一些用 R 進行概率模擬的實驗,本文繼續上次的工作,並在此過程中回顧一些相關的概率統計知識。 一共五題: 對pi值的估計(蒙特卡洛模

原创 序列比對(21)中間字符串問題的算法及實現代碼

前文介紹了基序發現問題和中間字符串問題。本文給出了中間字符串的算法和實現代碼。 中間字符串問題的簡單算法及僞代碼 前文《序列比對(19)基序發現和中間字符串問題》介紹了基序發現問題和中間字符串問題;《序列比對(20)基序發現問

原创 序列比對(26)精準匹配之KMP算法、Trie樹以及AC自動機

前文已經介紹過KMP算法和Trie樹,本文將在此基礎上介紹AC自動機。 (公衆號:生信了) 之前的序列比對文章大都在利用動態規劃算法解決字符串的非精準匹配(允許錯配、插入和缺失),比如全局比對和局部比對問題。當然,後來我們還介

原创 R-概率統計與模擬(四)拒絕抽樣

本文介紹了拒絕抽樣(Reject Sampling)。 前文《R-概率統計與模擬(三)變換均勻分佈對特定分佈進行抽樣》介紹了通過“變換均勻分佈”來對特定分佈進行抽樣的方法,但是該方法需要知道累積分佈的解析表達式及其反函數,所以

原创 用R畫帶ErrorBar的分組條形圖

用R畫帶ErrorBar的分組條形圖 本文介紹瞭如何用R畫出帶error bar的分組條形圖。 筆者近期畫了一張帶error bar的分組條形圖,將相關的代碼分享一下。 感謝知乎網友青山屋主的建議,提示筆者要嚴謹區分技術重複和生物學重

原创 R語言作圖——Pie chart(餅圖)

原創:黃小仙 今天要給大家介紹的Pie chart(餅圖),本來是不打算寫這個的,因爲用Excel畫餅圖實在是太方便了。本着能少動一下是一下的懶人原則,是不打算用R畫的,再說,本小仙不是掌握了R作圖大器ggplot2麼,實在需要用