原创 [genefuse] 生成genefuse 的fusion.csv文件

最近分析一批panel測序數據,Panel中包含一些針對Fusion的捕獲探針,使用delly等call SV的軟件效果並不好。所以嘗試使用genefuse這個軟件。 genefuse這個軟件是根據一些先驗的可能形成Fusion的基因對,

原创 使用preseq計算文庫複雜度以及估計加測量

在評估下機數據的時候,如果發現數據去重複之後無法達到目標覆蓋度,那麼就需要進一步加測。然而,有些文庫複雜度很低,即使加測很多數據也無法得到更多的有效信息。那麼如何評估文庫複雜度,判斷是否有加測的必要呢? 使用preseq軟件可以實現根據現

原创 解析 pumbed的xml

meta分析中需要調研大量文獻,  pubmed數據庫是主要來源, 但是pubmed 導出的文本文件,可讀性非常差,並且考慮到需要對文獻進行篩選和標記,xlsx是個很好的選擇. 下面代碼是把 xml 轉化爲 xlsx   #!/usr/

原创 BWT 算法和序列比對的基本實現

昨天晚上和今天抽空實現了Burrows Wheleer Tansform,並且嘗試利用BWT,將短序列比對到長序列中。BWT的核心我覺得是要理解兩個原則: 1. F序列的每個元素是下標對應的L元素的後一位。 2. 排序後,F中第一個A和L

原创 R 常見錯誤和處理方法

安裝R包報錯: 1) grab failed: window not viewable. Error in structure(.External(.C_dotTclObjv, objv), class = "tclObj") :  [t

原创 [轉載] 使用rsync 替代scp 實現斷點續傳

 使用rsync 作爲scp 的替代實現斷點續傳 主機A傳送文件夾TestDB到主機B rsync -rP --rsh=ssh /home/oracle/TestDB/ [email protected]:/home/oracle/

原创 tidyverse 常見錯誤處理

1) spread() Error: Each row of output must be identified by a unique combination of keys. 遇到上述錯誤的時候,原因是錯誤的指定了參數。spread(

原创 Git 使用以及常見問題處理

Git 使用:   基本概念 [此圖源於互聯網][此圖源於互聯網] 使用Git之前需要有幾個基本概念 三棵樹, 也就是根據時間線串起來的三個標籤區.   history 是我們保存一個完整的一些列修改的地方,可以認爲是最終的倉庫. ind

原创 ld 動態鏈接庫配置

一、ldconfig ldconfig是一個動態鏈接庫管理命令,爲了讓動態鏈接庫爲系統所共享,還需運行動態鏈接庫的管理命令--ldconfig。 ldconfig 命令的用途,主要是在默認搜尋目錄(/lib和/usr/lib)以及動態庫配