原创 R | 繪製箱線圖

箱線圖是能同時反映數據統計量和整體分佈展示圖,Boxplot從下到上展示的是最小值,第一四分位數 (箱子的下邊線)、中位數 (箱子中間的線)、第三四分位數 (箱子上邊線)、最大值。 數據來源 :CRA_jobs.txt(通過爬蟲獲

原创 R | scale()函數標準化

標準化 (Standardization) scale函數標準化處理原理是計算每組的平均值和標準差,再將組內各個數值與其平均值的差,與其標準差的比值,作爲該數值在組內的相對數值。(考慮均值和離散程度) 歸一化(Normalizat

原创 R | 包記錄

library(rvest) library(magrittr) library(dplyr) library(tidyr) … magrittr包 : 通過管道的方式讓連續複雜數據的處理操作,代碼更短,更容易讀,甚至一行代碼可以

原创 R | 爬獵聘網職位酬薪

library(rvest) library(magrittr) library(dplyr) library(tidyr) ### 單頁抓取數據 get_job_on_page <- function(url){ ##1、通

原创 生信 | cd-hit

下載:http://www.bioinformatics.org/cd-hit/ 背景:生信分析中經常要根據指定條件查找相似序列,比如構建多個樣品間的非冗餘基因集、分析樣品間的相似程度。 cd-hit 去冗餘,也可以叫做相似序列的聚類 工

原创 生信 | megahit 序列拼接

MEGAHIT MEGAHIT is a single node assembler for large and complex metagenomics NGS reads, such as soil. Compare to SOAPd

原创 R | F檢驗

F檢驗(方差齊性檢驗): 主要通過比較兩組數據的方差,以確定他們的密度是否有顯著性差異(判斷兩總體方差是否相等,就可以用F檢驗)。 F檢驗的前提: 數據滿足正態分佈,使用Shapiro-Will進行正態分佈檢驗 # 正態分佈檢驗

原创 R | failed to load cairo DLL

系統 :mac os 軟件 :R-studio 報錯信息 :failed to load cairo DLL 、package or namespace load failed for 'Cairo'  解決方法:Mac OS X 在

原创 R數據管理

原文鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651056179&idx=1&sn=aed8f5cf51cd1d835a56

原创 R數據處理——data.table

data.table包是一個超高性能數據處理包 附上鍊接以便後續查閱 R數據處理|data.table篇(一) data.table提取等功能總結 data.table計算、分組計算(多列分組計算) data.table的mer

原创 R數據處理_基礎

強烈推薦公衆號 “表哥有話講” 以下是 “R語言” (來自:https://mp.weixin.qq.com/s/hLF21F29dFIPj-pJabcNWQ)相關的學習知識(受益良多)   (R語言)主要的大數據處理包可以分爲 Had

原创 繪製帶誤差線的bar圖

繪製帶誤差線的bar圖 利用ggplot2 數據格式轉換並做統計計算 繪製圖形 ## 模擬 ## 導入包 library(ggplot2) library(reshape2) library(RColorBrewer) ##

原创 ANNOVAR的使用

ANNOVAR的使用: https://www.jianshu.com/p/95331e7a98cd   Gene-based annotation 顧名思義,Gene-based annotation是根據SNPs以及CNVs的位置

原创 python源代碼文件加密

python 程序代碼加密 1.python代碼文件進行轉換, cython myscript.py --embed #把python代碼轉換成c代碼 2.生成後綴爲 .c的c語言的源文件, gcc編譯成二進制可執行文件: gcc

原创 ROC曲線理解以及實踐

概念 ROC曲線,也稱受試者工作特徵曲線,感受性曲線; ROC曲線最初運用於軍事上,當前ROC曲線在醫學領域有着廣泛的使用。醫學上更多稱爲“陽性”(比如敵機)或“陰性”(比如飛鳥),對應着X軸即1-特異性也稱爲假陽性率(誤報率),