原创 S1: Variance Standard Deviation Covariance

學習一下方差(variance),標準差(StandardDeviation),協方差(Covariance),協方差矩陣(Covariance Matrix) 1、方差 Variance 方差是各個數據與平均數之差的平方的平均數

原创 M4: Naive Bayes

樸素貝葉斯分類法 Navie Bayes: 1、相關基礎概念 首先,先來看看幾個基礎定義: 聯合概率:表示兩個事件共同發生的概率。比如A與B的聯合概率表示爲P(A,B)(或者P(A∩B)) 邊緣概率(又稱先驗概率):邊緣

原创 Distribution of Discrete Random Variables

離散型隨機變量分佈:伯努利分佈;二項分佈;泊松分佈;多項分佈。 0、基本概念 概率質量函數 pmf Probability mass function 概率質量函數是離散隨機變量在各特定取值上的概率。圖片如下: 橫座標是離散型

原创 Probability Distribution

概率分佈也是我們說的隨機變量分佈,他有兩種分類的方式: 連續和離散 根據可能得到的結果類型來進行分類: 離散型 discrete probability distribution 如果得到的結果是離散的,比如投硬幣或者擲骰子

原创 表達量 RPKM FPKM TPM

關於表達量問題: 假設我們通過比對,得到了A、B、C、D四種基因的reads覆蓋數目。 通過這個數據,我們看不出來同一個樣本,哪個基因表達量更高,也看不出來同一個基因,哪個樣本表達量更高,原因有二: 不同基因在同一個樣本中,基因

原创 P and NP

摘錄的學習筆記 時間複雜度 多項式複雜度:O(1),O(log(n)),O(na)O(1),O(log(n)),O(n^a)O(1),O(log(n)),O(na) 非多項式複雜度:O(an)和O(n!)O(a^n)和O(n!)O(a

原创 python matplotlib bar

條形圖: 使用python matplotlib 庫來實現: 生成隨機數據模擬畫圖,實際柱狀圖可能代表一組的情況,這時候柱子高度表示平均值,還會加上誤差線 import numpy as np import matplotlib.py

原创 T1: t Test

t 檢驗又叫student t檢驗(Student’s t test),主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分佈。t檢驗是參數檢驗的一種。 參數檢驗:總體分佈已知的情況下(可以是給定,也可以是假定),根據樣本

原创 D:Probability Distribution

概率分佈也是我們說的隨機變量分佈,他有兩種分類的方式: 連續和離散 根據可能得到的結果類型來進行分類: 離散型 discrete probability distribution 如果得到的結果是離散的,比如投硬幣或者擲骰子結構

原创 D1: Distribution of Discrete Random Variables

離散型隨機變量分佈:伯努利分佈;二項分佈;泊松分佈;多項分佈。 0、基本概念 概率質量函數 pmf probability mass function 概率質量函數是離散隨機變量在各特定取值上的概率。圖片如下: 橫座標是離散型隨機

原创 python: IndexError: list assignment index out of range

python處理數組的時候,報錯:IndexError: list assignment index out of range 有兩種原因: 定義的數組邊界過小,真的是出界了; 定義的空數組按照下標賦值就會報錯; s = list

原创 M3: Logistic Regression

邏輯迴歸雖然名字帶有迴歸,但它是一種分類算法,當然和線性迴歸一樣,邏輯迴歸會有迴歸係數,也有迴歸方程。 Logistic Regression和Linear Regression的原理是相似的,可以簡單的描述爲這樣的過程: (1)找

原创 M2:Linear Regression Study Note

寫在前面:本文只是我自己的學習筆記,很多我認爲基礎的東西就不寫了,當然很多高深的東西,我還不會也沒辦法寫。很多詞彙也沒用標準的定義,不是我不知道標準定義是什麼,而是我覺得那些翻譯的詞彙晦澀難懂,還是用通俗語言寫出來更好! 0、算法

原创 Notebook Contents

  所有筆記的目錄,當然我認爲寫博客的目的是爲了分享和交流,可是自己是非數學專業出身,現在是學習、理解知識的階段,所以寫出來的第一部分是學習筆記,希望經過長久的學習和實戰,可以把這些知識重新整合,加上自己的見解寫出來第二部分的筆記。

原创 S2: Correlation Coefficient and R-Squared

  評價線性迴歸方程擬合的情況,一般有兩個參數,一個是R2R^2R2,另一個是皮爾森相關係數(Pearson Correlation Coefficient)。說到皮爾森,就不得不想起來斯皮爾曼相關係數(Spearman Correl