算法導論
1.
Data analysis
涉及統計學的一些基本概念:
2.生成學習、判別學習、貝葉斯推斷、點估計的方法、近似(拉普拉斯近似、<局部>變分近似、因子分解)
3.時域:單變量時間序列、平穩自迴歸模型的估計、自迴歸模型的層次、AR MA ARMA 模型
4.空域:地理統計學(variogram,kriging)、空域自迴歸模型(lattice process)、時空域模型(variogram,kriging,autoregreesive)
數字圖像處理
1.數字圖像基礎
2.圖像增強
3.圖像壓縮與復原
4.數學形態學圖像處理
5.數字圖像分割
6.數字圖像配準
Image registration methods: a survey
數字信號處理
考試主要內容:
1.判斷線性時不變系統&得到h(n)的兩種操作(乘積、卷積:時域、頻域卷積定理;驗證;時域補0、頻域插值;實驗)
2.FFT變換看信號/系統,頻譜(幅度譜、相位譜)分析:判斷干擾、諧波(頻譜分析原理:一個信號的全部信息包含在它的頻譜的模和相位中)
補:頻譜泄露
3.濾波器的設計
上課內容:
準備:各種頻率(角頻率、歸一化頻率、採樣頻率、頻率分辨率);截止頻率(-3dB,半功率點);採樣率、位深度、通道數;量化誤差(QE)、SD(標準均方差)、SE(標準誤差);採樣頻率與採樣點數
如果做了16個點的FFT分析,你原來的模擬信號的最高頻率f=32kHz,採樣頻率是64kHz,n的範圍是0,1,2...15。這時,64kHz的模擬頻率被分成了16分,每一份是4kHz,這個叫頻率分辨率。那麼在橫座標中,n=1時對應的f是4kHz, n=2對應的是8kHz, n=15時對應的是60kHz,你的頻譜是關於n=8對稱的。你只需要關心n=0到7以內的頻譜就足夠了,因爲,原來信號的最高模擬頻率是32kHz。
你64kHz做了16個點FFT之後,因爲頻率分辨率是4kHz,如果原來的信號在5kHz或者63kHz有分量,你在頻譜上是看不見的,這就表示你越想頻譜畫得逼真,就必須取越多的點數來做FFT,n就越大,你在時域上就必須取更長的信號樣本來做分析。但是無論如何,由於離散採樣的原理,你不可能完全準確地畫出原來連續時間信號的真實頻譜,只能無限接近(就是n無限大的時候),這個就叫做頻率泄露。在採樣頻率fs不變得情況下,頻率泄漏可以通過取更多的點來改善,也可以通過做FFT前加窗來改善,這就是另外一個話題了。
抽取和內插的實質是採樣率fs的變化 抽取之後的頻率展寬了n倍,內插之後的頻率壓縮了n倍,從而需要在變採樣率之後添加抗混疊濾波器。
1.ADC&DAC
AD轉換器的參數介紹(分辨率、參考電壓、步進量LSB)
2.進制的表示、原碼反碼(1s補碼)補碼(2s)
3.線性系統與卷積
擴展:
線路中非線性元件的使用會產生諧波:
(1)電壓是正弦波形,作用在非線性元件上,由於元件非線性,電流就不會隨電壓同步變化,產生的電流不可能是正弦波形,不是正弦波的都歸爲諧波,所以線路中非線性元件的使用會產生諧波。
(2)在理想的電力系統中電流和電壓都是純粹的正弦波。當電流流過與所加電壓不呈線性關係的負荷時就形成非正弦電流。非線性元件與所加電壓不呈線性關係,導致諧波的出現。
(3)對歐姆定律不適用的導體和器件即電流和電壓不成正比的電學元件叫做非線性元件。非線性元件是一種通過它的電流與加在它兩端電壓不成正比的電工材料,即它的阻值隨外界情況的變化而改變。
(4)諧波是一個數學或物理學概念,是指週期函數或週期性的波形中能用常數、與原函數的最小正週期相同的正弦函數和餘弦函數的線性組合表達的部分。從嚴格的意義來講,諧波是指電流中所含有的頻率爲基波的整數倍的電量,一般是指對週期性的非正弦電量進行傅里葉級數分解,其餘大於基波頻率的電流產生的電量。
(5)從廣義上講,由於交流電網有效分量爲工頻單一頻率,因此任何與工頻頻率不同的成分都可以稱之爲諧波,這時“諧波”這個詞的意義已經變得與原意有些不符。正是因爲廣義的諧波概念,纔有了“分數諧波”、“間諧波”、“次諧波”等等說法。諧波產生的原因主要有:由於正弦電壓加壓於非線性負載,基波電流發生畸變產生諧波。主要非線性負載有UPS、開關電源、整流器、變頻器、逆變器等。
4.離散傅里葉變換、FFT
深入淺出的講解傅里葉變換(真正的通俗易懂)關於這篇科普文章的疑問
5.濾波器
數字濾波器與模擬濾波器(有源、無源。ex:抗混疊濾波器)、FIR與IIR的區別(單位脈衝響應是一個有限長序列,這種系統稱爲“有限長單位脈衝響應系統”,簡寫爲FIR系統。相應地,當單位脈衝響應長度無限時,則稱爲“無限長單位脈衝響應系統”, 簡寫爲IIR系統。)
評價濾波器的幾個指標(時域、頻域):通帶看紋波,阻帶看衰減,過渡帶看roll-off
獲得濾波器h(n)的幾個步驟(IDFF、Cut、Window、Shift)
補充:
時域跳變——加窗
自相關函數、功率譜與白噪聲:白色噪聲就是指在整個頻譜上幅值是平坦的隨機信號,經過選頻濾波器(低通、高通、帶通、帶阻)後均變成了有色噪聲,即頻域能量主要集中在一定頻段,不會是白色噪聲:Matlab 產生白噪聲和有色噪聲序列
自適應局部噪聲,一種改進的自適應局部噪聲消除濾波算法-自適應濾波器
應用:獨立分量ICA分析(雞尾酒會問題)
生物醫學信息
1.數據統計
分位數、極差、偏度、峯度
從頻次統計到概率統計
(1)常見概率分佈
離散型概率分佈:伯努利、二項、幾何、超幾何、泊松、指數
連續型概率分佈:正態分佈、對數正態分佈、卡方分佈(正態分佈的平方和)
(2)顯著性與假設檢驗
準備:置信區間與置信水平
平均數差異顯著性檢驗理論(假設兩個總體的方差總是相同):z檢驗、t檢驗
兩個總體的方差是否有顯著性差異:F檢驗(平均數差異顯著性檢驗理論的前提)
樣本方差與與總體方差是否有顯著性差異:卡方檢驗
無分佈函數的情況下測試兩個分佈的等同性:Kolmogorov-Sirmnov Test
相關性檢驗 Pearson correlation(需要對相關係數做顯著性檢驗)
(3)假髮現與控制
(a)研究變量越多,假髮現的數量越大
(b)p值越小的變量,假髮現的概率越小
(4)多元迴歸模型
辛普森悖論(單變量分析的侷限)
多變量分析:線性迴歸、最小二乘迴歸、嶺迴歸、LASSO、邏輯斯諦迴歸
(5)生存分析模型
被觀察對象會在何時發生某個事件的問題。傳統的線性分析並不能夠很好的解決生存分析問題。
非參數模型、參數模型
生存分析:
幾種常見的統計偏倚:羅傑斯偏倚、伯克森偏倚、紐曼(Neyman)偏倚、檢出信號偏倚、無應答偏倚
2.生物醫學信息的機器學習技術
監督學習(分類、迴歸)、無監督學習(聚類、異常檢測)
準備:相似性度量
(1)聚類
層次聚類 (Hierarchical Clustering)、K均值聚類、基於分佈/密度的聚類、譜聚類、雙聚類
聚類評估法:內部評估法、外部評估法
(2)高維特徵選擇
準備:卡方檢驗(比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析)
用於特徵選擇:以“特徵與類別不相關”作爲原假設,對每個特徵計算卡方值,值越大,說明原假設的偏離越大,我們傾向於認爲原假設的反面情況是正確的。
過濾式(統計方法、距離度量、信息論)、包裹式(窮舉搜索、啓發式搜索、遺傳算法)、嵌入式(L1正則化、決策樹)
補:共空間模式
(3)降維技術(PCA、LDA、NMF)與流形學習(在模型裏包含了對數據的流形假設、LLE&ISOMAP)
(4)分類(K近鄰、樸素貝葉斯、Logistic迴歸、決策樹<特徵選擇、決策樹的生成和決策樹的修剪>、支持向量機)
補充:k-NN與k-means的區別、全概率公式(貝葉斯決策理論的核心思想是選擇具有最高概率的決策。)、梯度上升和梯度下降、隨機森林算法、支持向量機(SVM)從入門到放棄再到掌握
(5)神經網絡與深度學習
神經網絡類型(前饋網絡與BP算法、Hopfield Network、Self-Organization Map (SOM)、Recurrent Neural Netwok)
深度網絡(針對神經網絡存在的若干問題:訓練耗時、局部最優解、隱含層節點數調節——深度信念網絡(Deep Belief Network)、稀疏自編碼深度網絡、深度卷積網絡、Multi-task Learning、Transfer Learning)
(6)生物醫學醫用案例
Clustering Analysis、Hierarchical Clustering、PCA、PCA+LDA、K-mean Clustering、流形學習Manifold Learning (LLE)、等度量映射ISOMAP、No-Free-Lunch Theorem(理解)
3.基因組數據處理與分析
序列比對分析、序列拼接、進化樹分析、Motif發現、可變剪切發現、基因測序結果的量化、數據預處理(右偏態取對數變爲正態分佈,左偏態取相反數轉換爲右偏態)、富集分析、作用關係網絡分析
4.醫學數據處理與分析
生物醫學文本挖掘、心電信號處理與辨識、腦電信號分析、醫學圖像處理與分析、質譜與代謝組數據分析
5.移動醫療、數字健康與大數據
移動醫療的機遇、移動醫療關鍵技術、移動醫療重要應用、數字健康、醫療健康大數據、數字健康的人工智能技術
6.精準醫學與精準健康
藥物基因組學、免疫療法、微生物宏基因組學(微生物與人體健康 宏基因組學:微生物研究的新途徑 宏基因組學關鍵技術 未來趨勢)、循證醫學與大數據研究、精準醫學、精準健康
機器學習
非常好的博客:Deep Learning(深度學習)學習筆記整理系列