論文 用於機器學習中圖像識別的虛擬樣本 算法研究及應用 閱讀心得

文章摘要

這篇文章研究了一種基於特徵層面對虛擬樣本有效性進行評價的基本思路。即利用特徵評價中的“互信息”、“歐式距離”以及最後的總體識別精度作爲對構建虛擬樣本有效性的評價;並針對“重採樣”、“奇異值重構”、“輪廓波重構”三種方法生成的虛擬樣本的有效性進行了實驗驗證和有效性評價,實驗結果表明論文使用的三種虛擬樣本生成算法能實現對原始樣本的有效擴充,並改善識別效果。

文章思路

1.1 介紹虛擬樣本生成技術的背景與應用前景

1.2 虛擬樣本生成技術的國內外研究現狀

1.3 論文主要內容及章節結構

2.1—2.3 介紹基於機器學習的圖像識別算法理論基礎

2.4實驗:降維對算法的有效性分析

實驗目的:證明降維對於識別系統的必要性。
實驗平臺:ORL數據庫,ORL 數據庫中有 40 人的共計 400 幅人臉圖像樣本,每人 10 幅圖像。每幅圖像大小爲 92*112像素。
實驗流程:隨機選擇每人 5 幅作爲訓練樣本,其餘則作爲測試樣本集。 採用上文介紹的 SVM 與 DBN兩種機器學習算法。並通過添加與不添加 PCA 與 LBP 進行特徵提取降維來對比說明採用特徵提取降維的必要性。
實驗中 SVM 中將訓練集整體(或經過 PCA 降維處理)作爲輸入, 選擇 RBF 核函數, 核函數中的 gamma 函數設置值爲 0.35。 DBN 算法中將根據 2.2.4 節給出的對比散度的快速學習算法, DBN 共設置 4 層網絡,將訓練集整體(或經過等價模式 LBP 按 4×4分塊降維處理)作爲DBN 模型第一層 RBM 可見層的輸入,其中的兩個隱層設置層數均爲 100, 迭代次數爲 30,學習率爲 0.001。
實驗結果見下表:
實驗結果圖
由表中數據可以看出,通過降維處理後的 SVM 識別效果較好。而未經降維處理的數據由於維數過大,*每個樣本維數爲 10304 維,遠遠大於訓練集中圖像的數目,出現了過擬合的現象。*最終預測結果將所有 200 個測試樣本分爲了一類, 導致識別率過低。而基於深度學習的 DBN 雖然能有效的挖掘數據集當中的的特徵關係,在未進行降維與特徵提取的前提下仍然取得了較好的分類效果,然而由於維數過於龐大導致了整個識別系統運算效率的急劇下降。從運行時間和識別分類效果兩個方面,都說明了降維與特徵提取步驟的必要性。

點評:

樣本數量稀少,本身就極容易面臨着過擬合問題,在這裏作者用樣本數量和特徵數量的比對,來描述過擬合的程度。如果將圖像識別過程類比爲信息採樣與還原的過程,那麼奈奎斯特採樣頻率是否也適用於圖像識別過程中呢,樣本數量到底是多少纔是合適,這應該與神經網絡的規模息息相關,但是具體的數量關係是什麼呢。
這裏轉自知乎作者的一個相關回到,或許有借鑑意義:

從深度學習系統看,最本質需要考察的是多少樣本可以有效覆蓋問題空間,在這個前提下,才能考慮樣本數量對網絡訓練的影響,否則如果樣本少到不足以覆蓋整個問題空間,那麼系統出現信息缺失,
此時考慮網絡性能意義就失去了。比如如果你僅有一個數據來訓練網絡,那麼系統即使擬合的很好,依然無法泛化到問題空間。如果樣本數據足夠有代表性,可以較好擬合問題數據的分佈,然後我們可以考慮樣本數目和網絡模型體積的關係。網絡結構和配置作爲目標問題的一個表示,其性能會受到網絡結構和訓練數據的雙重影響。所謂足夠的訓練數據,其實就是採樣可以以足夠精度擬合輸入數據分佈以及輸出空間的分佈,這一點顯然是嚴重依賴於問題數據和系統性能要求的,簡單說,依賴於問題本身複雜度,不會有統一的答案。在滿足上述條件的前提下,才能考察訓練數據和模型的匹配與互動問題。如果網絡複雜度足夠覆蓋問題的解,訓練數據足夠體現問題空間的各種分佈,那麼問題就變成輸入樣本的區分度是否和網絡可以提供的區分度匹配的問題,或者說網絡要對不同的樣本信息在網絡中的信息運行模式有區分,如果網絡結構合理,網絡提供的區分度和訓練數據的區分度應該大致相當的。最後,樣本應該是多多益善,合適的數量就是樣本訓練構造的網絡的區分度達到問題要求的時候,就是合適的訓練數據數量。至於從網絡結構的複雜度來估計訓練數據數量,很難,因爲網絡一般是過參數化的且具有相當的隨意性,在網絡配置訓練確立以前,甚至網絡的複雜度都是不容易定義的,至少只看權重的某個範數是不合適的。
作者:匿名用戶
鏈接:https://www.zhihu.com/question/352261733/answer/868941654
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

3.1.1虛擬樣本的相關基礎

3.1.2 評判虛擬樣本的有效性

有效的虛擬樣本即是能夠通過添加虛擬樣本從而提高不同類別樣本之間的區分能力。 對於虛擬樣本的評判準則目前還沒有產生一個公認的標準。
由於大部分機器學習算法都需要對樣本集進行特徵提取以進行進一步的訓練識別工作, 且所提取的特徵分量對於最終的識別性能有着至關重要的影響。
所以在此,本文引入特徵選擇[38]相關概念以評價生成的虛擬樣本的有效性。

這裏查看參考文獻【38】
[38]張靖. 面向高維小樣本數據的分類特徵選擇算法研究[博士學位論文]. 合肥工業大學, 2014

本文從樣本特徵子集的角度建立了一個對於所構建出的虛擬樣本的有效性評價的標準:
1、 虛擬樣本要保留目標的主要特徵成分,同時去除無關的特徵分量。
2、 虛擬樣本相較於原樣本特徵上要有一定的變化,同時不能泛化特徵

這裏是闡述作者建立的指標的原則標準。

對於虛擬樣本的有效性評判的的依據,本文將通過以添加虛擬樣本前後的特徵分量進行評估,以此來說明虛擬樣本的有效性。一般來說對於特徵的評價標準分爲獨立標準以及相關標準。

獨立標準包括:距離、信息、相關性、一致性等等。
相關標準是使用特定分類器對所指定的特徵集分類後的分類精度。本章所選用的是添加虛擬樣本前後訓練集與測試集之間經過 PCA特徵提取的特徵分量所對應的歐氏距離以及其互信息[39]作爲衡量特徵的獨立標準。 同時將結合使用SVM 而得到的分類識別正確率作爲相關標準來評價本文虛擬樣本算法所生成的虛擬樣本的有效性。

簡單來說,這篇文章選擇了兩個標準,一個是歐氏距離標準、另一個是互信息標準,作者用以上兩個標準衡量虛擬樣本的有效性,關鍵在於這塊是直接選擇而非經過嚴格的數學推導與證明。而這也是這篇論文的核心。

虛擬樣本有效性評判流程圖

3.2基於虛擬樣本構建圖像

在這部分,作者介紹了三種獲得虛擬樣本的方法及背後的數學原理,這三種方法包括重採樣法(最近鄰插值、雙線性內插法、雙立方插值法)、基於奇異值重構法構建虛擬圖像、基於輪廓波重建構建虛擬圖像

實驗:添加虛擬樣本後查看對實驗效果的改進

實驗目的:在原始數據中,添加上述三種方法生成的實驗數據,驗證理論的正確性。
實驗平臺:實驗數據集採用公共數據集 ORL 人臉數據庫進行實驗。利用 matlab2016 對原始數據進行生成,採用PCA進行降維型, PCA 選取主成分分量在 90% 以上的部分, SVM 使用 RBF 核函數, 核函數中的gamma 函數值選0.35.
實驗流程:1.1、選擇不同的插值方法,計算準確率,並嘗試通過用自己的理論指標解釋(即歐式距離與互信息);1.2、對比完成;
不同插值方法生產的虛擬圖像
歐式距離與插值方法之間的關係
互信息大小與插值方法
因此,作者選用雙線性插值樣本進行數據擴充。
同理,作者對其他兩種方法也進行了同樣的參數調整,進行相關實驗
奇異值重構
奇異值分佈
不同奇異值重構示例圖
不同奇異值樣本的比較
實驗結果:
實驗結果
實驗結論:

本章介紹了虛擬樣本基本原理,同時討論了基於特徵層面的虛擬樣本評價標準以及評價依 據。介紹了本文所使用的三種虛擬樣本算法的基本概念與思路, 採用虛擬樣本算法可以有效的 擴充訓練集大小,改善識別情況。 通過歐氏距離、互信息以及識別精度實驗詳細討論了幾種虛擬樣本算法具體的參數選取,以保證取得最佳的識別改善效果, 同時將確定參數的虛擬樣本與單純添加數量的原樣本複製、添加噪聲樣本進行對比驗證了本章之前所使用的虛擬樣本有效性 評價準則。
文中使用的虛擬樣本算法在特徵層面上從相關性與獨立性的角度均對其有效性進行了實驗 驗證,由此設計的虛擬樣本算法具有一定的依據性, 可以爲之後有關機器學習方面研究中不同 識別算法提供有效幫助。

點評:

個人認爲這個實驗有個最大的問題是控制變量的問題,站在不確定度這門課的角度來說,是否真正系統的分析了這個的影響來源,對此我還是持懷疑態度,不過這兩個指標也確實反映了一部分真實,但是如何統一目前尚未定論。

第四部分 虛擬樣本的應用研究

人臉識別實驗

實驗目的:驗證這個算法的有效性
實驗平臺:

實驗數據集採用 4.1.2 小節所介紹的 ORL 人臉數據庫、 YALE 數據庫以及 FERET 人臉數據 庫進行實驗。利用matlab2016 對原始數據首先進行不同虛擬樣本的生成, 爲了引入空間結合性 同時保證較小的維度,我們還需要對數據進行降維。對訓練測試數據經過降維處理以及預處理 後的數據輸入到識別模型進行模型構建和訓練。本節實驗分別選用 PCA+SVM 支持向量機和 LBP+DBN 深度置信網絡兩種常用的降維與機器學習識別模型,以驗證不同種類虛擬樣本對於 機器學習算法識別性能的改善程度。 PCA+SVM 中 PCA 選取主成分分量在 90%以上的部分, SVM 使用 RBF 核函數, 核函數中的 gamma 函數設置值爲 0.35。 LBP+DBN 中 LBP 使用的是等 價模式, 半徑鄰域大小爲 1 像素, 像素點數爲 8 個, 對圖片進行採用 4*4分塊,每塊進行等價 模式 LBP 將原始數據固定降維至 59 維作爲 DBN 的輸入, DBN 中每次隨機選取經過虛擬樣本 擴充後的人臉圖像樣本作爲 DBN 模型第一層 RBM 可見層的輸入,根據 2.2.4 節給出的對比散 度的快速學習算法進行訓練, DBN 共設置 4 層網絡,其中的兩個隱層設置層數均爲 100, 迭代 次數爲 30,學習率爲 0.001。

實驗步驟:

ORL 人臉數據庫內包含 40 人的共計 400 幅人臉圖像樣本。每次訓練集分別隨機選擇 2~5張人臉圖像,並按照 1:1 的比例添加通過3.3 節所確定具體參數的三種虛擬樣本。分別通過PCA+SVM 支持向量機和 LBP+DBN 深度置信網絡進行識別對比。重複實驗 5 次取平均值後所得到的具體結果見表 4.1。

YALE 人臉數據庫內共有 15 人,每人 11 幅共 165 幅圖像樣本數據。 同樣每次訓練集分別隨機選擇 2~5 張人臉圖像,並按照1:1 的比例添加通過 3.2 節確定具體參數的三種虛擬樣本。分別通過 PCA+SVM 支持向量機和 LBP+DBN深度置信網絡進行識別對比。重複實驗 5 次取平均值後所得到的具體結果見表 4.2

FERET 人臉數據庫內共有 200 人,每人 7 幅共 1400 幅圖像樣本數據。 同樣每次訓練集分別隨機選擇 2~5 張人臉圖像,並按照 1:1 的比例添加通過 3.3 小節確定具體參數的三種虛擬樣本。分別通過 PCA+SVM 支持向量機和 LBP+DBN 深度置信網絡進行識別對比。重複實驗 5 次取平均值後所得到的具體結果見表 4.3

實驗結果:
ORL
在這裏插入圖片描述
在這裏插入圖片描述

關於添加虛擬樣本比例的討論:

上節中的實驗都是按照 1:1的比例添加虛擬樣本進行擴充訓練集並識別的。然而實際上對於虛擬樣本添加的比例有必要進行討論,本節中爲了研究虛擬樣本的添加比例對識別結果的影響,以 ORL 人臉數據庫爲例,使用 SVM 與 DBN 兩種機器學習算法進行實驗。實驗訓練集隨機選取 5 幅圖像作爲訓練樣本,並通過三種虛擬樣本方法分別對其中 1、 2、 3、 4、 5 幅圖像進行擴展,生成相應的虛擬圖像加入訓練集共同訓練重複5 次實驗後取平均識別結果。 使用 SVM識別的實驗結果見圖 4.9。 使用 DBN 識別的實驗結果見圖 4.10。可以看出選擇添加不同比例的虛擬樣本會對最終的識別結果造成一定的影響。三種虛擬樣本添加不同比例後識別結果均在1%~2%之間波動,而非單調升高或降低。然而全部按照 1:1 的比例添加普遍不會達到識別率的最大值,該實驗說明虛擬樣本的添加確實存在一定比例,且添加不同方法生成的虛擬樣本,其比例的具體大小會有所不同。具體的適宜添加比例仍然需要進一步的深入研究。

參考文獻

[1]鄭儒楠.用於機器學習中圖像識別的虛擬樣本算法研究及應用[D].江蘇:南京航空航天大學,2017.

總結:

這篇文章主要是提出了一種評價數據生成好壞的指標,主要從歐式距離和互信息兩個角度進行評價,這篇文章總結的三種數據擴充方法即重採樣、輪廓波、奇異值重構,卻是我沒有接觸過的數據擴充方式,或許可以一試。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章