好好做論文

0.75做訓練集,0.25做測試集
現有的數據:平衡集的數據
缺少的數據:酵母和擬南芥個100個+非平衡集的數據+驗證集
怎麼確定非平衡集的數據是陰性還是陽性。

平衡集:DNA-Binding: 1陽性 42256個, 0陰性 42311個
驗證通用性:平衡集中,增加酵母和擬南芥個100個。
在這裏插入圖片描述

測試結果:
在這裏插入圖片描述

非平衡集:DNA-Binding: 1- 42257, 0-341481(371275)
驗證集:DNA-Binding :1-104,0-480.
在這裏插入圖片描述
測試結果:
在這裏插入圖片描述

多物種數據集
在這裏插入圖片描述
在這裏插入圖片描述
從結果來看,人體模型在自身和鼠標上都可以正常工作,反之亦然。萊斯模型本身效果很好,但對人和老鼠的準確性較低。這些結果與人類與小鼠具有密切的遺傳關係,遠離水稻的事實相吻合。
不同特徵提取方法的性能比較

在相等數據集上的性能比較
在這裏插入圖片描述
不平衡數據集的比較:
在這裏插入圖片描述
低冗餘培訓集的性能比較
低冗餘平衡數據集的比較
在這裏插入圖片描述
低冗餘不平衡數據集的比較:
在這裏插入圖片描述
對於相等數據集的低冗餘版本,準確性比完整版本低3.86%,而比188D + SVM方法略高。將模型應用於擬南芥和酵母數據集時,其準確度分別爲85%和78%,略低於完整模型中的準確度。

對於現實數據集的低冗餘版本,其模型的效果比完整模型差,但在所有度量上均優於188D + SVM方法。

低冗餘數據集:
對於傳統的基於序列的分類方法,訓練數據集中序列的冗餘通常會導致預測模型的過度擬合.同時,酵母和擬南芥測試集中的序列可能包含在訓練數據集中或與訓練數據集中的某些序列具有高度相似性。這些重疊的序列可能導致測試中的僞性能。因此,我們構造了相等和實際數據集的低冗餘版本,以驗證我們的方法是否適用於這種情況。我們首先刪除酵母和擬南芥數據集中的序列。然後應用最低閾值0.7的CD-HIT工具刪除序列冗餘,有關數據集的詳細信息
在這裏插入圖片描述
評價措施:
在這裏插入圖片描述
結果相等的數據集
爲了證明所提出的方法預測DNA結合蛋白的能力,我們首先通過k倍(k = 3、5、10)交叉驗證在獨立的測試數據集上對其進行了評估。在k倍交叉驗證中,蛋白質序列隨機分爲k個相等的部分。在每個實驗中,將一部分保留給測試集,將其他k − 1個部分用作訓練集。3、5個10倍實驗的準確性分別爲87.5%,92.8%和93.1%。然後,我們使用5倍實驗中的最佳模型(參見圖4)來測試擬南芥和酵母菌的序列[ 25 ],將其準確度與具有DNA結合物和LibSVM預測的準確度進行比較,請參見表7。。結果表明,對於擬南芥和酵母,我們模型的預測準確性分別比LibSVM高出8%和4%。
在這裏插入圖片描述
在這裏插入圖片描述
對於實際數據集,我們計算它們的準確性,敏感性,特異性和auc值,如表8所示,並分別在圖5和6中繪製測試和驗證數據集的ROC曲線。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
此外,接收器工作特性曲線(AUC)下的面積也可用於評估性能。由於AUC的計算依賴於完整的ROC曲線,因此涉及所有可能的分類閾值,因此AUC是一種可靠的總體度量。
ACC: 準確度
AUC:是一個模型評價指標,只能用於二分類模型的評價,對於二分類模型,還有損失函數(logloss),正確率(accuracy),準確率(precision),
AUC(Area under Curve),表面上意思是曲線下邊的面積,這麼這條曲線是什麼?——ROC曲線
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
X軸是假陽率:FP/(FP+TN)
Y軸是真陽性:TP(TP+FN)

10.12
完成數據收集:平衡集和非平衡集。
明日任務:

  1. 調試程序,查看預測結果,看能否找到小片段。
  2. 跑數據:看能不能跑出來
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章