畢業設計Notes -- 1

【03.03~03.09】


1,【cluster analysis 之後會有overlaps】


2,pom.xml文件中,【唯一標識】由 
[groupId] + [artifactId] + [version] 一起確定


3,Cytoscape API中 有三種類型的 CyTable <NetWork> / <Node> / <Edge>


4,Cytoscape 核心數據結構:網絡-CyNetwork,表格-CyTable。
啓動和監聽事件的機制:CyEvent(final) && CyListener(interface)


【03.10~03.16】


5,Cluster Analysis Classification

*****************[非交疊式聚類算法]**********************
5-1 > 分析複合物檢測算法MCODE
(MCODE-The Molecular Complex Detection Algorithm)
基於距離測定/種子-擴充方式的局部搜索方法,非層次聚類法


5>2 快速凝聚算法 FAG-EC
(Fast Agglomerate Algorithm - FAG-EC)是基於邊聚類係數
(edge clustering  coefficients)的聚類算法
基於邊聚集係數的快速凝聚式層次聚類算法


5>3 快速層次聚類算法  HC-PIN
(Fast Hierarchical Clustering Algorithm  -  HC-PIN)
基於邊聚集值的快速層次凝聚式聚類算法


5>4 層次化交疊功能模塊探測算法  OH-PIN
(Identification  of  Hierarchical  and  Overlapping 
Functional Modules - OH-PIN)
識別層交疊蛋白質功能模塊的凝聚式層次算法


5>5 基於新型拓撲結構的聚類算法  IPCA
(Cluster  algorithm  Based  on  the  new 
topological structure - IPCA)
基於密度的交疊聚類算法


5>6 基於極大團凝聚式層次聚類算法  EAGLE
(agglomerative  hierarchical  clustering 
based  on maximal clique – EAGLE)
基於極大團擴展的凝聚式層次聚類算法,可識別交疊的功能模塊




6,【SUID】Cytoscape中每個Cy- 組件都會有一個SUID,
不管是CyNetwork、CyNode、CyEdge之類。


7,CyNode 之間的距離是如何計算的?
若爲帶權值的邊,則計算其weight。否則不用管


8,評估方法主要有三:

8>1,P-value 評估,評判蛋白質富集程度

8>2,OS(Pc,Kc)評估,表示:
聚類算法識別出的蛋白質複合物Pc(Predicted complexes)

已知蛋白質複合物Kc(Known complexes)的匹配程度OS
還要從算法的 特異性(Specificity,Sp) & 敏感度(Sensitivity,Sn)
Sp=TP/(TP+FP) Sn=TP/(TP+FN)
TP(True Positive)/FP(False Positive)/FN(False Negative)

8>3,C-Score ( 與8>2 評估作對比)
查準率 precision = tp / (tp+fp)
查全率 recall = tp / (tp+fn)
f-measure = 2*recall*precision / (recall+precision)
hint:tp 算法識別的複合物中含有某功能的蛋白質個數
fp 該複合物中所有蛋白質個數減去tp
fn 整個蛋白質網絡中含有該功能的蛋白質個數減去tp


8>4,basic information
從基本信息上對蛋白質網絡聚類算法進行評估
聚類結果各個簇的密度分佈 以及尺寸規模分佈


9,GO由三個相對獨立的本體組成,包括
【生物過程(biological process, BP)】
【分子功能(molecular function, MF)】
【細胞成分(cellular component, CC)】

三個本體完整描述了基因產物的生物特徵。GO的結構是一個有向無環圖(directed acyclic graph, DAG),類似於樹狀圖,GO短語的語義作爲圖中的節點,語義之間的關係作爲圖中的邊。GO語義有兩種相互關係,分別是is_a關係和part_of關係。GO數據庫使用受控詞和嚴格定義的概念關係,每一條GO短語可以看成是一條功能註釋信息,每條功能註釋都是對其祖先節點功能註釋的進一步細化,註釋到子孫節點的基因或蛋白質也必須具有其祖先節點的功能註釋。


10 , P值(P value)就是當原假設爲真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決


在功能富集分析中,依舊用GO中的BP,MF,CC對算法進行評估。
P-value在一定程度上體現了識別的蛋白質複合物對某個功能的富集程度。
如果P-value越小,越接近於0,則說明蛋白質複合物能夠
【隨機出現這種功能的概率】就越低,可能更有生物學意義。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章