加权基因共表达网络(weighted gene co-expression network analysis)是一种广泛使用的数据挖掘方法,用两两变量间相关系数研究生物网络。
大致步骤:
1、基因共表达定义两向量间的距离,选定β值(幂函数评估连接强度),生成邻接矩阵;
2、模块中心分析:拓扑重叠指标、模块特征向量;
3、建立共表达网络,判断特定模块的模块间枢纽基因。
详细介绍:
1、
用sij表示基因i和j之间的基因共表达相似性,有两种表示方法:
(1)无符号共表达相似指标:
此种类型会造成生物信息损失(抑制或激活)
(2)有符号的共表达指标:
生成邻接矩阵:
1)若生成无权重基因共表达网络,则设定阈值τ,对共表达相似矩阵,如果sij > τ,无权重网络邻接矩阵设定为1,否则设定为0.,此种方法对阈值的选择较为敏感,会造成共表达信息的损失。
2)若不设固定阈值,加权基因共表达网络分析使用以下的幂函数评估连接强度:
其中,邻接矩阵定量确定两个基因相互连接的程度。
无符号和有符号网络分别使用β=6和β=12作为默认值,最终得到加权邻接矩阵,之后的分析称为加权基因共表达网络分析。
2、用网络拓扑指标将基因集聚为网络模块:
加权基因共表达网络分析使用拓扑重叠指标作为距离,并将此指标输入平均连锁层次聚类,形成模块。
3、在模块特征向量之间建立共表达网络,即以节点为模块的网络;
判断特定模块的模块间枢纽基因,有两种连接指标:
(1)kMEi
(2)kIN
(待补充)