生物学习·关键蛋白质·暂且了解的各种方法集合
识别关键蛋白质的八种方法的介绍
1.前言
最近在实现一篇比较新的论文的一个方法,发现这个论文里涉及了比较多的方法,恰好又都记在了Onenote上,就发出来。因为公式在wordpress上不太好农,就直接截了我在Oneonte上的图。(还有,大多是英文翻译过来的,本人英语也不是很好,有错误的地方见谅,欢迎捉虫。)
先介绍一下PPI网络的基本概念:
2.八种方法
1.DC(Degree Centrality)
2.BC(Betweenness Centrality)
3.EC (Eigenvector Centrality)
翻译过来叫做:特征向量中心性
4.LAC(Local Average connectivity Centrality)
翻译过来叫做;本地平均连接性
这里的诱导子图并没有什么复杂的作用,就只是为了从节点集 Nv 得出有相互关系的节点集合(Cv)然后处理,也就是图
5.NC(Neighbourhood entrality )
6.SC (Subgraph centraliy)
7.LC(Laplacian Centrality)
8.IDC(In-Degree Centrality of complex)
9.
10.
11.OS (Orthologous Score)同源评分
12.DOS
13.SLC(subcellular localization score )亚细胞定位评分
14.LBCC
15.CoTB
这篇论文提出的新方法CoTB,该策略结合了、
、BC、LC、IDC、SLS、和DOS。CoTB基于以下几点观点:
1.和
是密度的两种类型,
代表了PPI网络的局部性质。度量了节点v及其相邻结点集上诱导子图的密度。
度量了结点v和与v距离小于等于2的结点集上诱导子图的密度。
2.BC表示PPI网络的全局属性。BC值越高的节点对网络传递的影响就更大
3.LC表示测量节点的重要性的全局属性和本地属性之间的中间属性。它提供了关于节点周围连接和密度的更多结构信息。
4.IDC是蛋白质复合物信息的另一个拓扑性质;并且已经证明,基本蛋白质更可能聚集在蛋白质复合物中。
5.SLS是蛋白质的一个内在特征,它代表了蛋白质在细胞中的位置与关键蛋白质之间的相关性
6.DOS也是蛋白质的一个固有属性,DOS值越大,它就越重要
为了使用这7个属性,我们使用机器学习随机森林方法。该方法使用weka软件包实现,生成的数设置为1000。然后,我们使用四个数据集中的三个作为训练集,剩下的一个作为测试集。最后,根据蛋白质必需的概率分数值,将蛋白质按降序排序,排名靠前(好像是5%)的可以判断为关键蛋白质
关于WEKA软件包的使用,下一篇博客再写