生物学习·关键蛋白质·暂且了解的各种方法集合

识别关键蛋白质的八种方法的介绍

1.前言

最近在实现一篇比较新的论文的一个方法,发现这个论文里涉及了比较多的方法,恰好又都记在了Onenote上,就发出来。因为公式在wordpress上不太好农,就直接截了我在Oneonte上的图。(还有,大多是英文翻译过来的,本人英语也不是很好,有错误的地方见谅,欢迎捉虫。)

先介绍一下PPI网络的基本概念:

2.八种方法

    1.DCDegree Centrality

    2.BC(Betweenness Centrality)

 

   3.EC (Eigenvector Centrality)

翻译过来叫做:特征向量中心性

   4.LAC(Local Average connectivity Centrality)

翻译过来叫做;本地平均连接性

这里的诱导子图并没有什么复杂的作用,就只是为了从节点集 Nv 得出有相互关系的节点集合(Cv)然后处理,也就是图

 

   5.NC(Neighbourhood entrality )

   6.SC (Subgraph centraliy)

 

   7.LC(Laplacian Centrality)

   8.IDC(In-Degree Centrality of complex)

   9.

   10.

   11.OS (Orthologous Score)同源评分

   12.DOS

   13.SLC(subcellular localization score )亚细胞定位评分

   14.LBCC

   15.CoTB

这篇论文提出的新方法CoTB,该策略结合了BCLCIDCSLS、和DOSCoTB基于以下几点观点:

1.密度的两种类型,代表了PPI网络的局部性质。度量了节点v及其相邻结点集上诱导子图的密度。度量了结点v和与v距离小于等于2的结点集上诱导子图的密度。

2.BC表示PPI网络的全局属性。BC值越高的节点对网络传递的影响就更大

3.LC表示测量节点重要性的全局属性和本地属性之间的中间属性。它提供了关于节点周围连接和密度的更多结构信息。

4.IDC是蛋白质复合物信息的另一个拓扑性质并且已经证明,基本蛋白质更可能聚集在蛋白质复合物中。

5.SLS是蛋白质的一个内在特征,它代表了蛋白质在细胞中的位置与关键蛋白质之间的相关性

6.DOS也是蛋白质的一个固有属性,DOS值越大,它就越重要

为了使用这7个属性,我们使用机器学习随机森林方法。该方法使用weka软件包实现,生成的数设置为1000然后,我们使用四个数据集中的三个作为训练集,剩下的一个作为测试集。最后,根据蛋白质必需的概率分数值,将蛋白质按降序排序,排名靠前(好像是5%)的可以判断为关键蛋白质

 

    关于WEKA软件包的使用,下一篇博客再写

 

喜欢()
评论 (0)
热门搜索
37 文章
3 评论
11 喜欢
Top