计算的一般顺序(套路)
计算的一般顺序(套路)
我们已知的是 各个名称的蛋白质的相互关系的2列表格 和 用来验证的一列的关键蛋白质名称 的文件
实现模板:
1.预处理数据。从相关户关系文件中提取出所有的蛋白质名称作为一个一行/一列的矩阵strings。然后将相互关系矩阵进行序列化,数字为这个蛋白质名称在strings中的位置下标。
一般处理下需要得出以下矩阵/数字:
- new_protein_essential 经处理的已知的关键蛋白的名称矩阵(1列)
- PPI_inter_str 读取出来的相互作用关系矩阵(一般是num_inter行2列)
- protein_total 相互作用关系当中所有的蛋白质的名称,不重复(num_essential_protein行1列)
- PPI_inter_index 相互作用关系的下标矩阵,为了易于处理,所以转化为下标来处理,最后对比时再使用protein_essential矩阵来读取对比。(大小与PPI_inter_str相等为num_inter行1列)
-
num_inter 相互作用关系的个数(数字)
-
num_essential_protein 关键蛋白质的个数(数字)
2.计算对应方法的value,并保存在矩阵中。
3.根据方法的规则、基准、指标来筛选排名靠前的蛋白质名称(一般使用sort函数,它返回的第二个参数index是排序后的点在之前矩阵中的位置(下标):[sort_value,index]=sort(value,’descend’) ),最后得到排名靠前的蛋白质名称矩阵。
4..计算这个方法的结果(正确关键蛋白质个数)。
例如:
num_top=[51 255 510 764 1019 1274];
common_gene=[];
for num=1:1:length(num_top)
common_gene(num)=length(intersect(essential_gene,rank_gene(1:num_top(num))));
end%%essential_gene是1285*1的储存结果基因的矩阵,这里循环依次得到的前51、255等检测成功的蛋白质的个数
本文系作者 @rinbn 原创发布在 噓だ。未经许可,禁止转载。