很少写这个,突然想着我曾经花了些时间查找。现在我花点时间写出来,可能会给别人节约很多时间。以后自己或许也会用到。因为时间问题,尽量不上图,用简短的文字来写。
举例,现在想导出KEGG中核苷酸代谢中嘧啶代谢过程的参与蛋白。具体步骤如下
1. 打开KEGG网站/kegg/
2. 找到KEGG PATHWAY,metabolism里找到Nucleotide点击进入,pyrimidinemetabolism点击进入。现在出现了代谢pathway。
3. 首行有个pathway entry,右列KEGG ORTHOLOGY点击进入,出现你想要的列表了,问题是怎么处理。
4. 两种方法,一是直接贴到excel,二是从excel直接导入。第一种没啥说,我个人喜欢第二种
5. 复制4中的网址,也就是/dbget-bin/get_linkdb?-t+orthology+path:map00240
6. 打开一个excel工作表,依次,数据,自网站,把5里的网址粘帖到地址栏,转到,出现的界面如果是数据可以导进来的话(任何网站数据都是一样),会有黄色底的黑色箭头,鼠标放箭头那,点击会变成对勾,点击右下方导入,稍等,OK.现在问题又来了就是我们想要的单独的name现在连解释一起都在B列。因为我们用这些数据很可能去我们总蛋白质组数据库中查询数值。所以如何分开,总不能一个个人工。方法如下
7. 选中B列,依次,数据,分列,分隔符号,下一步,分号(这里一定只能选择分号),下一步,完成。现在发现B列有的是带逗号的,所以再选中B列,数据,分列,分隔符号,下一步,逗号(这次要选逗号),下一步,完成。基本完成了,下面的就是删除空格了,直接选中,数据,删除重复项就行了。
KEGG里有的导出的数据一共就一列,也就是ID和definition没
分开的话。步骤和7一样的。
因篇幅问题不能全部显示,请点此查看更多更全内容