来自中科院计算技术研究所的研究人员发表了题为“Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine”的文章,公布了新一代开放式搜索算法Open-pFind,可提高质谱数据解析的数量与质量,有望成为蛋白质组学日常数据分析的主力工具。
这一研究成果公布在10月9日的Nature Biotechnology杂志上,文章的通讯作者为计算技术研究所贺思敏研究员,和迟浩博士(同为第一作者)。
质谱数据的低解析率直接影响着肽段和蛋白质鉴定数目和鉴定精度的提高。质谱数据解析率一直较低,是由于质谱数据中通常有大量存在意外修饰或发生意外酶切的肽段,传统的限定式搜索因搜索空间有限,通常无法对上述肽段进行有效检索。
新一代开放式搜索引擎Open-pFind采用基于序列标签索引的开放式搜索流程,快速扫描蛋白质数据库并对部分高质量谱图进行鉴定。在此过程中,意外修饰、突变、半特异及非特异性酶切肽段均在引擎的搜索空间内。Open-pFind通过基于支持向量机的肽谱匹配重打分算法,挖掘数据中的特征信息,并据此进行第二次精细搜索。同时,Open-pFind集成了前端数据处理的pParse模块,对肽段母离子进行校准,并有效提取混合谱图,进一步提升了谱图解析率。
在四组典型质谱数据集上,Open-pFind解析率均达到了70%~85%,比同类软件鉴定结果多出50.5%~117.0%。对于高质量的串联质谱图,Open-pFind甚至基本实现了完全解析。在搜索空间是常规引擎5个量级的基础上,Open-pFind的速度仍然是常规引擎的2~3倍,是同类开放式引擎的数十倍甚至上百倍。在超大规模人类蛋白质组数据集上,Open-pFind报告了超过12000种蛋白,且准确度远远超过以往常规分析结果。