单细胞基因组学和宏基因组学是开创性的技术,可帮助研究人员评估环境微生物群落的结构和功能。现在应用这些技术的项目越来越多,但是,仍缺乏一种高通量过程来检查所组装的基因组序列,从而阻碍了这些技术的广泛应用。目前,去除已上传到公共数据库的微生物基因组中的污染序列,还是一个手动和耗时的过程,为了去除污染序列,就需要有关它们的信息。
为了解决这个障碍,来自美国能源部联合基因组研究所(DOE JGI)原核生物超级项目(Prokaryotic Super Program)的一个研究团队,首次开发了一种计算机程序,可快速、自动地去除基因组草图中的污染序列。他们开发的这种工具称为ProDeGe (Protocol for Decontamination of Genomes),发表在六月九日的Nature旗下子刊《The ISME Journal》。
报道最新基因组组装方法
该研究小组表示,ProDeGe适用于任何类型的基因组序列,在这项研究中,研究人员使用182个手动筛选的单一扩增基因组(SAGs)对其进行了校准,基因组序列来自两个公开的数据集——一个是Microbial Dark Matter project,另外一个是拟南芥植物数据。
快速去除序列污染
该小组报道称,这种工具将基因组序列分类为“干净的”或“污染的”,并以每百万碱基序列0.30 CPU核小时的速度运行。本文第一作者Kristin Tennessen指出:“一名专家手动净化1巨碱基序列,需要约六小时的时间。而使用ProDeGe则提速了约20倍。她补充说,如果手动用户是没有经验的,去除污染序列的速度提高的更快。
用于质量控制的污染序列去除工具
英属哥伦比亚大学DOE JGI 长期合作者、ProDeGe用户Steven Hallam说:“每年都产生大量的环境序列信息,单细胞基因组测序也越来越普及。因此,ProDeGe将填补QA/QC工作流程在个人用户和平台服务之间的一个关键差距。”
研究人员补充说,ProDeGe向“为培养微生物和未培养微生物基因组,建立一套质量控制标准”迈出了第一步。防止污染序列数据传播到公共数据库,是很有价值的,从而能避免产生误导性的分析。该程序的全自动化,可减轻科学家的人工筛选时间,产生可靠、干净的数据集,并首次使我们能够高通量地筛选数据集。因此,在新一代DNA测序和独立培养微生物基因组学的时代,ProDeGe代表了我们工具箱中的一个关键部件。
作为ProDeGe工具的使用者,Bigelow 实验室单细胞基因组中心主任Ramunas Stepanaukas和DOE JGI的合作者补充说,单细胞基因组学和宏基因组学已经成为未培养微生物生物学信息的主要来源,这是我们这个星球上大多数生态系统的主要成分。DNA污染风险,是单细胞基因组测序和基因组组装的一个重要挑战。预防、检测和去除单细胞基因组学和宏基因组学数据中的污染序列,对于了解我们星球的生态系统,是至关重要的。新的实验室和计算工具,如ProDeGe,是确保这些新兴研究领域中数据质量高标准的关键。