自基因组学技术问世以来,测序与分析一直是基因组学技术中最主要的两个环节。实际上,与繁重的测序工作相比,基因组的分析也同样复杂,需要耗费大量时间。然而,随着近年来基因组学技术发展突飞猛进,这种状况正在逐步改变。
再生医学网获悉,DNA测序技术成熟于上世纪70年代中后期,1990年人类基因组计划的提出,将基因组测序技术逐步由实验室迈入商业化阶段;到2004年人类基因组计划完成时,第二代基因组测序技术已经相对成熟,开始大规模商业化应用;2013年,单分子等第三代测序技术出现,也预示着测序技术应用更广,测序的成本越低。
在测序技术日新月异的同时,分析技术也在共同成长。以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。
上世纪90年代,德布鲁因图被引入基因组组装领域,其以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高,从未成功应用在第三代测序数据。
2013年起,阮珏和美国哈佛医学院的博士李恒在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。通过重新对短串进行定义,它能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。
近年来,生物信息学领域的科学家们致力于改变这种数据产出速度远高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。
阮珏与李恒合作开始了测序数据分析方法如组装算法的开发,力求推动测序数据的分析速度更快、分析质量更高。2016年,他们的研究结束,并将研究成果Wtdbg对所有人免费开放使用。目前,这项成果不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。
(备注:图片源自网络。)