通过正确的途径进行云计算,人类基因组学界将为在许多领域中与大数据战斗的研究者铺平道路。谷歌云服务是分析大型基因数据集的研究人员使用的工具之一。
以前,人类基因组学研究人员总被获取巨大数据集的挑战阻碍;今年年初,当研究人员看到原来的主要路障消失后,该研究领域为此集体欢呼。今年3月,美国国立卫生研究院(NIH)取缔了自2007年开始对其库存的数百万人类基因组和其他遗传信息的使用云计算储存和分析的限制,该储藏库包括基因型和表型数据。
在量入为出的基础上,云服务可以为客户提供大规模储存和计算能力。因为这些服务在互联网上可以获得,大量用户可共享硬件,许多资助机构担心,客户使用基因组学信息会威胁到提供样本者的私人信息。NIH态度的回转部分上是因为旨在解决人类基因组研究挑战的呼声越来越高,获取大数据集的挑战正在阻碍科学家的科研能力,尤其是那些在原来工作基础上复制和建立的科研工作。
为了充分发挥云计算提供的潜力,加拿大多伦多安大略癌症研究所信息学和生物运算部主任Lincoln D. Stein和同事近日在《自然》杂志发文,敦促NIH和其他机构为储存的最受欢迎的主要基因数据集买单。通过这种方式,才不会让数千万研究工作者因为要从一个储存库向他们选择的云端独立传输数据而浪费时间和金钱,被授权的科学家才可以在需要时便捷、经济地进入全球云共享。
海量数据
多亏测序技术的迅速发展,呈交给公共档案库的基因组数据量现在已经达到数千万亿字节(PB)范围。例如,在国际癌症基因组学会(ICGC),来自17个国家的团队在仅仅5年内已经积累了超过2PB的数据集——约相当于50万个光盘的容量。
利用一个普通的大学互联网连接,要花费超过15个月才能把如此大规模的数据集从储存库中传输到一名研究人员的本地连接计算机网络中。不说处理数据,单是需要用于储存的硬件就要花费100万美元左右。
云服务则提供了“弹性”,它意味着研究人员可以根据需要,用尽可能多的计算机迅速完成一项分析,而且只为使用的计算时间付费。通过从研究人员笔记本终端控制的基于云的虚拟计算机进行分析,若干名研究者可以轻松地实现平行工作,共享数据和方法。因此以前花费数月才能完成的大型基因组数据分析现在数日或数周内就可以解决。
近来,云服务也已经和大多数学术数据中心一样安全,而且往往比后者更加安全。现在,相关服务由包括亚马逊、谷歌、微软等在内的大型商业公司提供,而规模小一些的公司则聚焦于基因组研究,如加州的Annai系统,还有若干家学术机构,如英国辛克斯顿的欧洲生物信息研究所,这些服务商使用强加密——如防火墙和秘钥链——管理数据和系统,这些可以控制谁可以获取数据,并给数据拥有者提供密切监管相关使用情况的工具。
但一些人类基因组研究的主要资助机构对此却非常审慎,例如一些欧盟资助机构建议研究人员遵照欧盟隐私权法案,将基因组数据放在这些机构的司法权监管之下。但是由于云计算的经济性、灵活性、可靠性和安全性已经发展到今天的程度,Stein等人期望,在未来数月内可以看到相关交易大规模转向云服务,他们对NIH加速这一转变的决策也表示拥护。
现在,在降低研究成本的同时,已经是时候建立机制和实践,让云计算的效率和利用最大化了,Stein等人指出。
通道控制
为了获取储存在中心数据库如dbGaP或欧洲基因组档案(EGA)中的人类基因组和其他数据,研究人员必须获得数据获取委员会(DAC)的批准。目前,如果两家独立研究团队想利用一个私人云或商业云的同一组数据,它们需要分别获取相关DAC的批准,才能在互联网上复制数据并把其储存在它们选择的云端。
两个团队都需要等待数据的复制,而且当数据复制后,只要它们需要这些数据,每个团队就需要为相应的储存付费,由于数以千万计的研究组开始做同样的事情,这一过程会浪费研究人员数年时间和纳税人数亿美元。即便是可以不受约束地获取云服务,当前对大多数团队来说,利用大规模公共基因组数据集仍然有些不切实际,因为在把数据从储存库传输到云端需要花费大量时间和成本。
好的解决方式是向有关资助机构要求,被上传到最受欢迎的学术云和商业云中的每个主要基因数据集都可以获得,并且为这些数据在云端长期储存付款。通过这种方式,数据就需要仅被复制一次,研究人员也只需要在进行分析时,只对暂时储存付费。
目前,若干家云服务供应商正在提供免费储存研究数据集的服务,或是在大量补贴率的基础上促使更多研究人员使用它们的服务。例如,亚马逊网络服务并未对千人基因组计划—— 一项统计人类基因变异的国际项目,目前数据总量已超过200兆字节(TB)——发布的测序结果征收任何费用。而Annai系统则储存了日益增长的ICGC数据集的一个子集。
Stein等人设想,诸如dbGaP或EGA等实体将会继续作为主要数据保管机构,它们的DACs将仍然会审核以及授权云端的数据使用。如此,基因组云计算甚至可以产生微观经济现象。例如,一名向云端贡献了有价值数据集的遗传生物学家会在处理过程中接收到信誉积分。同理,一名计算机科学家如果贡献了可以让其他遗传学家更有效地找到癌症变异的软件包,那么,每次有人在使用这个软件包时,他本人就会收到信誉积分。
基因标准
“人类基因组学界也为战斗在数据超负荷战役中的其他领域的研究人员铺平道路。”随着时间的发展,将会出现良性循环。可以融合大数据集的能力将会让研究人员把罕见的基因变异和疾病产生联系,而类似的成功会鼓励其他人储存更多数据集,并促进更强大软件的发展。这样的机制也可以和资助机构把一些数据集储存在特定云端的要求相结合。
当云服务上升至主导地位后,一种可能的风险是,单独一家云服务供应商可能会控制价格,因此会对科学的执行产生微妙影响。为了阻止这种可能性发生,资助机构应该在多个云端储存同样重要的数据集。这样做还有助于解决管辖权症结问题,例如基因组数据起源于欧洲,所以就被限制储存在欧洲的云端。
实现这一设想需要工作、技术和法律,Stein等人指出。例如,目前对于囊性纤维化研究员来说,没办法写出用于搜索dbGAP数据库的软件,从而从相关疾病人群中找到获得的基因序列。而系统地对这些数据进行标注,例如特别是对样本组织的来源作标注,就有助于解决这一问题。自2001年起,期刊出版商已同意接收核糖核酸微型阵列研究结果,研究需要用一种微型阵列实验标准的“最小信息量”描述其数据。对于基因组学数据来说,同样如此。
在法律层面,必须建立相应的规则以阐明资助机构、数据保管机构、云服务供应商和利用基于云的基因组数据的研究人员的角色和责任。例如,如果有人把一个ICGC的基因传输到脸谱网上,在以上这些参与者中,应该由谁对其负责?幸运的是,在过去两年中,全球基因组学和健康联盟已经准备了一个规范——《共享基因组和有关健康数据责任人框架》。
同时,美国国家癌症研究所也设立了若干试点项目,探索共享和分析云端基因组数据的实践活动。而NIH和其他资助机构也已经开始讨论各种“生物医药共享”概念,其中一些概念包括:通过正确的途径进行云计算,人类基因组学界将为在许多领域中与大数据战斗的研究者铺平道路。