美国科学家计划利用人工智能对抗癌症。
作为美国“抗癌登月计划”、精密医学计划、美国国家战略计算计划三项国家性计划的结晶之一,美国能源部与美国国家卫生研究院下属的国家癌症研究所合作,发起“先进癌症计算解决方案的联合设计(Joint Design of Advanced Computing Solutions for Cancer,JDACS4C)”。作为负责人之一,美国阿贡国家实验室计算、环境与生命实验室副主任Rick Stevens透露,联合设计的首个试点项目成果将在2017年的第二季度公开。
该项目于2016年6月正式宣布启动,并在8月到位了第一笔资金。“抗癌登月计划”是美国总统奥巴马在2016年1月宣布的一项科研战略目标,旨在加快癌症研究,总预算近10亿美元。
之所以称为联合设计,是因为该项目将攻克三个基于计算机深度学习的抗癌难题:
1.RAS分子项目。从分子层面上,了解RAS/RAF通路的蛋白质相互作用。RAS基因在上世纪60年代被发现是癌基因,存在于30%的癌症患者中。通过结合模拟和实时筛选数据,针对RAS基因及相关信号通道,科学家希望能找到新的诊断和靶点治疗方法;
2.临床前筛查。发展药物反应的预测模型,在临床试验前进行最大化地药物筛选,为癌症病人提供精准医疗方案。具体操作是对临床前和临床试验时的癌症数据进行筛选,结合小鼠模型中的新数据,通过反馈循环让实验模型指导计算模型的设计,建立肿瘤药物反应的预测模型;
3.人口模型。根据生活方式、所处环境、癌症种类、医疗体系,从百万个癌症病人的病历数据中自动分析、获取最佳的治疗策略。海量数据来自美国国家卫生研究院、美国食品和药物管理局、制药公司和第三方付款机构。
这三个难题基于不同的生物尺度,对大数据分析和深度学习提出了高要求,由来自不同领域的科学家团队在数据采集、数据分析、模式公式、模拟运行上开展合作。美国能源部和国家癌症研究所各有所长,前者有精良的计算机专家资源,而后者拥有不轻易对外公开的癌症数据资源。如果挑战成功,现有的传统科学计算应用将被超越,推进百亿亿次级计算机的应用,并在人工智能的帮助下,将癌症治疗在精准化方面上一个台阶。
雄心勃勃的同时有重重困难。生物信息、病理报告、病历信息往往是非结构性的,它与机器学习所依靠的结构性信息存在一条“沟”,如何在非结构性和结构性信息之间转化、翻译是难点之一。
另一方面,要想有高精度的预测和解释模型仍具挑战性。比如对药物的治疗效果进行判断时,计算机可以精确得知结果,但得到的结果是机械性的,不具备解释原因的能力。Rick Stevens设想,将机械化的模型和机器学习的模型结合起来,可以解决这一问题。
出现英特尔、IBM等公司身影
提高深度学习的能力,需要回归到高性能计算机(HPC)的研究,离不开高性能计算机供应商的身影。在接受国际高性能计算网站HPCwire的采访时,Rick Stevens透露,“先进癌症计算解决方案的联合设计”项目已和英特尔、Cray、NVIDIA、IBM等公司达成合作关系。
2016年8月,英特尔耗资4亿美元收购了Nervana Systems公司,Nervana虽是初创企业,但在深度学习领域是排头兵,拥有专为深度学习打造的全方位优化的软件和硬件堆栈,号称处理器速度将可达到GPU的10倍。
除了高性能计算机,Rick Stevens和同事还在评估最适合的深度学习框架,其中不排除谷歌、微软、Facebook等公司。另一方面,Rick Stevens和同事也在和美国著名的人工智能实验室劳伦斯·利弗莫尔国家实验室合作,比如其实验室名为LBANN的可扩展人工神经网络框架。
是美国“抗癌登月计划”的目标之一
美国“抗癌登月计划”正式发起是在2016年1月12日,美国总统奥巴马在他任内最后一次的国情咨文演讲中宣布了这个消息,旨在让抗癌的研究进展速度翻一番,减少时间成本,在5年内取得原本可能需要10年取得的成果。
美国是人类最早登上月球的国家,在20世纪60年代至70年代的“阿波罗计划”中,曾组织一系列载人登月飞行项目。登月对美国来说有着重要的符号意义。将抗癌研究项目命名于此,可见美国在对抗癌症的决心。
在最后一年的总统任期中,奥巴马“快马加鞭”地落实计划。基于“抗癌登月计划”,美国当地时间12月13日,奥巴马签署了总额高达63亿美元的法案,用于癌症研究、戒毒康复和精神健康服务。
值得一提的是,美国副总统拜登是“抗癌登月计划”的负责人,领导着“白宫抗癌登月计划特别小组”。拜登的儿子因脑癌在2015年去世,痛失亲人的经历驱使拜登发起这项提议,并得到了奥巴马的支持。
“先进癌症计算解决方案的联合设计”开展的部分原因是为实现“抗癌登月计划”十大任务之一——建立癌症数据共享系统。6月6日,拜登宣布启用抗癌登月计划的首个大型开放数据库。数据库整合了美国国家癌症研究所多个癌症研究项目、共计1.2万名癌症患者的数据,为科研人员储存、分析和分享癌症基因组数据及相关临床数据提供平台。