11月1日,在由新华网与南京市经济和信息化委员会主办的首届中国智谷大会人工智能与产业创新高峰论坛上,生物信息学家、中科院院士陈润生做了了题为《大数据与精准医学》的演讲。陈润生院士认为,随着人工智能和大数据等技术的应用于医学领域将会推动精准医学的发展,在疾病发生之前进行采取针对性的措施,从而改变医疗健康的概念。同时,人工智能和大数据也对研究我们遗传信息中97%的、我们尚未了解的“暗物质信息”起到关键作用。总体来看,精准医学才刚刚上路,还存在很多的机会.
尊敬的各位专家、各位领导、非常荣幸能参加这个会,我想今天我就大数据和精准医学谈一个看法,因为现在大家知道,精准医学非常热了,虽然比起人工智能还是小弟弟,但是我们知道,2005年1月20号美国总统奥巴马在他发表的美国要开展精准医学研究,从那以后,精准医学就在全世界得到了普遍的重视,在很多发达国家包括我们国家不仅仅是大家都很关心的一个领域,我们国家领导人也多次对于精准医学的发展都有重要的指示,而且在资助上也有具体体现。所以我今天主要谈精准医学的四个方面问题,一个是跟大家交流,也希望展开一些讨论。
第一个问题,精准医学的本质是什么,核心是什么?我看到国内有各种各样的评论,关于讨论精准医学的内涵,各种观点都有,我自己觉得,精准医学的核心其实就是一点,非常明确,就是组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。
1. 精准医学是组学大数据跟临床医学的结合
这里又包括两层含义,一个含义是组学大数据,另外一个含义是医学。那么组学大数据又包括两层含义,一个是组学,一个是大数据,我们知道,近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是以前前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多的积累了以遗传密码为代表的不仅仅是基因的信息,也包括蛋白的信息,那么后来,人们发现,挖掘这些信息以后会得到很多的反映人类健康和疾病的信息。所以有人提出,如果把这些信息应用到临床当中来,一定会提高临床的效果,这就是所谓精准医学的本质含义。但是,只获得这些遗传密码的信息是不够的。
大家知道,所有遗传密码的信息都是非常非常多的一个大数据,这个大数据大家是很容易测得的,包括我们现在知道在我们国内,每个人花一万块人民币就可以得到你的遗传密码,但是你得到你的遗传密码你是一点都不懂,因为这只有四个字(A、C、G、T),所以要读懂他,你就要发展大数据分析的理论方法和技术。所以,那么要把这些组学数据用大临床当中来,必须是组学数据和大数据分析方法的结合。所以一部分是组学大数据,一部分是医学,两个结合起来,就构成了现在精准医学的本质和核心,这是第一个问题。关于精准医学的本质,他也是自上世纪90年代由于组学数据用到临床当中,发展转化成转化医学,个体化医学,现在从2011年有出了精准医学的名称,但不管怎么说,都是他的本质是清楚的,就是组学大数据在临床医学当中的应用。
第二个问题:精准医学能够使医学带来哪些本质的变化。如果精准医学只是把医学提高一点点百分数的话,我想,那么精准医学就不一定会引起更多领导人的注意。就精准医学的内涵,一定会有一些本质上的变化,那么这个本质上的变化是什么?我们也用一句话来说,精准医学他的本质上所以引起各国领导人的重视,是精准医学有可能改变医疗健康的基本概念,也就是说,促使医疗的基本概念从当前的诊断治疗转变成健康保证。
我们知道,现在的医疗体系面对的是病人,那么他主要是对病人进行所谓的治疗,但是,未来因为精准医学的发展,由于组学大数据的介入,那么就会使得这个时候的健康不仅仅是对病人,而是对全民,对任何人在他没有得病的时候我们测量他的组学数据,分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预,这样的话有些疾病不发展,有些疾病减轻他的程度,提高他的生活质量,这样就把整个医疗健康体系的关口前移,在没有病之前就提出评估与保证。
这样一个根本性的概念的转变,有人认为,有可能导致一些新兴产业的出现,有人预估,跟所谓精准医学相关的这个概念转变导致的新型,也许到2018年也许到2千亿美元的转变,也就相当于将近2万亿人民币,对GDP就有影响。这种有精准医学带来的本性概念的改变由此促使的产业的发展当然会引起各国领导人的注意,这是第二个方面,关于精整医学他可能带来的一些本质变化的估量。
精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点。大家知道美国要测量100万自然人的遗传密码,欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。那么精准医学我们如何仔细分析,他可能在哪些方面促使产业的变革和发展呢?我想至少在四个方面:
第一个可以促使海量的生物样本库和数据库的发展。大家知道,由于精准医学的推动,那么需要测量百万人量级的这些人的组学信息,首先涉及到这百万人生物样品的获取,保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本测完了数据是百万人数量级的一定要促进相应的大规模的数据库的发展,有人估计,这个产业的规模可能是百亿数量级。
第二个有了这些样品,那么就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转录组,这些测序的数据,仅仅到2018年,就可以到117亿美金的规模。那么有了样本库,有了组学数据的测量,那么下一步在这些海量数据挖掘的基础上,就可以促进产生大量的新的分子诊断的指标。我们知道,就会增加很多跟疾病相关的信息,这些信息当中,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业,也就是所谓分子诊断和药物设计靶点的相关产业。
第四个当然伴随着精准医学概念而产生的新的医疗设施,比如说要成立一些健康源,要一些健康师,这些方面是可以和现在医院、医生相关系的产业大概是千亿数量,这些产业必然会带来变革,国内已经有所体现,有成百上千个小的公司在逐渐地成立了。当然他们怎么来更好的发展,有待讨论。
我们国家的精准医学发展目标我不赘述了,跟国际是一致的,这第二个方面,精准医学可以带来哪些本质的变化,如何促进产业的发展,在那几个产业发展可以带动或引导。
第三个我要说一个问题是要实现精准医学,要做哪些点?做到哪些点,才能做到精准?那么精准医学我觉得至少要具备两个条件,第一个,要具备组学大数据的基础,我们知道,精准医学就是把组大数据用到临床当中来,所以第一个你要获取组学大数据,那么也就是获取基因组,蛋白组、转入组、代谢组等等这些组学数据,这些数据本身是没有用的,第二步就是组学数据的挖掘,挖掘的话就会用到大数据分析的理论方法,包括刚才张钹院士讲的人工智能的方法,深度学习的方法等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。
有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面,有了这两个基础我们就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合下,并不是有些公司他测的序什么都决定了,实际上不是那样,是应该更好地结合起来才能更好做到精准。精准医学只是把新的数据应用在原有的数据上使得更好地提高。