很有幸在这里分享一下我们的研究成果,今天的主题是自主算法助力中国基因大数据走向精准医疗。现在医疗已经走向精准医疗的时代,现在大家都知道,每个人生老病死和基因有关系,精准医疗的概念和以往的医疗不一样的概念就是是针对于病症,同样的病症开一样的药,有的人吃了药好了,有的人吃了药病没有好。基因医疗根据每个人的基因信息进行有针对性的诊断和治疗,同样的人根据不同的基因信息,医生开不同的药方。这就有前提了,我们首先准确知道个人的基因信息,基因大数据真的很大,是所有你用大数据当中最大的大数据,和其他所有的行业都有显著的区别,就是数据量真的特别大,如果做基因组测序,拿到的文件有三四百G,如果要把每个人的各个器官测一下,而且要反映一下动态变化,至少产生的数据量是每天十T以上,除了我们人的细胞以外,我们人身上有很多微生物,这些微生物也有自己的基因组,而且在变化,基因大数据真的极端的庞大,现在已经有很高的技术可以进行全基因组测序,这都不是什么问题,这会产生海量的数据,但是产生的海量数据真的能够指导医疗实践吗?我们首先来看一下,整个基因大数据产生的过程,DNA,基因组DNA,现在的技术怎么做,打断成无数的小片断,之后进行大规模的平行测序,一次可以测序几亿个DNA,你拿到的小片断的DNA数据,一般人根本没有办法,第一步就是要把这些多的小片断,每个小片断向人的标准基因组进行比对,于是这个计算量是极其恐怖的。2009年权威的生物学杂志说,如果用传统的序列比对算法,要用超级计算机算上几天,显然这样的成本是不可接受的,所以人们不断开发一些快速理论算法做这样一些事情,可以节省很多计算资源。这些算法的设计思想都是一样的,大幅度提高速度,牺牲一点点精度,牺牲1%、2%的精度,换取几百倍几千倍的速度提升,这我们做科研没有,但是如果做到医疗方面,1%、2%的误差就会导致非常致命的结果,这和其他的大数据不一样,比如说企业决策,稍微错一点,可能问题不是特别大,后面有纠偏机会,或者说这个风险我是可以承担的,就算失败了,风险是可以承担的,但是对于一个病人,尤其是危重病人,根本没有机会有第二次机会给他治疗,所以说这种致命的结果,将往往造成非常大的悲剧,这样的悲剧已经实实在在的发生了。
现在用二代次序技术,最广泛使用的二代测序技术,在临床经验上面是无创产检,究竟准不准呢?做的人都说准,但是实际上我们有权威的医学文献报道,这个诊断错误是在0.1%—0.2%,看起来错误率不高,但是唐氏综合症的发生率是万分之五到万分之六,一个诊断技术的错误率比发病率还要高,这样的诊断技术和不诊断有什么区别。
我们再看一下去年,美国ACMG发布的基因测序结果,美国ACMG是美国基因检测行业的标准制定者,非常权威的机构。组织了一次次序的此时,找了57个病人,患了什么病都是非常清楚的,把他们的全基因组进行了测序,希望从中找到他们的致命突变,看看二代测序技术能不能用于诊断,但是依然没有找到基因突变,不该找到的突变找到了一大堆,这个案例里面假隐性率是百分之百,这篇文章里面研究者仔细分析了57个平均究竟是什么原因使得致病突变没有被检测出来,除了七个基因是因为实验误差导致的以外,其他的五十个都是由于算法不准确导致的,因为算法出了误差,导致该查出来的没有查出来,不该查出来的查了一大堆。这个东西如果真的用于临床诊疗,我们举一个乔布斯的例子,乔布斯死于胰腺癌,他患了癌症之后,他说把基因组测序了,因为我知道基因组有哪个地方发生了突变,就可以找到合适的药物进行治疗,我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人,结果这两条他都没实现,结果乔布斯花了十万美元把基因组测序之后,并未分析出任何有价值的结论,这就是现在整个基因测序行业非常大的问题,不准确。
除此之外,我们还会看到另外一个方面的威胁,就是中国的基因信息流失已经造成了中国国家安全的严重威胁。我们首先从一个大家十几年的例子来看,找到了2002年4月12号的时候中国产经新闻报的报道,美国研究机构出钱在中国人身上进行研究实验,把研究结果送回美国研究,研究最适合做基因武器研究。中国人必须保护中国人自己的基因资源。2003年发生了非典,这个大家都知道,中国是情况非常严重,差点就控制不住了。2003年4月13号,香港大公报报道,俄罗斯医学院院士声称,非典型肺炎是一种生化武器,并不是空穴来风的,现在生物信息学已经可以告诉大家,非典型肺炎的病毒并不来自于自然变异,而是来自于人工合成。在九十年代,曾经参与过许多美国在中国进行的人体基因实验的童增2003年出版了一本书,《最后一道防线:中国人基因流失的忧思录》。经过了非典之后,中国基因信息流失情况什么样呢。
2012年12月10日,某中国测序公司的测序量占到了全世界的一半以上,中国已经成为世界上最大的基因研究国家。2013年8月5号,人民日报报道,某国内基因测序公司占据全球40%的基因测序份额。但是所有成果基因数据提交美国、日本、欧盟的相应基因数据库,以前泄露的只是部分基因,现在泄露的是全基因组,一点隐私都没有了,甚至是花中国人的钱给外国主动送上隐私,与此同时,欧美对自己的临床基因数据却不向中国开放,是严格禁止中国人获取。这一切都是因为如果没有自己的核心算法,机器可以买,但是这么多的基因大数据没有办法有效分析,就必将受制于人。我相信在座的每一位都不相信自己的基因数据被国外获取,有一天可能他们会针对你个人基因对你自己进行精准打击。
面对传统算法不准确不安全的现实,我们怎么办?其实中国在自主发展道路上,在很多方面都有这样的尴尬,比方说天气预报,以前中国没有自己的超级计算机,没有自己的气象预报算法,把中国收集到的气象数据,交给美国人,用美国的方法进行分析,这曾经一度是中国的一个很耻辱的事情,那现在大家知道,中国有了自主的超算,已经雄踞榜首,中国也有了自己的算法,对中国的气象水文数据进行分析,现在中国的气象预报已经走在了世界的前列,现在精准医疗呢?完全是一样的,只不过现在把中国的基因数据交给美国人,用美国的方法进行分析,现在我们是可以怎么做呢?超算我们已经有了,我们需要解决自己的算法问题,而且要解决国外算法不准确的问题,现在已经有了,我们自己开发了高精度的算法,称之为FANSe系列,现在我们使用的第三代,主要解决的就是传统的测序算法里面不精确不安全的问题,这个系列算法是目前完全由中国自主开发的算法,而且是唯一一个错误率可以忽略不计,而且可以保持非常高的速度,我们与天和二号有合作,我们计算了一下,用天和二号全部的CPU算率,一个月之内分析完全中国十三亿人的基因组,准确度怎么样,这是一个已经发表的研究结果,我们验证了1994个位点,假阴性率0%,假阳性率0%,目前为止仍然没有希望发现一个错误。这种精度是极其可怕的,也就是说可以让一切的算法相形见绌,这样的算法我们有信心用于临床对患者进行诊断,这是我们去年做的测试,对于肺癌患者进行了FANSe检测,如果这基因有突变,可以适用各种靶向药,吃了以后可以非常快的好起来,如果基因没有突变,就不适合用基因靶向药,吃不上靶向药不但没有疗效,而且会引起很严重的负作用。我们用全基因组测序的方法进行检测,从全基因测序里面分析基因突变,找了十二个病人,传统算法的分析结果是三个病人有突变,九个没有突变,用FANSe计算,分析有六个病人有基因突变,实际情况进行验证之后发现,就是FANSe算出来的六个人真的有基因突变,而剩下的六个没有。我们看一下这三个人,如果有传统的算法,他们就将错失靶向治疗的机会,对于他们来讲治疗效果是天差地别的,这是去年我们另外一个案例,一个胰腺癌病人,已经到了晚期,去了多家公司做测序,都说没有致癌突变,不适合用任何的靶向药,医生没有办法,只能看着器官衰竭下去,结果到了最后,家属找到我们,想让我们给他再做一次次序,分析一下究竟有没有突变,可以不可以靶向药,我们做了测序,结果发现有KRAS突变,并且有可用的靶向药。同样是胰腺癌病人,如果乔布斯可以多活几年,到现在结果可能完全不一样。
这么精确的算法,在整个世界科学界上面,可以说也是立下的汗马功劳,2013年的时候在北京开了一次内部会议,是人类蛋白质组计划开的会议,那次会议上面,我们的FANSe算法和世界上最大的基因公司的传统算法进行了一次面对面的PK,下面坐了一排专家,FANSePK掉了众多的外国传统算法,被人类蛋白质组计划定为核心算法,同时被定为2014年首要突出贡献。人类蛋白质组计划是人类基因组计划后续的计划,我们给这个计划提供了核心的支柱算法。
因为整个算法全部是自主开发的,有非常可控的特性,我们知道每个细节,对于不同的医学或者是科研新应用,我们可以开发后端的许多模块,是可以很好拓展,并且基础在我们这里,后续的所有的模块和应用全部可以基于这样一个非常稳健和准确的基础进行开发,并且后续所有的东西都可以开发,因此就形成了一个完全自主,并且有极佳拓展性的新的生态系统。
这个生态系统和云端计算结合以后有怎样的一种效果呢?
这是我们2014年提出来的高精度云端测序方案,取来样本之后,在本地化测序已经很多了,测序完了之后,海量的数据进行算法进行压缩和上传,到了云端用FANSe系统进行全自动高精度分析,之后得到了一个简明报告。我们试着看一下一个实际案例,2015年西安有一个病人突发病毒感染,医生不知道怎么办,这个病人也很着急,他们找到我们,当时系统刚刚建立起来,我说我们可以试试看,于是他进行了一次与时间赛跑的过程,从1月23号晚上8点钟进行血清分离,24号下午两点测序完成,两个小时的云平台分析之后得出来的结论是他感染的病毒是猴痘病毒,这个病毒在中国非常罕见,医生没有经验很正常,他以前在法国留学刚回来,这个病在欧洲相对比较多一点,这都可以解释了,医生就按猴痘病毒来治,一个月之后这个病人就康复出院了,从这个例子我们可以看出,对于这些疑难杂症,病人可以及时得到准确的情报,从而得到及时有效的治疗,对于国家安全方面来讲,可以有效防止疫情扩散,非典的时候用了三个月的时间才搞清楚非典是由什么病毒引起的,但是那个时候非典已经传播到全国各个城市了,2013年的H7N9禽流感,即便用当时最先进的技术,也花了一个多星期才检测出了H7N9,也是造成了非常大的损失。在公共卫生领域,如果你能够把检测的时间缩短到七天以内,就不会造成全国性大范围的毁灭性的打击,像非典这种,如果可以缩短到两天以内,甚至不会给周围带来什么样的影响。现在我们已经可以做到十九个小时,其中十八个小时在测序,一个小时在分析,而且基于云端的数据分析模式,可以服务于全国各个地方,乃至全世界各个地方的人,为他们提供及时准确的基因信息服务。成果在去年年底的时候被TED邀请在西安做了一次演讲。
我们的核心是精准可控不再受制于人,与可穿戴设备结合,和远程医疗服务可以结合,与社交互动可以结合,与公共卫生公共安全也是可以紧密结合的。
因此,精准自主算法可以助力中国基因数据成为真正的大数据,为精准医疗应用铺平道路,谢谢大家!
|