起源于中国的粮食作物谷子(小米),曾经是养育中华民族最主要的粮食之一,一吃就是7000多年。谷子耐旱,特别适合北方地区种植。但是它的产量比较小,通常亩产量在200-300斤。
2016年,华大基因集团下属的华大农业实现了小米亩产1000-1200斤的突破。而且目前华大农业已经在*和澳大利亚种植优选小米,实现产业化落地。华大农业能够实现这样的突破,得益于基因测序技术的应用,通过基因测序可以将物种的生物学信息数字化,实现物种基因信息的比对,优选出合适的品种进行杂交,实现物种优化。
在培育谷子的品种这个案例中,基因组测序及分子育种技术改变了传统育种周期长、效率低的缺点,使得华大基因在很短的时间内,对收集到的3000多份谷子品种资源进行基因组分析,找出与重要农艺性状相关联的分子标记及基因位点,将之应用于谷子新品种培育,批量获取了系列谷子新品种。
在华大基因类似这样的例子比比皆是,借助BT(生物技术)与IT(信息技术)融合的力量,生命科学正在不断突破可能性。
基因测序领域的超摩尔定律
IT界有一个著名的摩尔定律。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。过去数十年里,这条定律犹如宇宙法则一般精准地指导了人类在半导体行业的发展方向与速度,并驱动了一系列科技创新,生产效率的提高和经济增长。
而在基因测序领域,存在一个类似的定律,被生物界人士称为反摩尔定律。所谓反摩尔定律,目前没有确切的表述,大意是指获取基因数据的单位成本呈指级下降。
人类基因组计划从1990年正式启动到2000年宣布完成,6个国家参与,花费13年38亿美金。华大基因股份有限公司CEO尹烨说,今天基因测序在华大1天600美金就可以做完,这就是超摩尔定律。
华大基因股份有限公司CEO尹烨
从38亿美金到600美金,怎么做到的?尹烨讲述了一个故事:
“当年人类基因组计划进行到后期的时候,出现了一个叫克雷格·文特尔的科学怪杰,他建立了一个商业公司,要以一己之力与6国科学家对抗。当时,所有人都觉得这是天方夜谭,但他只用了两年的时间,就追上了多国合作小组的研究进度,而他能够弯道超车的核心办法就是使用了超级计算机。”当我们第一次去文特尔的实验室时,他形容自己的计算机叫做“成吨的计算机”。那时人们开始明白,BT和IT要走向融合。
BT与IT 开创生命科学新纪元
人类基因组计划进行了13年,大量人力、物力和财力投入其中,最后却被一个人仅用两年时间反超,两个一比较的话,怎么看都觉得人类基因组计划的钱白花了。
然而在尹烨看来,如果没有人类基因组计划,21世纪就不会是生命科学的世纪。美国联邦*当年做了一个测算,每1美金在人类基因组计划上的投入,产生了10-100美金的回报,这是一个放大效应。
正是人类基因计划,带动了生命科学产业的蓬勃发展,而IT的介入,无疑为生命科学产业插上了翅膀。另一方面,基于生命科学对IT的需求,人类基因组计划也促进了IT领域的发展。从更总体的范围看,人类基因组测序的影响在医疗、农业、能源及环境上的大规模的收益还只是刚刚开始。
成立于1999年的华大基因一开始就参加了人类基因组计划的中国部分,并承担了其中大部分工作。目前华大基因共有9个体系,其中分为营利性和非营利性两类。
正是克雷格·文特尔的成功也启发了华大基因创始团队,华大基因成立伊始,就以BT和IT双轮驱动着前进。
今天如果我们要对一个样本进行基因测序,需要通过基因测序仪,对纳米级的基因片断拍照,这个过程会产生大量的图片、大量的数据。从拍出图片开始,计算就开始了。图片先转换成序列,然后把若干个序列拼接成完整的基因组,再把拼接成的基因组,跟参考的基因组对照,寻找差异,分析原因。每一步都需要对大量的数据进行计算,如果没有借助IT的力量,工作难度可想而知。
BGI Online让全球业务无缝衔接
目前,华大基因的业务已经覆盖了全球100多个国家和地区,包括国内31个省市自治区的2000多家科研机构和2300多家医疗机构,其中三甲医院300多家;欧洲、美洲、亚太等地区合作的海外医疗和科研机构超过3000家。之前当海外的合作机构需要华大基因提供基因测序及相关服务时,华大基因会通过所在区域的数据中心完成,服务结束时,会用硬盘将数据寄给客户或合作伙伴,客户可能需要用于进一步的分析和研究。
数据传递是一件很费力的事,因为数据量太大。更有甚者,有的客户在多个地方有实验室或研究机构,华大基因还需要给多个地方寄送数据。客户拿到数据以后,也需要花大量时间导入数据到自己的计算机系统。
华大基因BGI Online&大数据专项负责人金鑫曾经拜访的一家海外合作伙伴向他展示了之前华大基因寄来的所有硬盘,已经堆满一整间屋子,对于如何处理这些硬盘,合作伙伴也非常头疼。
华大基因也在思考这些数据能不能放在云上处理?最初,华大基因建立一个私有云的平台,将自己的IT资源开放到云上,让客户到云上来使用。2012年,国内云计算应用还很少,带宽资源还不丰富的时候,华大基因就发布了EasyGenomics云平台。
EasyGenomics让华大基因看到了上云的可能性,不过其还不能满足华大基因的业务需求。尤其是华大基因有那么多国际业务,如果让国外客户连到深圳总部的私有云并不现实,如果让华大基因建立一个全球的云平台,投资大,要解决的技术问题也很多。
华大基因BGI Online生物信息云平台的打造,正是一次成功的BT与IT融合实践。2014年,华大基因开始和AWS进行研发,进行IT基础架构的搭建、数据库的迁移。2015年BGI Online(国际版)发布,其是搭建在AWS上的一个PaaS平台,依托AWS进行数据存储和管理,加上华大基因开发的分析工具、第三方的分析工具,用户不需要关心复杂的IT技术,只要将数据上传到云平台,就可以进行基因数据分析。IT实力较强的用户还可以将自己开发的分析工具部署到BGI Online,无缝地开展业务。
BGI Online很好的解决了华大基因与海外合作伙伴在数据传输上的麻烦。借助AWS的全球化覆盖,华大基因无需在海外部署任何一个数据中心,就能把业务拓展至全球各地。同时,BGI Online还提供了各项基础能力,包括基因数据存储、计算、传输、管理。在基础能力之上,用户还可以自己搭建流程,适应各种分析需求。同时平台兼容了业界普遍认可的规范,用户可以平滑的迁移到BGI Online之上。
通过使用Amazon EC2、Amazon S3等服务,BGI Online实现了快速精准的分析。2016年,华大基因需要分析一千人外显组数据研究银屑病(牛皮癣),外显组数据虽然只占完整基因组的1%,但一千个样本分析下来也需要几周到上月的时间,而通过BGI Online仅在22个小时内就能全部完成。
目前,BGI Online最大的用户就是华大基因,同时还有药厂、科研机构、合作伙伴等在使用。在华大基因完成测序后将数据交付到平台上继续进行分析,形成一套整体的解决方案。2016年下半年,BGI Online进行了多次版本升级,带来了进一步的数据增长,2016年全年通过AWS分析和传输的数据达到了100TB。
华大基因也有着自己的人工智能团队,该团队下一步就是通过人工智能技术,多维度、深层次地发觉基因数据之间的关系,这也是未来生命科学领域有更大可能性的突破点。
原文发布时间为:2017-7-14
本文作者:王聪彬
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网