阿里巴巴达摩院正在用AI算法抗击新型冠状病毒肺炎疫情。2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台。利用阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时,大幅缩短确诊时间,并能精准检测出病毒的变异情况。
达摩院算法专家顾斐博士在疾控中心基因检测分析现场
当前,全国新型冠状病毒肺炎疫情依然严峻,快速、精确诊断对于疫情控制尤其重要。公开信息显示,该病毒是基因组序列最长的病毒之一,全基因组序列全长29847bp,临床诊断需要将患者样本与该病毒基因序列进行比对才能确定诊断结果。
目前医院普遍采用核酸检测方法,其只能检测到病毒基因的局部。由于病毒存在变异的可能性,对于整个基因序列来说这种检测方法犹如盲人摸象,一旦病毒发生变异,就可能出现漏检的情况。
新型冠状病毒结构
不同于传统核酸检测方法,全基因组检测技术可以对疑似病例的病毒样本进行全基因组序列分析比对,能够有效防止病毒变异产生的漏检。此次阿里巴巴达摩院与杰毅生物技术公司联合研发的平台采用的就是全基因组检测方法,其突破之处在于大幅缩短了检测时间。
在基因分析阶段,阿里巴巴达摩院和阿里云弹性计算团队提供的系统还能提供病毒快速拼接能力,将快速精准捕捉变异后的病毒序列,二级结构及三维结构,为病毒疫苗和药物提供了基础。
设置基因检测分析参数
诊断效率的提升得益于算法的创新。达摩院团队针对新型冠状病毒基因进行特征分析,并推出多个算法模型。在序列比对过程中,达摩院对算法增加了分布式设计,提升了比对效率;在病毒序列拼接阶段使用分布式设计的de Bruijn图算法,变异病毒也能精准检测。
浙江省疾控中心基因测序负责人孙逸博士表示:“该平台基于阿里云的强大算力与达摩院新算法可以为病毒的解析提供支撑,基于该平台,未来还可以在短时间内将检测范围覆盖整个确诊病例,也为后续疫苗与药物研发打下了坚实基础。”
以下是达摩院算法专家对该平台的解读:
Q:这一平台有何特点?
A:此次研发的自动化全基因组检测分析平台属于高通量测序,平台由浙江省疾控中心、阿里巴巴达摩院、杰毅生物共同研发,可以给浙江省疾控在新型冠状病毒疫情防控上提供了全自动建库和分布式计算分析能力。杰毅生物开发了全自动高通量测序建库仪,把整体常规人工需要12小时的工作缩短到2个小时。每次测序过程会产生海量的数据,达摩院采用分布式设计的分析算法,样本基因分析的速度由数小时缩短到半小时;同时,由于采用分布式算法,病毒拼接的速度由30分钟-1小时缩短到15-30分钟。除此之外,不同于传统核算检测方法,这一平台还可以检测到病毒的全貌,避免因为病毒变异造成的漏检情况。
Q:达摩院团队提供的算法有哪些价值?
A:达摩院针对新冠病毒基因的特征进行了分析,基于pdb等公共数据集的数据进行算法的优化训练。本次分析病毒检测和病毒变异部分主要基于开源算法,设计分布式算法以加速分析流程。病毒序列拼接完成后,通过设计BiLSTM+DNN的方式训练模型预测病毒蛋白二级结构。同时,达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型。
本文作者:阿里巴巴达摩院
本文来自“阿里技术”公众号,了解相关信息可以关注“阿里技术”