一面是基因检测的日益普及,一面是越来越大规模的数据产出。如此大规模的数据,如何这存储、分析以及解读成为行业必须要突破的瓶颈和壁垒。人类全基因组数据大约有30亿字符,为了保证解读准确性,惯例是要将每个字符阅读30遍以上,相当于1000亿字符。如此算下来,且不说分析和解读,光是数据的阅读都是极大的工程。
国内知名基因检测公司全基因组检测周期为3个月,其中从采样到测序完成耗时一个月,而剩下的两个月,都用在了数据的分析和解读上。2017年,全球测序巨头Illumina推出NovaSeq测序系列,再次刷新了测序成本新低。这就意味着,一大波数据正在接近。如何寻找更高效的数据处理方案,如何提升数据解读速度,无疑将是行业下一个议题。
动脉网(微信号:vcbeat)梳理了42家基因数据分析和解读细分领域相关企业,希望能从产业角度切入,对行业现状做出解析。
以初创企业为主,暂无独角兽出现
42家企业中,超过半数企业的成立时间在2010年以后。早期成立的企业,如华大、贝瑞和康以及华因康,其本身业务的综合性就比较强,故严格意义上讲,这个行业内还没有独角兽出现。像赛福基因、华点云以及聚道科技以数据服务为主营业务的企业,甚至是像人和未来这样以生物技术和信息技术学科交叉为核心优势的初创企业,成立时间都在2013年前后。2013年开始,基因数据服务相关企业开始活跃起来。当然,也不排除这一时期整个基因检测领域创业潮带来的整体基数的影响。但近年来,像是百迈克,安诺优达以测序服务为核心业务的企业都开始向数据领域扩展,似乎也预示了数据分析环节发展的大趋势。
目前,这些企业融资轮次主要集中在天使轮和A轮,规模都还比较小。42家企业中有12家属于业务拓展,其中有7家融资阶段在A轮以后。市场内的B轮玩家多是通过业务拓展进入市场,这些企业更多代表的是一种市场趋势,并不能代表市场内企业的成熟度。
产品服务:“云服务”是趋势
从产品分布来看,传统的生物信息手段依然占据主流,但基于云的PAAS、SAAS等云平台正在崛起。无疑,云上的数据计算、传输和分析将为用户省去大量的硬件包袱,同时还可将这些环节集中在一个场所,为用户带来更轻松,更高效的体验,这样的云体验也正在成为数据处理的趋势。
传统分析应用最广
分析软件和系统是分析环节应用层面最广的产品,是比较传统的生物信息分析手段。分析软件的广度小,操作难度低。相比之下,数据分析系统比较多元化,不同复杂程度的数据分析系统应用广度也不一样。比较全面的分析系统从IT构架和分析算法流程考虑的比较多,而简单的系统和软件之间的差别并不太大。这一类产品的企业分布密度最大,一共有27家,代表性的企业有贝瑞和康、烈冰科技等等。
新老玩家齐入场,“云服务”是未来趋势
传统IT手段以外,基于云端的计算和分析平台也在向基因数据靠拢。更轻量级的存储方案,以及更高效性的运算性能,云平台在数据处理中发挥着积极作用。
1PaaS:为基因领域搭建云环境
与阿里云、百度云、华为云等IaaS(基础设施即服务)平台相比,PaaS平台更具针对性,可针对某个领域的特点提供更加专业的服务。平台会根据自身服务领域搭建一个云环境,方便细分领域的公司尽快使用。对于细分领域公司来讲,基因领域PaaS平台的出现,省去了自行搭建平台的环节,节省了大量的时间和成本。
针对基因领域的PaaS平台在国外起步比较早,代表性企业SevenBridge,DNAnexus,T
uteGenomic等等。而近些年,国内的生物信息云服务商开始走向市场。其中一部分是进行业务拓展的早期企业,比如华大和百迈客生物。另一类则是像聚道科技,华点云这样以云服务为核心的初创公司。基因组数据的产生规模与测序成本息息相关,这些企业成立时间与测序成本下降时间节点基本吻合。
2013年,原华大生物信息骨干陈晨从中国疾病预防控制中心传染病所生物信息室主任的位置上辞职,创办了专门面向临床生物信息服务的华点云。华点云部署在华为云平台上,积累了500多项生物信息应用,针对临床实验室缺乏生物信息解决方案的痛点,提供生物信息数据分析和报告。
不同与华点云,聚道科技则从数据的安全、高效和易用性入手,提高数据传输效率和软件运行效率,为想用云计算但不知道如何使用的生物公司提供云计算资源调度服务。2014年,一批阿里出身的技术团队成立了基因大数据计算服务平台聚道科技。平台可提供基因数据的传输、存储、分析、计算和应用的一体化解决方案,将生物信息云服务化。同时提供开放的接口,让用户能够方便的来管理和操作数据,最后根据用户需求生产报告。
另外,通过运用数据压缩技术来减少传输和存储的时间及成本,使用分布式调度和执行引擎来加速数据分析速度和通量,聚道提供的云服务不仅可以帮助用户减免硬件的维护和更新费用,还可以降低数据分析的成本门槛。同时,基于这样的云平台,使得许多复杂的,本地不可承受的多样本分析任务不再受制于有限的本地数据处理能力。
一方面是这些以云服务为核心的初创企业崛起,另一方面,产业链中游或者综合业务的企业也在积极迎接这股云潮流。
2015年4月,凭借丰富的下一代测序数据分析经验,华大基因开发了基于“云”的解决方案BGIOnline,来应对海量下一代测序数据的分析、存储和共享的传统难题。BGIOnline拥有强大可靠的基础设施和一流的安全性,可为各种类型、大小的机构提供数据存储、自动化分析、数据传输、生物信息方法开发和共享服务。该平台使用了最先进的资源管理系统,以确保资源在运行计算任务时的精准分配和实时的任务监控,并对可能遇到的错误进行及时反馈。
在这样一个平台上,用户可以基于华大基因的开源软件,创建自己的分析工具。更重要的是,用户的分析工具还可以与BGIOnline平台的公共分析工具、生物信息分析工具和其他资源相融合,从而建立一整套更符合用户自身研究需求的分析流程。
2016年2月,BGIOnlinebeta版本在阿里云上线,这也是首个完全部署在阿里云上的大规模生物信息分析平台。依托阿里云的弹性存储和计算优势,BGIOnline不但可以满足基础科研、农作物育种及临床应用等不同应用场景和模式对数据处理、存储和传输的需求,还通过使用一系列先进的数据技术,满足HIPAA法案等行业安全条例的要求。
同时,使用内资服务器存储和分析敏感的基因数据也更加符合我国《人类遗传资源管理办法》的规范。简洁易用的界面和高度安全的特性,使医生和研究者们可以把管理数据、硬件维护等繁杂的工作交给BGIOnline和阿里云,从而更专注于他们要解决的科学和临床问题。
这意味着,对于科研院所、医疗机构及中小型基因行业创业公司来说,只要拥有基因数据,不必自建和维护昂贵而复杂的计算、存储平台,通过BGIOnline便可以解码神秘基因背后的奥秘。这家全球最大的基因组学研发机构打开了基因行业这扇神秘大门,让基因行业变得“触手可及”。
当然,华大并非是唯一一家进行云业务拓展的企业。2015年7月,百迈客也推出了为科研人员量身定制的生物大数据信息分析平台百迈客云,为用户提供完整的生物信息分析以及整合利用公共数据的解决方案。
除了中游企业,一些传统生物信息公司,比如烈冰科技、美吉生物旗下桑格信息也在积极的往云上转移。
另外,像是加速芯片和数据压缩工具等辅助性软件也在数据处理环节发挥着辅助作用。这类产品的作用并不是解决什么问题,而是如何将这个问题更好的解决。比如更高效的计算、更快速高质量的压缩等等。目前,涉及辅助性软件的企业比较少,基于这类产品的自身属性,形成专职企业的可能性不大。
2SaaS:数据分析的云上APP
另一类则是SaaS(软件即服务)平台,如果说以上的PaaS平台是为基因组学搭建了一个云端环境的话,那么SaaS则是在这个云环境中提供可应用的工具。这就类似于手机上的APP,服务商将应用软件统一部署在自己的服务器上,客户可根据自己的实际需求,通过互联网向服务商订购所需的应用软件服务,按照定购服务多少和时间向服务商支付费用,并通过互联网获得服务。
2015年,基云惠康的云分析服务正式上线,专注于个人全基因组数据分析。基云惠康所搭建的就属于SaaS服务,以阿里云为基础,针对全基因组数据,提供更快,更低成本的优化服务。
同样是在2015年,专注消费级基因的水母基因也在阿里云提供的云基础上推出健康管理SaaS平台。基于这样一个精准健康管理的SaaS系统,水母基因打造了以基因数据为核心的疾病精准预防系统,为每一位客户建立私人健康档案,收集客户自身健康相关的所有数据,如病史、生活饮食习惯、基因数据、血压、血糖等。实现以基因数据为指导的疾病预防,为企业客户提升服务品质。
奇云诺德则是把目光放在了基因测序企业的后台计算服务上,为基因检测企业提供数据存储、云计算、分析、结果读取和报告生成的一条龙服务。帮助检测环节企业迅速拿出优质的产品报告。此外,奇云诺德还开展了订制和研发外包服务,也可以联合基因检测企业开发所需产品。
2016年,基于阿里云在批量运算上的优势,以及安诺优达自成立以来积累的大量生物样本和基因数据,两家公司联合推出了生物大数据分析云平台“安诺云”。希望实现对高通量基因测序数据的快速分析、安全存储,提供生物大数据存储与管理服务以及生物、临床研究数据分析一体化服务,推动我国精准医学的进程。
PAAS平台带来了轻量级的基因数据的传输和存储,简化了基因数据分析流程;而SaaS平台又降低了基因数据分析门槛,为有生物信息分析需求,但又对技术了解不深的群体提供了便利。在以前,数据传输主要通过网络和硬盘传输来实现,无论是从周期和成本来看,都不是最好的解决方案。而PaaS和SaaS云平台的出现,再加持云计算这样的高并行工具,这就相当于将数据的存储、传输、分析以及计算都集中到了云端,挣脱了本地处理的枷锁,使得整个数据处理过程都流畅轻快了许多。
有趣的是,无论是PaaS平台还是SaaS平台,绝大多数企业都选择了与阿里云合作,作为自身平台搭建的云基础。比如华大、聚道,以及基云惠康、安诺云等等。目前,市场上的云玩家一共18位,其中PaaS平台10家,SaaS平台8家。
解读环节是高原地带
传统生物信息占据半壁江山,云平台也正在蔓延,相比之下,解读环节则略显冷清。解读环节可以说是瓶颈中的瓶颈,由于大部分疾病都是多基因遗传病,由多个基因共同控制,不同的基因突变,不同的突变位点,不同的突变类型,这些因素都会影响到疾病的最终表型。
另外,基因组包含的信息很多,而真正为人们真正所了解的大约只占总体的2%,很多基因的功能尚不明确。再加之基因与疾病的对应关系还没有建立起来,解读过程中有太多的不确定性,更多需要人工做判断。即使有鹍远基因这样的梦之队,也难以解决行业层面上的问题。无论是科研还是临床上,数据的解读环节都存在极大的局限性和挑战性。
赛福基因、鹍远基因、基云惠康几家企业提出将服务产品化,提供从测序到解读的一站式服务,希望利用自己在解读环节的优势,将基因数据解读低门槛化。采取同样策略的还有奇云诺德和安诺优达的安诺云项目,但两家公司更多倾向于测序环节后的所有服务,通过将测序与数据分析解读环节明确分工,降低基因检测行业门槛,同时更深度的挖掘基因数据背后的价值。
目前,这个环节涉猎企业非常少,可以说是高原地带。如果把解读服务和半自动化解读工具,甚至文本挖掘都算进来,一共不足10家。其中提供半自动换解读工具的,仅有两家。
解读环节的人力解放,数据库是基础
接着上文讲,由于疾病复杂性和人类对基因与疾病关系的认识还在一个较浅的层面,数据解读环节受制于人力因素。其实半自动化数据解读并不难实现,因为专家共识指南确实有一部分是可以让机器看懂并自动判分的。这背后存在的矛盾点就是是否存在一个行业标准且真正有用的数据库。目前的公共疾病数据库录入信息标准各异、所包含的数据大多都是基于欧美人种的研究,并不能完全适用于特定人种,而且缺乏基因组学数据与表型数据的深度整合。
目前,所有基因检测环节企业都在做一件事情——数据收集。公司通过收集、整合公共或者私有信息,经过人工检阅后汇总为数据库或知识库,很大程度上是希望通过形成足够大规模的普通人数据库,矫正目前数据解读可能存在的一系列偏差。这是很有价值的基础工作,但凡在基因组学领域发展迅速的国家,很早之前就开始了这样的基础建设工作,比如英国和美国。
2015年8月贝瑞和康正式启动“神州基因组数据云”项目,该项目由贝瑞和康和阿里云共同参与建设,旨在打造以海量中国人群基因组数据为核心的数据云,实现对个人基因组数据的精准解读。2016年9月,贝瑞和康对外公布了“神州基因数据云”项目阶段性重要成果,完成世界首个中国人群基因组数据库建设,填补了国际基因数据库中缺少中国人群特有基因组数据信息的空白。
2016年9月,华大深圳国家基因库正式开业,这是我国唯一一个获批筹建的国家基因库。基因库的数据库、样本库、活体库,以及规划数据能力均超越国际三大基因数据中心,综合能力位居世界第一,成为我国首个国家级基因数据中心。
此外,还有多家中游检测企业正在筹备基因库的相关筹建工作。2015年7月,海普洛斯联合深圳市人民医院发起并推出了一项“万人癌症基因测序计划”。据悉,已有30多家全国顶级的医院或科室加盟“万人癌症基因测序计划”,并且已经完成了将近5000例肿瘤患者或高危人群的基因检测。
2016年7月,由暨南大学主导,未来组参与完成的第一个亚洲人参考基因组“华夏一号”在线发表于NatureCommunications杂志。该研究以暨南大学为主导,由南加州大学、华盛顿大学、俄亥俄州立大学、美国国立卫生研究院生物技术信息中心、武汉生物技术研究院、未来组、哥伦比亚大学、贝勒医学院、冷泉港实验室等多家科研单位共同合作完成。“华夏一号”的发布,表明国内科研团队在第三代测序领域已经进入世界前沿,并填补了中国人群的疾病研究缺少精细参考基因组的不足。
随着基因测序成为国家健康医疗大数据战略的主要内容之一,“华夏一号”将成为推进临床和科研大数据应用的重要基础性工作,大力推动中国的遗传疾病研究与诊断的发展。
其实目前几乎所有的中游测序企业都在进行基因组学数据的收集工作,但对于公司来说,要形成规模足够大的基因数据库,则还需要时间的酝酿。另外,数据规模达到一定量级后,企业是否会共享,直接影响到数据库是否广泛使用,这也许还需要政府层面的布局。
结语:数据库是基础,云端分析成为趋势
宏观层面来讲,大多数企业都还是A轮或者A轮以前的初创公司,可以说市场还属于酝酿阶段。而像其明生物、百迈客、安诺优达这些比较成熟的企业先后进入市场,似乎也代表着行业趋势(尤其是云平台)。
从产品分布来看,基于分析软件和分析系统的传统分析手段的企业比较多,但面对如今激增的数据规模,这些手段很难实现绝对意义上的突破性。而PaaS、SaaS等云技术手段,通过将数据分析流程转移到云上,很大程度减轻数据处理环节的负重(无论是硬件上的实质负重,还是处理速度上的心理负重)。
但这些产品大部分都是聚焦在数据分析环节,由于人类大多数疾病是多个基因的共同作用结果,涉及到多个基因的变量表达。这些数据的解读必须要考虑到多个基因多个变量因素,因此这个环节背后必须要有一个强大可用的数据库支持。在此基础上,再利用技术手段,寻求可自动化,可替代人工的渠道,以节省时间和成本,也许不失为一种可行方案。
在国家发展改革委正式印发《“十三五”生物产业发展规划》中,基因检测、细胞治疗、免疫治疗、基因编辑、产前筛查等多个热门概念被“点名”。《规划》在发展目标中提到,要实现基因检测能力(含孕前、产前、新生儿)覆盖出生人口50%以上。借着产前检测的东风,基因检测概念将被更广泛为的人群认识和接受,再加之成本控制上的持续突破,未来或许还有望实现人人普及。而如论是无创产前还是肿瘤检测,还是全基因组检测,数据分析和解读都将伴随整个过程,测序的普及势必将带动数据处理环节的发展。面对步步逼近的数据洪流,一场数据大战即将打响。