陌讯科技赋能生物数据中心,引领生物数据科学新趋势
微生物是生命科学研究的重要组成部分,微生物科学数据甚至被定义为一种重要战略资源。
近日,陌讯科技协同各科研单位,搭建了“存管算”协同一体化数据系统,本篇文章将基于此次的实际案例,分享“存、管、算”协同一体化的数据系统如何在面临海量数据、多样化的数据类型、异构的计算模式等方面的诸多挑战进行分享。
海量数据:面对总量超过数PB,数据记录数超过数十亿条,每日还在递增的庞大数据量,如何保证存储集群的高效、稳定吞吐?
多样数据:如何从多样化的数据中根据特征发现数据、利用数据特征生成多维度数据集合,从多样的数据特征中发现之间潜在的联系,从而提升分析质量和优化数据价值?
异构计算:如何高效利用异构的计算模式以及异构计算资源,提升数据处理和分析的效率?
ALAMO文件存储
采用分布式架构,性能与容量随物理节点扩展线性增长,轻松扩展至上百节点,达到PB甚至EB级容量,广泛应用于生物信息领域的高通量测序和高性能计算场景。
同时,ALAMO提供极致的并行处理能力,轻松满足上百客户端的并发访问需求,即使在承载大量测序客户端并发访问时,ALAMO的带宽和读写性能也没有丝毫衰减。
ANNA统一存储
作为高性能分布式统一存储系统,ANNA承担着数据存储,分布式数据库,分布式镜像仓库等多种重要角色。经过优化的数据和元数据处理能力,使得ANNA在极高的业务压力下,仍能表现出高吞吐和不俗的OPS。
管理能力,提升整体性能的最佳实践
非结构化数据没有统一的标准,造成了管理上的极度困难。同时,微生物数据的特征丰富,且表现出高度的不确定性(如,特征个数不确定,特征本身不确定,特征关系不确定)。
面对数十亿级别的文件数量,且每个文件都可能伴随着多种特征,如何快速找到其关联关系,进而生成数据集合,马上投入计算分析?
面对这一挑战,陌讯科技利用工业标准的数据特征以及行业应用数据特征,建立强大的分布式索引系统,构建数据与特征,特征与特征,数据与数据之间的强关联关系,实现秒级查找任意文件,多种条件组合快速查询。进行多维有序的管理,并且根据数据特征,生成动态的逻辑数据集(无需挪动文件的物理位置),提供多层次、多维度数据挖掘工具。
计算能力,异构计算资源的效率最大化和价值最大化
陌讯数据分析计算系统,在共享一套硬件资源的前提下,能够动态构建异构的计算框架,能够实现真正的统一融合。强大的执行引擎,在充分发挥计算资源利用率的基础上,最大化数据并行、算法并行和模型并行,进一步缩短了生信数据的分析周期和提升了数据分析处理效率。