陌讯科技赋能生物数据中心，引领生物数据科学新趋势

陌讯科技赋能生物数据中心，引领生物数据科学新趋势
微生物是生命科学研究的重要组成部分，微生物科学数据甚至被定义为一种重要战略资源。

近日，陌讯科技协同各科研单位，搭建了“存管算”协同一体化数据系统，本篇文章将基于此次的实际案例，分享“存、管、算”协同一体化的数据系统如何在面临海量数据、多样化的数据类型、异构的计算模式等方面的诸多挑战进行分享。

海量数据：面对总量超过数PB，数据记录数超过数十亿条，每日还在递增的庞大数据量，如何保证存储集群的高效、稳定吞吐？

多样数据：如何从多样化的数据中根据特征发现数据、利用数据特征生成多维度数据集合，从多样的数据特征中发现之间潜在的联系，从而提升分析质量和优化数据价值？

异构计算：如何高效利用异构的计算模式以及异构计算资源，提升数据处理和分析的效率？

ALAMO文件存储

采用分布式架构，性能与容量随物理节点扩展线性增长，轻松扩展至上百节点，达到PB甚至EB级容量，广泛应用于生物信息领域的高通量测序和高性能计算场景。

同时，ALAMO提供极致的并行处理能力，轻松满足上百客户端的并发访问需求，即使在承载大量测序客户端并发访问时，ALAMO的带宽和读写性能也没有丝毫衰减。

ANNA统一存储

作为高性能分布式统一存储系统，ANNA承担着数据存储，分布式数据库，分布式镜像仓库等多种重要角色。经过优化的数据和元数据处理能力，使得ANNA在极高的业务压力下，仍能表现出高吞吐和不俗的OPS。

管理能力，提升整体性能的最佳实践
非结构化数据没有统一的标准，造成了管理上的极度困难。同时，微生物数据的特征丰富，且表现出高度的不确定性（如，特征个数不确定，特征本身不确定，特征关系不确定）。

面对数十亿级别的文件数量，且每个文件都可能伴随着多种特征，如何快速找到其关联关系，进而生成数据集合，马上投入计算分析？

面对这一挑战，陌讯科技利用工业标准的数据特征以及行业应用数据特征，建立强大的分布式索引系统，构建数据与特征，特征与特征，数据与数据之间的强关联关系，实现秒级查找任意文件，多种条件组合快速查询。进行多维有序的管理，并且根据数据特征，生成动态的逻辑数据集（无需挪动文件的物理位置），提供多层次、多维度数据挖掘工具。

计算能力，异构计算资源的效率最大化和价值最大化
陌讯数据分析计算系统，在共享一套硬件资源的前提下，能够动态构建异构的计算框架，能够实现真正的统一融合。强大的执行引擎，在充分发挥计算资源利用率的基础上，最大化数据并行、算法并行和模型并行，进一步缩短了生信数据的分析周期和提升了数据分析处理效率。

发表回复