全国统一服务电话 400-108-0268

海量数据的高可靠存储、高性能IO解决之道

基因大数据解决方案

需求分析
    近二十年来生命科学研究快速发展,产生了包括基因组学、转录组学、蛋白质组学、代谢组学等“生物大数据”,尤其以基因组学和蛋白质组学数据为核心的组学大数据增长速度远超很多其他领域。随着基因测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,比如1个人的基因数据为1.5T,100万人的数据将有1EB,面对如此数量庞大的基因进行同源性搜寻、比对、分析、遗传发育分析等等,以及数据的传输、计算、共享、读取性能,都会成为较大的挑战。

    从存储角度来看,基因大数据具有以下特点:

    每个基因数据文件的大小在几GB到几十GB不等,在进行基因检测和分析时读写性能要求高;

    基因数据规模增长快,其在总成本中占有的比例也在不断增大。

    基因数据存储周期长,在采集后的最初几个月内会被频繁访问,对于数据实时的响应性要求极高。即使归档的基因数据,也时常会被“解冻”用于基因分析。

    具有竞争力的基因数据处理的存储方案应具有如下特征:


解决方案

    下图为基于霄云碧海存储系统的基因大数据存储方案示例。



    碧海存储系统支持以太网和Infiniband网络,支持NFS、FTP、Linux FUSE、SDK等多种方式访问数据。

方案优势
    ■ 存储容量扩展能力强
    基因数据的快速膨胀,需要存储系统具有良好的弹性扩展能力。碧海存储系统的存储容量和吞吐量可以随存储节点的增加而线性扩展,系统容量可平滑扩展至64PB。增加存储节点不会导致数据服务中断,并且扩展过程简单易行。加入新存储节点后,碧海存储系统会自动均衡现有数据。高可扩展特性非常适合基因数据快速增长、高性能访问、存储周期长的特点。

    ■ 数据导入速度快
    碧海存储系统具有业界先进的优异性能,单个节点即可提供高达2GB/s的读写速率,多个存储节点性能可成倍增长,数GB的基因文件能够以秒级的数据导入导出,大幅降低基因计算过程中数据导入和导出时间。即使历史归档的基因数据,导入速度也与“热”数据几乎无差异。

    ■ 降低基因数据存储成本
    海量基因数据存储成本是必须考虑的重要因素。大部分基因大数据科研机构和企业因为FC SAN/FC NAS的成本高昂而不得不采用成本较低的服务器存储模式,但这又造成了基因数据的隔离和管理困难。碧海存储系统采用标准的商用服务器搭建的海量存储系统,既成本明显低于FC SAN/FC NAS,又为基因数据的统一存储和管理带来极大便利。

    ■ 数据可靠性
    霄云碧海存储系统采用基于策略的多副本机制和纠删码技术来保护文件数据。任何小于副本数量的部件损坏,都不会造成数据服务的终止和数据的丢失。此外,碧海存储系统会实时和周期性地对数据进行检查,并自适应地对不一致数据进行及时修复。

    ■ 易管理
    基因数据管理员通常并非专业IT人员,复杂的存储系统操作过程会影响工作效率。碧海存储系统基于Web的图形化管理平台,简洁明了,管理员可轻松掌握管理系统,提高工作效率,节省时间成本。