医疗PACS影像存储解决方案

需求分析

PACS已经成为现代医学放射学的基本技术和重要基础设施,在临床诊断、医院科研等方面发挥着重要的作用。

现代医院都配置了数量众多的X光机、CT、MRI、超声等设备,医生越来越依赖于各种医疗影像技术进行诊断。随着医疗影像设备的广泛使用,以及设备本身日益先进,医院的医疗PACS数据量预计每年增长15%,五年翻一番,并呈加速增长的态势,三甲综合性医院或胸科、肺科、骨科等三甲专科医院,一年的新增拍片量在50TB ~ 60TB。并且,根据国家电子病历保存相关规定,医疗机构保管保存医疗影像数据时间要求不少于15年。

无论从业务发展还是合规要求,医疗影像数据的存储都对存储系统提出了需求。

目前医院对医疗PACS数据普遍采用传统阵列存储FC SAN或NAS,并采用在线、近线、离线的三级存储架构。

20200910115409_68870.png

这种PACS存储架构普遍面临以下问题:

  • ■ 性能/容量扩展困难

    • PACS影像的典型特征是大部分文件都是小文件,其中MR文件平均大小为60KB左右;CT文件平均大小为300KB左右,也是小文件。长期以来,小文件存储都是存储系统面临的挑战:小文件读写性能低;当存储的文件数量增多时性能会不断下降。

    • 目前在线存储使用传统阵列存储时,PACS图像调阅的速度仅为每秒80幅左右。典型的MR检查,平均每次检查产生约3000~5000张小图片,调阅图片需要数十秒以上;

    • 在大型医院的业务高峰期,数百位门诊、临床医生同时阅片时,对存储系统产生高并发访问,阅片等待时间更长。

  • ■ 系统架构复杂、数据访问不便

    三级存储架构下,PACS影像数据分散保存在三套不同的存储系统中。这会导致以下问题:

    • 在患者进行复查时,医生需要调阅半年前或一年前的检查影像,这些影像位于近线存储中,需要将这些影像先迁移到在线存储中再调阅,不仅操作繁琐,难以让医生立即调阅;

    • 三级架构导致的数据隔离,难以将积累的大量PACS数据用于如AI辅助诊疗、影像数据分析与影像智能诊断等科研活动,使数据价值难以充分发挥;

    • 不同存储系统之间的数据难以统一管理,数据迁移工作繁重。

  • ■ 总体拥有成本较高

    传统中高端阵列存储设备的购置成本较高,尤其是后期扩容成本难以控制。此外,分级存储带来的数据迁移工作量大;三套存储的运维也增加了医院信息中心的运维成本。

解决方案

碧海分布式存储相对于传统阵列存储,在大规模在线扩展、百亿级小文件管理、高性能数据吞吐、敏捷化运维管理、TCO成本优化等方面具有技术优势,可以有效解决医疗PACS目前在存储上遇到的性能、数据孤岛、运维困难、成本较高等问题。在医联体或大型医疗机构PACS系统这样超大数据量且高并发调取、运维管理要求敏捷化的领域,成为存储架构的选择。

20200910120430_14259.png

方案优势

  • ■ 性能提升

    碧海分布式存储进一步对PACS影像存储进行了针对性优化,如采用小文件合并技术和高并发FTP网关,使得其性能要显著高于传统存储和同类分布式存储。在医院门诊高峰期的高并发环境下(ftp峰值连接数达到10000),PACS系统依然能稳定保持较高的调阅速度。

    20201029095800_54456.jpg

  • ■ 架构精简

    碧海分布式存储采用基于NoSQL技术的分布式元数据管理,可管理文件数量达到100亿规模,性能随存储节点数线性提升,可存储大型医疗机构6年以上的PACS影像文件。

    使用碧海分布式存储后,原来在线、近线、离线三层架构简化为一套存储,所有PACS影像都可在线调阅,并且调阅性能无差异,排除了PACS数据孤岛,有效支撑影像大数据分析、AI辅助诊疗等科研和新兴业务需求。

    20201029095814_10141.jpg

  • ■ 运维简化

    碧海分布式存储的平滑在线扩容能力,使随需扩容成为可能。存储硬件的升级换代,只需要将新节点上线、旧节点下线、数据自动迁移就能实现,再也无需人工数据迁移。

  • ■ 成本节省

    由于PACS影像年数据量在快速增长,并且PACS影像按合规要求保存时间更长,PACS影像数据的存储成本问题逐渐显现出来。采用性能和扩展性更高,TCO成本更经济的分布式存储成为越来越多医联体或大型医疗机构的考虑方案。

医疗病理场景解决方案

需求分析

作为现代医学精准诊疗的关键技术支撑,数字病理技术主要应用于诊断病理学样本、管理病理学数据和实现远程及电子类别病理学阅片。借助数字病理技术,可以有效提高诊断的准确性和临床病例的处理速度。病理科医生也可以在每一份标本、每一个细胞中找寻疑难杂症的根因,从而为患者提供更加精准高效的诊断和治疗。

然而,一般三甲医院病理科在实现病理科的数字化转型过程中存在不少挑战,例如,数字病理技术在给诊断方式带来颠覆性变革的同时,也对数据存储系统提出了更高要求。病理科在实现数字化转型的过程中,往往会遇到以下挑战:由于每个切片的数据量可达1-3GB左右,调阅数据过程中很容易出现卡顿现象,严重影响医生阅片体验和工作效率;而根据医院规模的不同,每天可产生数百到数万片病理玻片数据,加之医疗数据需要15-30年长期保存的行业规范,存储系统的容量、扩展性、稳定性等均面临严峻挑战。

  • ■ 调阅性能问题

    一张病理数字切片大小1-3GB,传统的调阅方案加载速度慢,调阅数据过程中很容易出现卡顿现象,严重影响医生阅片体验和临床诊断效率。

  • ■ 存储扩展问题

    病理数据量是PACS影像的10倍。根据医院规模的不同,每天可产生数百到数万片病理玻片数据,大三甲医院每年可新增1-2PB数据量。考虑到数据量的增长情况,加之医疗数据需要15-30年长期保存的行业规范,并且法规要求保存15-30年,存储系统需要实现性能无中断的扩展。

  • ■ 数据共享问题

    病理数字切片文件大,网络传输慢,以及病理大模型和AI辅助诊断系统的应用,加剧了病理存储文件读写性能和网络传输吞吐量的负担,从而进一步影响医生阅片体验和工作效率。

解决方案

面对上述挑战,霄云发布了专门针对数字化病理的碧海分布式存储解决方案。该方案基于霄云自主研发的BOSS-FutureStor分布式存储软件,结合通用的X86服务器或者主流信创服务器构建大容量、高性能、高可靠性以及易扩展的碧海分布式文件对象存储,该存储在性能、扩展性、可靠性、数据共享等方面实现了突破,为病理科的数字化转型提供了坚实的保障。

a1.png

方案优势

  • ■ 高性能

    数字病理数据处理需要较高的性能支持,包括数据的读取、写入和传输等方面。碧海分布式存储系统具备大文件切割成小文件在集群所有存储节点中并发均衡读写,大幅提高大文件的读写性能。此外,存储低延迟及支持25G和100G的网络带宽特性,可以满足数字病理数据处理的要求,消除了调阅慢、卡顿和马赛克等问题。同时,存储性能的均衡分配和性能稳定性对于病理大模型和AI辅助诊断系统的应用也得到了坚实的保障。

  • ■ 按需扩展

    数字病理数据量庞大且增长速度快,对存储系统的可扩展性要求极高。碧海分布式存储系统具备良好的可扩展性,存储集群支持扩展到4096个存储节点。新的存储节点可随时在线加入现有存储池,扩展存储容量和计算能力,以满足数字病理数据存储的需求。

  • ■ 支持硬件异构

    数字病理数据量不仅庞大,且保存时间长,存储节点的硬件更新换代较快,这就需要分布式存储系统具有硬件异构特性。碧海分布式存储系统软件完全自主研发,不基于Ceph开源存储架构,可支持存储池或存储集群级别的硬件异构,也就是可以由不同服务器和配件的品牌、型号、规格构建存储池或存储集群,不仅存储性能一致,而且存储系统也稳定可靠。碧海分布式存储系统对硬件异构的支持,给予病理系统存储的扩展带来极大的兼容与便利,使存储的扩容成本更低也更可控。

  • ■ 文件与对象协议互通

    碧海分布式文件对象存储系统打通了对文件、对象等不同存储类型数据的互通访问,并确保性能无损耗。

    图片关键词

    文件与对象互通访问实现数据以文件或对象的方式写入,可以通过文件或者对象的协议进行读取,且性能无损耗。该特性有助于远程诊断平台、规培教育平台及其他新业务的开展。

基因测序场景解决方案

需求分析

基因检测是指通过特定设备对被检测者细胞中的DNA分子信息作检测,分析其所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法,从而做出对疾病筛查、诊断、复发监测、靶向用药指导、疗效及预后等的技术。

以二代测序和三代测序为主的高通量测序在过去20年中飞速发展,与之相关的基础应用、科研探究以及临床应用随之大幅增加。同时随着”精准医疗”的快速发展,临床应用上对高通量测序的需求越来越大,病原学诊断、 检测与遗传病、肿瘤等疾病的精准诊断等应用领域对高通量测序技术的要求也越越高。

基因测序产生的数据量都是TB级别,例如一台华大智造MGI的DNBSEQ-T7测序仪生产量:4.5Tb/24h,6Tb/30h。 满负荷下,一年能产生1.7PB左右的数据量,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,因此要支撑一台DNBSEQ-T7一年的数据产出存储及分析,大约需要8.5PB有效存储空间。此外,医疗数据需要15-30年长期保存的行业规范,因此,对于基因序列业务的存储系统的大容量、高性能、扩展性、可靠性等均面临严峻挑战。

  • ■ 存储扩展问题

    测序仪的通量越来越高,高通量基因测序仪每日数据量在TB级别。以一台华大智造DNBSEQ-17为例,四载片连载日产数据量高达6TB,一天24小时可完成60例个人全基因组测序,单日可产生6TB数据,一年能产生2PB左右数据量,且生信分析过程中,一般会产生数倍于原始数据量的中间文件和结果,存储系统需实现低成本的海量基因数据长时间存储及数据在线分析、归档等生命周期管理需求。此外,从测序仪下机的单个原始数据通常为几GB、数十GB大小的文件,用户需将原始数据快速导入到存储系统中,而后开始对原始数据进行分析和解读。存储系统需提供超大容量的存储空间并支持大容量单文件存储,因此对存储系统后续的弹性扩展能力要求极高。

  • ■ 存储性能问题

    基因数据分析过程根据不同的应用需求、专业软件,要求计算和存储资源可支撑混合负载需求。此外,在基因测序的业务流程中,基因序列比对、结果检测分析等环节极为耗时,涉及大量的生信领域专业软件,计算资源的算力性能、存储资源的IO性能及方案优化对提升生信研发效率起着至关重要的作用。故要求底层存储系统可支持复杂的高并发读写,满足复杂业务分析计算的要求。

  • ■ 存储可靠问题

    完整的基因测序数据分析过程中,环节复杂,产生的数据量非常巨大,且中间结果特别多,参考数据知识库繁杂,同时业务系统需支持多用户同时进行在线作业分析。故运行数据分析Pipeline流程对实时性、稳定性要求非常高,一旦存储或计算系统出现故障,测序数据分析就会中断,甚至整个分析的Pipeline要重新进行。因此,基因测序业务要求存储系统满足7*24小时连续高压作业的要求,保证长时间的高稳定运行,才能保障整个业务的连续性。

解决方案

面对上述挑战,霄云发布了专门针对基因测序的碧海分布式存储解决方案。该方案基于霄云自主研发的BOSS-FutureStor分布式存储软件,结合通用的X86服务器或者主流信创服务器构建大容量、高性能、高可靠性以及易扩展的碧海分布式文件对象存储。该存储支持EB级单一命名空间,按需线性扩展存储容量和性能,具有较高的可靠性、可用性以及高并发性能,可帮助用户构建统一的基因数据共享资源池,为上层基因测序业务应用平台提供一体化的存储底座,确保基因测序业务7*24小时不间断且稳定可靠的运行。

方案优势

  • ■ 高性能

    基因测序业务处理需要较高的存储性能支持,包括数据的读取、写入和传输等方面。碧海分布式存储系统的多线程并发读写、多客户端性能均衡分配以及海量文件下性能不衰减的技术优势,完美匹配基因检测各流程中海量数据分析对计算资源的高性能需求,有力支撑基因业务增长带来的大容量和高性能需求,‌大大提高海量数据快速分发和基因计算分析效率。

  • ■ 按需扩展

    基因测序数据量庞大且增长速度快,对存储系统的可扩展性要求极高。碧海分布式存储系统的易扩展特性,‌避免了一次性成本投入或冗长的采购周期,未来可按需线性扩展容量和性能,‌使得存储的成本每年可以量化又经济。碧海存储集群支持扩展到4096个存储节点,新的存储节点可随时在线加入现有存储池,扩展存储容量和计算能力,以满足基因测序数据存储的需求。

  • ■ 支持硬件异构

    基因测序数据量不仅庞大,且保存时间长,存储节点的硬件更新换代较快,这就需要分布式存储系统具有硬件异构特性。碧海分布式存储系统软件完全自主研发,不基于Ceph开源存储架构,可支持存储池或存储集群级别的硬件异构,也就是可以由不同服务器和配件的品牌、型号、规格构建存储池或存储集群,不仅存储性能一致,而且存储系统也稳定可靠。碧海分布式存储系统对硬件异构的支持,给予基因测序的存储未来扩展带来极大的兼容与便利,使存储的扩容成本更低也更可控。

  • ■ 智能数据管理

    碧海分布式存储支持智能数据流转和冷热分层,‌优化数据存储成本。‌通过智能数据管理,‌可以实现数据的智能流转至低成本的大容量存储池,‌同时满足基因快速高效计算和海量基因数据成本优化的需求。‌这种管理方式有助于更好地控制存储成本,‌提高数据的使用效率。

综上所述,碧海分布式存储解决方案通过提供高性能、高可靠性、可扩展性的基因测序数据存储方案,‌有效地解决了基因测序领域在数据存储和分析方面面临的挑战,‌为科研和临床应用提供了强大的支持。

典型客户案例

版权所有 © 2023 上海霄云信息科技有限公司
地址:上海市闵行区剑川路951号 零号湾科技园 1幢南楼8楼
全国统一服务电话:400-108-0268
Powered by MetInfo 7.9 ©2008-2025  mituo.cn