MLPerf AI存储基准测试，中国速度领跑-大数据在线的专栏

MLPerf AI存储基准测试，中国速度领跑

2024-11-04 20:23:56栏目：市场洞察 IP属地：IP未知

近日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。

测试结果颇有些意外，却又在情理之中：以浪潮信息为首的三家中国存储厂商位列MLPerf™ Storage多项细分评测最佳，中国速度在全球AI存储权威测试中实现领跑。这既是中国数据存储产业整体实力近年来稳步提升的客观反映，也是AI时代中国存储厂商产品与技术创新能力的集中体现。

随着AI技术与AI应用不断进入到千行百业，各大行业围绕AI、数据要素等发展新质生产力已成为确定性趋势。可以预见，算力与存力齐头并进的局面也将全面打开，而中国存储厂商在AI存储领域的持续创新，有望推动存算协同效应持续优化，让AI技术在千行百业中遍地开花。

MLPerf测试：存储性能的一把新标尺

一直以来，性能都是衡量存储系统的重要指标之一。

过去，SPC测试（Storage Performance Council,存储性能委员会测试）是存储系统性能的权威评测；如今，随着AI大模型获得越来越多应用，关键在于对于大规模海量数据的高效处理，这不仅仅需要强大的AI算力，亦离不开存储系统在性能、可靠性等方面的有力支撑。那么，如何衡量存储在AI场景中的性能、可靠性等能力？

为此，MLPerf™应运而生。MLPerf™ 是影响力最广的国际AI性能基准评测，由图灵奖得主大卫•帕特森（David Patterson）联合顶尖学术机构发起成立，并于2023年推出MLPerf™ Storage基准性能测试，该测试通过准确建模ML工作负载所产生的I/O模式来帮助解决存算平衡问题，为不同存储系统和不同加速器类型的混合和匹配提供灵活性，为ML/AI模型开发者选择存储解决方案提供权威的参考依据。

据悉，MLPerf™ Storage基准性能测试推出两年时间里，已历多个版本迭代，并获得全球多家厂存储厂商的积极参与和支持。以本次测试为例，评测围绕医学影像分割、图像分类、宇宙学参数预测三大AI存储应用场景，采用主流的3D-Unet、ResNet50、CosmoFlow三类模型，在GPU利用率高达90%或70%的条件下，以带宽和支持的模拟 GPU （模拟加速器）数量为关键性能指标，评估单客户端或集群模式下存储系统的性能表现。

可以说，MLPerf™ Storage基准测试正迅速成长为衡量存储在AI场景中性能产品力的一把标尺。浪潮信息存储产品线副总经理刘希猛介绍，ML commons协会已有超过160个会员，MLPerf™ Storage基准测试建立之初就以架构中立、公平性和可重复性为宗旨，从测试的设计端尽量确保客观、公正地反映存储系统在AI场景中的的性能。

再仔细分析MLPerf™ Storage基准测试，其数据格式、测试套件框架、测试逻辑和流程均高度适配真实AI场景，任何存储厂商均能在相同的、公正的平台上测试自身软、硬件的产品性能，从而快速评估自身产品的能力。

例如，MLPerf™ Storage基准测试为保证测试公正性，通过运行一个分布式训练测试程序，模拟GPU计算过程，最大程度还原AI服务器对存储系统的访问，在满足计算资源利用率和IO时间相同的条件下，比较存储在同样时间里加载和处理数据的利用率，以此来测试存储系统能够支撑的最大GPU数量和性能表现。

“像3D-UNet测试不允许提前在主机上缓存数据，数据需要从存储节点读取，能够更加全面、科学体现存储系统在大规模AI集群中的性能表现。”浪潮信息分布式存储方案架构师Lance Sun介绍道。

事实上，全球有十三家重量级存储厂商参与本次评测，以浪潮信息为代表的三家中国存储厂商表现优异。其中，浪潮信息更是主动选择封闭赛道，严格遵循既定配置和代码规范，其分布式存储平台AS13000G7在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳成绩，展现出极强的产品竞争力。

中国速度领跑

为什么中国存储厂商能在MLPerf™ Storage性能基准测试中领跑？

事实上，这更像是中国存储产业不断积累和持续成长的必然结果。十年前的SPC测试开始，中国存储产品逐渐登陆SPC性能榜单之中，那时候中国存储厂商渴望在国际权威舞台中证明自己，后来甚至屡次上演霸榜的好戏，“不服？跑个分！”成为中国存储厂商的常规操作。

随着AI大模型的兴起，AI场景的大量涌现，对于存储系统的性能、多协议、可靠性、数据管理等带来深远影响。与SPC那套成熟的测试机制相比，以MLPerf™ Storage为代表的聚焦AI场景的存储基准测试刚刚起步，尚处于高速发展的阶段。此时，中国存储厂从早期就积极参与其中，更像产业新标准、新规则制定的参与者，是趋势理解、技术能力、场景洞察等能力的综合体现。

例如，在本次MLPerf™ Storage基准评测中，浪潮信息率先在Cosmoflow场景中发现问题，即哪怕将数据集放在内存之中，GPU的利用率依然达不到90%。因此，浪潮信息第一时间与MLCommons进行沟通，反馈测试套件、平台标准的缺陷，并与英伟达等公司一起讨论、论证，最终制定出Cosmoflow场景GPU70%利用率的标准。

另外，像浪潮信息能够在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳，离不开其较早涉足大模型训练、推理等场景的深度实践，对于AI场景中软硬协同有着深刻理解，并且从整体架构到软硬件各个技术栈进行多个层面的针对性创新，从而在MLPerf™ Storage基准评测中实现领跑。

例如，在架构层面，浪潮信息采用自研分布式软件栈，通过全新数控分离架构，数据面和控制面完全解耦，实现120 GB/s的单存储节点超高性能，单存储节点支撑5台8卡计算节点规模，同时计算集群GPU利用率90%以上；在软件层面，浪潮信息通过多路并发透传技术，有效减少I/O操作中频繁的上下文切换，降低单次I/O时延50%，并确保高并发下的时延稳定性；在软硬协同层面，浪潮信息通过内核亲和力调度，I/O请求动态调整，增强文件系统与计算节点亲和性，确保负载均衡，将数据移动与多核CPU之间的访问效率提升400%。

刘希猛介绍，针对AI场景的实践，浪潮信息的存储产品有两个核心策略：其一是以客户需求为导向，从实际AI场景应用出发来打造定制化的存储产品；其二，通过成熟的AI场景解决方案能力来精准平衡客户需求、资源分配与成本控制，为AI场景构建坚实的数据支撑平台。

MLperf后续：存算协同将深入人心

毫无疑问，AI大模型彻底改变了基础设施的规模与复杂性。

如今，随着AI大模型加速走向各大垂直行业，千卡、万卡集群也在不断涌现，并且多元算力也加速成为主流配置。可以说，在算力侧的巨大变化，无疑会进一步全面提高对存储侧在性能、可靠性、容量、功耗和管理的要求。

因此，存算协同在未来必然会获得更多用户的关注。MLPerf™ Storage基准性能测试无疑开了个好头，真正从基准测试的维度来衡量存算协同能力，也值得厂商、用户等更多关注。

在Lance Sun看来，MLPerf™ Storage基准性能测试刚刚开展两年，但在产业界已产生了重要影响，值得持续关注和参与。首先，未来一定会有包括更多中国厂商参与到MLPerf™ Storage基准性能测试中来；其次，未来像向量数据库、能耗等一些新的规则有望引入，测试标准和规范会得到持续迭代、完善，让基准性能测试更加科学准确。

综合观察，在数实融合和发展新质生产力的驱动下，千行百业加速拥抱人工智能已是大势所趋。随着AI大模型技术自身的快速发展，对于算力、存力等基础设施带来巨大变革。如何最大化发挥基础设施的价值，让存算协同的重要性迅速提升，也驱动着中国存储产业加速成长与持续创新。MLPerf™ Storage基准性能测试拉开AI存储赛道比拼的新序幕，以浪潮信息为代表的中国存储厂商有望在这条赛道中跑出中国速度、引领存储新变革。