AI时代的数据革命,分布式融合存储为何堪当大任?
2023-05-25 17:35:13
  • 0
  • 0
  • 0

有人说,以ChatGPT为代表的人工智能应用的兴起标志着AI时代奇点来临。

诚然如斯。这一波AIGC浪潮来袭,让人们真正意识到AI给生产力带来的巨大飞跃。从今年起,AI大模型成为行业用户重点关注的对象,甚至金融、媒体、广告营销等用户纷纷试水AI大模型。

但OpenAI ChatGPT的成功,除了整合Transformer等多种人工智能技术之外,基础设施的高效支撑也功不可没。随着AI应用的深入,越来越多用户意识到,伴随着AI时代的到来,一场数据革命也随之发生:如何高效存储与处理海量多元数据、如何实现数据全生命周期的高效管理、如何为AI大模型选取合适的数据精度……

因此,分布式融合存储开始堪当大任,在各类AI应用的数据基础设施中扮演着重要角色。强大的分布式融合存储将成为AI时代各类智慧应用的基石,真正解决AI应用的训练与推理等各类数据痛点,为AI释放生产力注入数据存储的关键力量。

AI时代的数据革命

近年来,分布式融合存储市场的整体增长速度明显更快。

究其原因,以大数据、AI为代表的新应用场景兴起是关键所在。这些新应用、新场景均需要大量应用到非结构化数据。Gartner预测,到2025年,人工智能将成为推动基础架构决策的最主要因素之一,这将导致基础架构需求增长10倍。

如果说过去十年里,AI应用的兴起首先带来了算力的革命,让多元异构算力成为大势所趋,智算中心成为数据中心建设方向;那么,未来十年,随着AI应用的深入,数据规模的持续增大,一场数据革命即将到来,将对数据基础设施的发展带来深远影响。

首先,以AIGC为代表的AI大模型应用正在加速走向多模态。例如,OpenAI GPT-5开始就是多模态大模型,这意味着音视频等数据将会接入,数据集迎来指数级的增长,对于数据存储的需求也会产生根本性的影响。

浪潮信息存储产品线总经理李辉直言,AI大模型会对数据基础设施带来根本影响:其一、大模型走向多模态,筛选后的数据集就达到PB级,而筛选前的数据量会更加惊人;其二,大模型应用走向深入,意味着海量终端的接入,带来大量推理需求,对于数据基础设施的延时要求会越来越高。

其次,各大行业的AI应用逐渐进入纵深阶段,对于数据存储的性能将会极度渴望。例如,L2级自动驾驶普及率正在提升,从L2到L3进阶时,对于训练的性能要求越来越高;又如,车路协同场景的出现,进一步加速了数据基础设施的性能要求。

“像车路协同、智能制造、智慧医疗这些场景中,对于数据处理性能、时效性等是目前当下的核心挑战。”浪潮信息存储产品线副总经理刘希猛介绍道。

第三,AI应用的规模化和场景多样化,会提升数据处理的复杂度,对于数据基础设施的数据互通性、绿色节能带来了极大挑战。例如,现在车路协同就是典型的端-边-云联动的智慧应用,数据往往需要在多个场景中流动、传输和应用。

因此,业界普遍认为,AI时代会加速数据基础设施的变革,在非结构化数据当道的大趋势下,分布式融合存储将在这场变革中发挥巨大作用。

分布式融合存储为何堪当大任

面对非机构化数据带来的数据洪流,分布式融合存储之所以能够获得青睐,主要在于它所具备的高扩展能力、高可靠性等优势,可以应对海量数据带来的种种挑战。

事实上,除了上述优势之外,分布式融合存储近年来也在不断演进与迭代,在协议融合、性能和安全性等方面与时俱进,以适应大数据、AI等应用带来新数据存储需求。

分布式融合存储第一个重要的特征就是需要做到多元融合,除了早期融合块、文件、对象等协议之外,现在很多分布式融合存储产品也开始融入了大数据等协议。

为什么分布式融合存储多元融合的方向意义重大?其实从数据处理管道就能够了解多元融合的重要性,AI应用往往涉及数据处理的多协议和长链路,往往是混合负载交织在一起,存在多个数据集之间来回拷贝的环节,不仅数据处理效率低下,性能也无法满足AI应用的处理需求。

以科教研场景的为例,当前科教研属于典型的计算+AI+Bigdata融合模式,数据的高效处理是基础和关键。刘希猛介绍,很多科教研场景建立数据集是一个非常痛苦的过程,因为需要数据复制,几十PB数据的复制需要花费多天时间,而如果协议融合的话,就可以免去数据复制,让数据处理的效率大幅提升。

分布式融合存储第二个重要的特征是智能敏捷。众所周知,虽然当前数据量爆炸性的增长,但是被用来分析的数据量依然很小。相关数据显示,已获取数据的平均留存率仅为2%,大量数据从未被分析和利用,分布式融合存储需要能够实时、智能地处理数据,满足各种AI应用带来的性能需求。

分布式融合存储第三个重要特征就是提升安全性。随着AI应用走向普及,各种安全问题也随之暴露,作为数据最后一道防线,分布式融合存储的数据保护能力也需要随之提升。

当前,几乎所有分布式融合存储产品都在加速迭代,以在数据存储层面来支撑大数据、AI等新应用的需求变化。以浪潮信息新一代分布式融合存储AS13000G7为例,堪称分布式融合存储演进的代表。

浪潮信息AS13000G7在保障安全可靠的基础上,以“多合一”极致架构为核心,具备“多合一极致融合架构、极致性能、极致容量”等极致能力,并打造通用型分布式融合存储、高密型视频分布式融合存储、性能型全闪分布式融合存储等多种产品形态。

以融合架构为例,浪潮信息AS13000G7率先实现了一套存储支持多种接口协议、多种数据存储应用(文件、对象、大数据、视频等),实现一份数据的多协议互访互通。比如,针对AI应用对数据处理的各种需求,可以避免分散管理流程,无需拷贝数据和复杂的性能调优,使得所有数据处理流程均在一套分布式融合存储中。

“像教科研场景的数据集创建,不用数据复制,即可实现一份数据的多种协议访问,大幅降低了数据复制带来的容量挑战。”刘希猛表示道。

而极致性能方面,浪潮信息AS13000G7基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现端到端联合调优。相较上一代产品,性能提升40%。

此外,浪潮信息AS13000G7在极致容量上也再上一个台阶,单一集群最大扩展至10240节点,单一文件系统支持千亿文件,基于iCap智能空间管理引擎,通过业内领先的32+2大比例纠删、智能均衡、压缩重删、多源零拷贝、软拷贝等智能容量算法,让存储空间利用率达到94%以上。

作为当前全球存储增长速度最快的厂商之一,浪潮信息在分布式融合存储领域耕耘多年,一直走在市场的最前沿,并且有着出色的市场表现,无论是装机容量还是销量均位列市场前茅,其新一代分布式融合存储AS13000G7的发布,不仅树立了新一代分布式融合存储的标杆,更意味着创新力十足的分布式融合存储产品在市场吹响担当大任的号角。

分布式融合存储未来可期

不可否认,过去多年里,集中式存储一直是当之无愧的主角,分布式融合存储虽然发展多年,直到现在,才真正迎来市场良机,从产业规模、增长速度、产品创新等方面开始全面开花。

在李辉看来,分布式融合存储未来会朝着数据中心操作系统+存储底座的形态演进,未来会成为支撑企业数字化转型的一个重要大平台。

从产品形态来看,分布式融合存储未来会走软硬一体机的主流形态,产品也会更加贴近场景化。分布式融合存储产业联盟的《分布式融合存储发展白皮书》显示,2021年中国分布式融合存储市场规模达到百亿级,其中一体机形态占比高达91%,软硬协同实现端到端的高可靠、高性能和一体化运维能力。

另外,分布式融合存储的应用场景会更加广泛化,并且产品形态会更加贴近应用场景。以浪潮信息AS13000G7-MS60巨量、多模态非结构化数据的极致容量场景,像智慧城市、智慧交通等产生海量实时数据和分析应用的场景,AS13000G7-MS60可以提供广泛兼容、高性价比、高可靠的存储服务;AS13000G7-MN24则对自动驾驶等实时数据分析的场景提供业界领先的性能和数据处理能力。

从技术创新角度来看,分布式融合存储未来会与AI应用等大趋势联系更加紧密。众所周知,数据存储属于基础设施底层产品,一直离应用较远,但是未来随着AI应用进入纵深阶段,分布式融合存储的技术创新也会与上层应用联系更加紧密。

“系统级的重删、压缩技术是分布式融合存储很重要的创新方面。以AI大模型为例,在收集数据阶段,分布式融合存储系统级的压缩技术去识别数据,去AI去减少对存储空间的占用,以及提升数据质量。这其中还有很多底层技术值得去研究与探索。”李辉介绍道。

从数据中心架构发展来看,存算分离架构的趋势未来会对分布式融合存储产生诸多影响,尤其是像CXL协议、DPU处理器等快速发展,让分布式融合存储未来的作用与地位更加突出。李辉直言:“除了数据中心存算分离外,云数也会走向解耦。在混合云或者多云模式下,数据如何更好地流动、共享是用户的核心诉求,云与数的解耦无疑是有助于数据的流动。”

综合观察,《分布式融合存储发展白皮书》预测,未来三年,中国分布式融合存储仍将保持40%的增长速度,分布式融合存储在云、大数据分析、AI等应用场景有着广泛的部署需求,堪称AI时代的基石。而浪潮信息作为分布式融合存储市场销量中国第一的厂商,无疑对于分布式融合存储的产品创新、未来趋势有着极为深刻地认识。面向未来,随着浪潮信息AS13000G7的问世,浪潮信息有望加速推动分布式融合存储在千行百业中的应用,为千行百业的数字化转型和智能化升级注入源源不断的数据活力。

 
最新文章
相关阅读