数据存储将成为AI大模型的关键基础设施华为发布两款AI存储新品

人工智能从大模型逐渐走向超大模型,从单模态走向多模态,数据存储成为关键要素。以存力和算力为中心的大模型时代已经来临。

7月14日，华为发布大模型时代AI存储新品，为基础模型训练、行业模型训练、细分场景模型训练推理提供存储“最优解”。

华为数据存储产品线总裁周跃峰表示，企业在开发及实施大模型应用过程中面临四大挑战：

第一：数据准备时间长，数据来源分散，归集慢，预处理百TB数据需10天左右；

第二：多模态大模型以海量文本、图片为训练集，当前海量小文件的加载速度不足100MB/s，训练集加载效率低；

第三：大模型参数频繁调优，训练平台不稳定，平均约2天出现一次训练中断，需要Checkpoint机制恢复训练，故障恢复耗时超过一天；最后，大模型实施门槛高，系统搭建繁杂，资源调度难，GPU资源利用率通常不到40%。

华为针对不同行业、不同场景大模型应用，推出OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。

其中，OceanStor A310深度学习数据湖存储，面向基础/行业大模型数据湖场景，实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。FusionCube A3000训/推超融合一体机，面向行业大模型训练/推理场景，针对百亿级模型应用，集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件，为大模型伙伴提供拎包入住式的部署体验，实现一站式交付。

信息化百人会学术委员、中国工程院院士倪光南此前在接受媒体专访时就表示，数据已成为国家基础性战略资源。数据存储能力（简称“存力”）和信息计算能力（简称“算力”）、网络运载能力（简称“运力”）都是我国信息产业发展的核心和基础，是建设科技强国的战略支撑。他认为，存力将成为国家的战略性、基础性产业，成为新的国际竞争高地。

“大模型时代，数据决定AI智能的高度。作为数据的载体，数据存储成为AI大模型的关键基础设施。”周跃峰在会后接受采访时表示，中国人工智能产业要高速发展，一定要重视数字化，重视数据和信息数字化的记录。

近来大火的AI大模型，在实施过程当中，最大的困难来自于数据的准备。他称，从AI大模型成本来看，算力成本大概占25%；买服务器、数据清洗、预处理等工作成本大概占了22%。可见，数据以及数据的存储、处理过程变得越来越重要了。这个重要不仅仅说它的数据量变大了，更多的是在这个数据处理过程更加的复杂。华为分布式存储领域副总裁韩振兴称，国内会大量出现存力中心，未来将有更高性能的存储品类诞生。

AI大模型 AI存储华为数据存储

数据存储将成为AI大模型的关键基础设施 华为发布两款AI存储新品

相关文章

数据存储将成为AI大模型的关键基础设施华为发布两款AI存储新品