您现在的位置是:首页 > 两会时间 >

全国政协委员、中国科学院计算技术研究所张云泉:通过融合超算与智算突破"算力围城"

2025-03-07 09:58:22作者:路沙来源:信息主管网

摘要随着大语言模型引发新一轮科技革命,算力已成为全球竞争的关键战略资源。发达国家加快布局新一代智算中心,以xAI为例,已建成十万张H10 ...

  随着大语言模型引发新一轮科技革命,算力已成为全球竞争的关键战略资源。发达国家加快布局新一代智算中心,以xAI为例,已建成十万张H100组成的总算力达200 Eflops@BF16的大模型训练集群,具备"三高一快"特征:高密度(单机柜功率密度40-100kW)、高效率(GPU训练效率70-80%)、高性能(算力规模超100Eflops@BF16)和快速响应。我国目前公开报道的最大单体智算中心算力仅为万卡6.6Eflops@BF16,与国际领先水平差两个数量级;主流机架功率密度低于15kW,远低于高端AI功率密度要求;能够支撑大模型训练的高端算力中心极为稀少且训练效率不超过30%。近期,DeepSeek通过算法创新和深度并行优化,实现了以低算力达到世界先进水平的性能,既展示了算法技术创新重要性,也凸显出我国高端算力基础设施的短板。如何在提升算力使用效率、保持世界先进水平的同时,加快高端算力设施建设,突破算力围城,已成为我国AI产业发展的紧迫课题。作为算力领域的专家,全国政协委员、中国科学院计算技术研究所研究员张云泉今年再次围绕算力设施建设与智算产业发展,提出“关于超智融合突破‘算力围城’”的建议,呼吁加快高端算力设施建设,提升算力使用效率,以应对人工智能大模型快速发展所带来的“算力围城”困局。“前两年,我的提案关注‘东数西算’宏观布局,今年则要聚焦‘超智融合’趋势下的发展难题。”张云泉说道。

  算力市场存在供需性矛盾

  据了解,在过去一年的时间里,张云泉走访了众多算力中心及相关企业,对于当下算力产业发展状况进行了敏锐洞察。他表示:“我们可以看到伴随DeepSeek等AI开源大模型涌现,大模型在各个行业的应用不断变多,这对算力基础设施建设提出新需求。而当前算力市场存在供需性矛盾:算力结构单一、高端算力紧缺。而算力基础设施与国际领先水平存在代际差异,制约了大模型迭代创新速度。”具体来看,存在以下几个问题:一是算力供需结构性失衡, 高端智算供给严重不足。目前国内主要智算中心单体规模仅在100-1000Pflops之间。高端智算中心要求具备万卡级分布式训练能力,性能需达到10Eflops@BF16以上,且机架功率密度达到40-100kW, 基础设施的代际差异严重制约了大模型迭代创新速度。二是智算中心算力结构单一,基础工具链不完善,通用性不强,利用率不高。智算中心往往只考虑低精度训练算力需求,未结合行业场景考虑混合精度融合算力需求,导致通用性不强;生态建设滞后,缺乏国产高性能可扩展并行训推编程框架和优化工具链,导致国产大规模智算机群计算效率普遍偏低,可扩展性不高。三是大模型行业渗透率低,与产业应用脱节。大模型研制单位注重大模型训练,不重视行业场景深度融合。有些大模型只强调参数规模而忽视模型效率和不同场景应用效果。对于算力设施建设与智算产业发展的诸多痛点,张云泉表示,一方面,应从算力供给侧,引导高端算力发展走上“超智融合”技术路线,建设大算力、全精度、高互联的高端智算中心,并发展先进存力,促进产业界均衡配置算力与存力资源;另一方面,应从算力应用侧,重点支持头部基础大模型企业,打造世界领先开源开放主权级基础通用大模型,鼓励开放更多应用场景。

  突破“算力围城”难题

  张云泉表示,超算与智算深度融合发展,能够将几十年国产超算积累的架构,芯片,并行与通信算法,算力调度与负载均衡甚至底层优化等关键技术和人才赋能高端智算中心建设和大模型高效训推优化过程,有效解决算力围城。而如国家超算互联网等算力平台,正成为国内“超智融合”技术演变的重要依托。对于如何走好“超智融合”技术以突破“算力围城”难题,张云泉提出多项具体建议:一是出台高端智算中心建设管理办法,从供给侧引导高端算力发展。建立智算中心分级准入标准,新建智算中心须满足三高一快要求,不符合要求不予批准建设。二是集中资源,重点支持大模型领军企业。加强统筹布局,坚定不移培育“领跑者”,重点支持有技术原创和领先能力的头部基础大模型企业,打造世界领先开源开放主权级基础通用大模型。三是建设国家级大算力集群,引入先进算力调度、分配、优化和管理技术,提高利用率。积极引导基于全精度、大算力、高互连国产芯片,构建新一代超智融合国家级算力中心。进一步突破数据中心边界,实现多中心、跨区域分布式计算,把中小算力中心算力融入到大计算资源池。四是设立"智算工具链产业基础再造"和“超智融合“专项研发基金,加大对关键技术、核心算法等领域研发投入,鼓励教育科研机构和企业开展前沿技术研发。借鉴DeepSeek等企业在算法优化方面成功经验, 重点突破十万卡级并行训练自主工具链、智能化运维体系和数据流水线优化等关键技术,提升训练效率,缩短故障处理时间,实现PB级训练数据高效处理。通过产学研协同创新,打造开放共享的智算工具链和超智融合生态。

 


(本文不涉密)
责任编辑:王艳

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们