您现在的位置是:首页 > 人工智能 >
LLM吞吐量提升超10倍,燧原×清程极智合作实例入选《2024年人工智能先锋案例集》
摘要11月12日,燧原联合清程极智合作实例《面向超万亿参数大模型和超大规模集群的高性能系统方案》成为国内AI Infra的代表案例入选中国人工智 ...
11月12日,燧原联合清程极智合作实例《面向超万亿参数大模型和超大规模集群的高性能系统方案》成为国内AI Infra的代表案例入选中国人工智能产业发展联盟《2024年人工智能先锋案例集》,超万亿参数大模型和超大规模算力集群的算力需求解决方案迎来新突破。
此次人工智能先锋案例征集工作由中国人工智能产业发展联盟、工业和信息化部新闻宣传中心、中国信息通信研究院组织开展,着眼于甄选出人工智能技术应用及产业发展中具备高价值、标杆性、真落地的行业典型应用案例,双方的合作项目从300多个案例中脱颖而出,成为AI Infra赛道的代表案例。
高价值
一应俱全:系统软件解决方案,同时解决基础大模型预训练、大模型微调和大模型推理部署等多类算力需求
AI大模型数量不断激增的同时,日益增长的模型参数、海量的语料库及广泛的场景需求对AI算力基础设施提出了巨大的挑战,如何使超大规模集群能够同时具备高效率和高性价比,成为业界亟需解决的关键问题。
清程极智和燧原科技携手合作,通过软硬协同的开发与优化创新,打造了面向超万亿参数大模型和超大规模算力集群的系统软件解决方案,能够满足基础大模型的预训练、行业大模型的微调和大模型推理部署等不同应用场景和多元算力需求。
效果显著:提升AI加速卡利用效率,显著降低大模型推理成本
大模型推理分为预读(prefill)和解码(decode)两阶段,其中解码阶段的内存读取量远高于计算量,目前国产AI加速卡典型内存配置容量难以充分满足大模型推理需求,易出现内存访问速率瓶颈,导致硬件利用率低下。
双方合作案例的创新设计,通过增强CPU和AI加速卡在大模型推理阶段的协同工作,使用闲置CPU和主内存构建新的缓存方案,极大提高大模型推理吞吐率,从而提升AI加速卡利用效率,显著降低大模型推理成本。
标杆性
LLM吞吐量提升超10倍
在项目合作的首期,面向大模型推理市场,双方研发成果收获了新的数据效果。
基于燧原面向大规模部署需求的新一代人工智能推理加速卡“燧原S60”,清程智能系统软件方案全盘赋能,双方共同研发实现了清程Pro、清程Max大模型高效能推理一体机。
与vLLM等开源方案相比,清程一体机在不同场景下可实现1到10倍不等的吞吐量提升,在多个大语言模型、搜广推及传统模型上实现了数倍推理加速效果。
清程系统软件赋能,充分激发了燧原S60覆盖面广、易用性强、易迁移易部署等特点,软硬协同,携手共创大模型推理性能提升强效果,为进一步降低相关应用场景的算力使用成本提供了可规模落地的技术新产品。
向未来
将充分释放底层国产AI硬件算力的能力落到实处
双方合作的产品方案,可直接应用并服务到燧原科技支撑建设的东数西算节点枢纽项目中,助力多个互联网行业头部企业的多元化智能业务运行。
基于燧原下一代产品以及清程极智的系统软件方案,双方打造的面向超万亿参数大模型和超大规模算力集群方案将不断升级,解决基础大模型预训练、大模型微调和大模型推理部署等多个算力需求,赋能图像及文本生成、搜索与推荐、文本、图像及语音识别等主流模型,推动生成式人工智能的变革。
——————————————————————————————————————————————
关于燧原科技
燧原科技专注人工智能领域云端算力产品,致力为通用人工智能打造算力底座,提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案。凭借其高算力、高能效比的创新架构和高效易用的软件平台,产品可广泛应用于泛互联网、智算中心、智慧城市、智慧金融、科学计算、自动驾驶等多个行业和场景。
关于清程极智
清程极智的使命是持续向人工智能行业贡献算力充沛、功能完备、性能极致的智能算力解决方案。
清程极智作为国内AI Infra领域的引领者和深耕者,在支持国产智能算力的系统软件方面具备多项核心能力,已掌握了并行系统、计算框架、通信库、算子库、AI编译器、编程语言、调度系统、存储系统、内存管理、容错系统等10个关键基础软件的核心技术,并在其中过半数领域拥有自研产品。
基于清程自研的大模型训练及推理引擎,编译器、云服务等多项产品打造的清程智能算力解决方案,可满足大模型开发、部署及优化全栈技术要求,已帮助数款大模型完成了在多款国产芯片上的快速预训练和高性能推理优化,实现降本增效目标,综合案例统计,经清程赋能,大模型应用成本可降低2个数量级,大模型运行效率能够提升近100倍。
(本文不涉密)
责任编辑:于帆
此次人工智能先锋案例征集工作由中国人工智能产业发展联盟、工业和信息化部新闻宣传中心、中国信息通信研究院组织开展,着眼于甄选出人工智能技术应用及产业发展中具备高价值、标杆性、真落地的行业典型应用案例,双方的合作项目从300多个案例中脱颖而出,成为AI Infra赛道的代表案例。
高价值
一应俱全:系统软件解决方案,同时解决基础大模型预训练、大模型微调和大模型推理部署等多类算力需求
AI大模型数量不断激增的同时,日益增长的模型参数、海量的语料库及广泛的场景需求对AI算力基础设施提出了巨大的挑战,如何使超大规模集群能够同时具备高效率和高性价比,成为业界亟需解决的关键问题。
清程极智和燧原科技携手合作,通过软硬协同的开发与优化创新,打造了面向超万亿参数大模型和超大规模算力集群的系统软件解决方案,能够满足基础大模型的预训练、行业大模型的微调和大模型推理部署等不同应用场景和多元算力需求。
效果显著:提升AI加速卡利用效率,显著降低大模型推理成本
大模型推理分为预读(prefill)和解码(decode)两阶段,其中解码阶段的内存读取量远高于计算量,目前国产AI加速卡典型内存配置容量难以充分满足大模型推理需求,易出现内存访问速率瓶颈,导致硬件利用率低下。
双方合作案例的创新设计,通过增强CPU和AI加速卡在大模型推理阶段的协同工作,使用闲置CPU和主内存构建新的缓存方案,极大提高大模型推理吞吐率,从而提升AI加速卡利用效率,显著降低大模型推理成本。
标杆性
LLM吞吐量提升超10倍
在项目合作的首期,面向大模型推理市场,双方研发成果收获了新的数据效果。
基于燧原面向大规模部署需求的新一代人工智能推理加速卡“燧原S60”,清程智能系统软件方案全盘赋能,双方共同研发实现了清程Pro、清程Max大模型高效能推理一体机。
与vLLM等开源方案相比,清程一体机在不同场景下可实现1到10倍不等的吞吐量提升,在多个大语言模型、搜广推及传统模型上实现了数倍推理加速效果。
清程系统软件赋能,充分激发了燧原S60覆盖面广、易用性强、易迁移易部署等特点,软硬协同,携手共创大模型推理性能提升强效果,为进一步降低相关应用场景的算力使用成本提供了可规模落地的技术新产品。
向未来
将充分释放底层国产AI硬件算力的能力落到实处
双方合作的产品方案,可直接应用并服务到燧原科技支撑建设的东数西算节点枢纽项目中,助力多个互联网行业头部企业的多元化智能业务运行。
基于燧原下一代产品以及清程极智的系统软件方案,双方打造的面向超万亿参数大模型和超大规模算力集群方案将不断升级,解决基础大模型预训练、大模型微调和大模型推理部署等多个算力需求,赋能图像及文本生成、搜索与推荐、文本、图像及语音识别等主流模型,推动生成式人工智能的变革。
——————————————————————————————————————————————
关于燧原科技
燧原科技专注人工智能领域云端算力产品,致力为通用人工智能打造算力底座,提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案。凭借其高算力、高能效比的创新架构和高效易用的软件平台,产品可广泛应用于泛互联网、智算中心、智慧城市、智慧金融、科学计算、自动驾驶等多个行业和场景。
关于清程极智
清程极智的使命是持续向人工智能行业贡献算力充沛、功能完备、性能极致的智能算力解决方案。
清程极智作为国内AI Infra领域的引领者和深耕者,在支持国产智能算力的系统软件方面具备多项核心能力,已掌握了并行系统、计算框架、通信库、算子库、AI编译器、编程语言、调度系统、存储系统、内存管理、容错系统等10个关键基础软件的核心技术,并在其中过半数领域拥有自研产品。
基于清程自研的大模型训练及推理引擎,编译器、云服务等多项产品打造的清程智能算力解决方案,可满足大模型开发、部署及优化全栈技术要求,已帮助数款大模型完成了在多款国产芯片上的快速预训练和高性能推理优化,实现降本增效目标,综合案例统计,经清程赋能,大模型应用成本可降低2个数量级,大模型运行效率能够提升近100倍。
(本文不涉密)
责任编辑:于帆