您现在的位置是:首页 > IT基础架构 > 计算存储 >
曙光数创张鹏:AI原生时代 重新定义液冷技术服务范式
2025-06-13 17:12:49作者:路沙来源:中国信息化周报
摘要曙光数创副总裁兼CTO张鹏表示,传统数据中心在冷却系统上的能耗惊人,且电子设备失效多因高温造成。据统计,2022年—2023年,中国新增服务器中采用液冷技术的比例仅为个位数,2024年有所提升,达到10%左右。曙光数创预测,到2030年,随着液冷服务器出货量不但提升,液冷的渗透率预计将达到35%。...
随着人工智能技术的飞速发展,算力需求呈现爆发式增长。与此同时,芯片功耗问题愈发凸显。以英特尔和NVIDIA的主流芯片为例,从2000年到2020年,CPU TDP(热设计功耗)功耗基本稳定在100瓦到200W以内,单机柜功率也仅在3-5kW左右。然而,从2020年到2025年,无论是CPU还是GPU,功耗都呈翻倍增长态势。如今,CPU功耗已达到400-500W;GPU功耗,如NVIDIA预计其2027年推出的Rubin Ultra 576芯片,单机柜功率可能高达600kW。这一趋势对数据中心的散热和能耗管理提出了严峻挑战。
曙光数创副总裁兼CTO张鹏表示,传统数据中心在冷却系统上的能耗惊人,且电子设备失效多因高温造成。据统计,2022年—2023年,中国新增服务器中采用液冷技术的比例仅为个位数,2024年有所提升,达到10%左右。曙光数创预测,到2030年,随着液冷服务器出货量不但提升,液冷的渗透率预计将达到35%。“因此,我们认为液冷是AI时代的必选项,无论从极致芯片散热、能耗优化还是部署密度提升等方面来看,液冷都具有不可替代的重要作用。”张鹏如此说道。
秉承“液冷即服务”的理念 提升全生命周期服务
虽然液冷数据中心发展迅速,但目前仍处于初步发生阶段,实际应用比例较低。在发展过程中,液冷数据中心仍然面临着诸多问题。从设计方面来看,传统设计院对液冷和传统暖通设计存在误区;液冷服务器种类繁多,系统匹配难度较大,同时各厂家的设计标准不一,温度、温差、压力等参数各不相同,架构设计也千差万别。这些不同的需求和设计都增加了液冷数据中心的复杂性。
此外,液冷数据中心的施工质量参差不齐,一旦施工环节出现问题,后期运维难度将大幅增加。液冷系统本身看似简单,无冷机,仅有冷塔、风扇、水泵,但实际上,目前大部分液冷系统设计较为脆弱,一旦运维稍有疏忽,就可能导致事故宕机。
张鹏表示,基于此,曙光数创践行“液冷即服务”的理念,强调液冷不单纯是设备的提供,客户需要的是全生命周期的服务。这包括从设计规划到设备选型,从定制化的深化设计到安装交付,再到运维保障,包括水质管理等各个环节,致力于为客户提供从可研架构设计到最终使用的全方位服务,确保液冷系统的安全性和可靠性。
相变间接液冷技术解决深层应用痛点
当下,冷板式液冷仍是主流技术。其优势在于对服务器硬件架构和用户使用习惯几乎没有改变,且成本相对较低。然而,冷板式液冷也存在一些问题。例如,材料兼容性方面,一些材料在长时间使用后会发生性质变化,如密封件、管路等,容易引发故障。此外,客户对冷却液的需求也不尽相同,有的需要纯水加药剂,有的则需要乙二醇或丙二醇等,这都需要进行长期的材料兼容性测试和验证。水质、菌落、结构以及电化学腐蚀等问题也时有发生。更重要的是,随着芯片TDP的不断攀升,水冷板的散热能力面临挑战,客户对其未来能否满足更高功耗芯片的散热需求存在担忧。
张鹏表示,鉴于此,曙光数创推出了一种新的解决方案——相变间接液冷。该方案在安全性、可靠性以及客户界面友好性等方面进行了综合考量。曙光数创在相变浸没技术领域积累了丰富经验,对强化沸腾技术有着深刻的理解。
“相变间接冷板的散热相较于传统水冷板,其热阻下降约15%,整体温度至少降低5度。在冷板设计方面,曙光数创从表面处理、界面设计到流道设计,都进行了精细优化。”张鹏如是说。
在系统架构方面,曙光数创提供了多种解决方案。例如,采用“N+1”CDU(冷却分配单元)的池化架构,实现上液下气的排气解决方案,可支持2个或多个CDU。该架构既可采用泵驱设计,也可采用无泵设计。通过将蒸汽引导至上方冷凝后再循环,上方的冷凝器也可实现“N+1”冗余池化。此外,对于偏好模块化设计的客户,曙光数创也提供了模块化解决方案。“这些架构已在实验室经过验证,系统电载和运行稳定性均经过测试。单柜功率方面,泵驱设计可达到100千瓦,无泵设计可达到80千瓦,均通过了系统可靠性测试。”张鹏解释说。
(本文不涉密)
责任编辑:路沙
曙光数创副总裁兼CTO张鹏表示,传统数据中心在冷却系统上的能耗惊人,且电子设备失效多因高温造成。据统计,2022年—2023年,中国新增服务器中采用液冷技术的比例仅为个位数,2024年有所提升,达到10%左右。曙光数创预测,到2030年,随着液冷服务器出货量不但提升,液冷的渗透率预计将达到35%。“因此,我们认为液冷是AI时代的必选项,无论从极致芯片散热、能耗优化还是部署密度提升等方面来看,液冷都具有不可替代的重要作用。”张鹏如此说道。
秉承“液冷即服务”的理念 提升全生命周期服务
虽然液冷数据中心发展迅速,但目前仍处于初步发生阶段,实际应用比例较低。在发展过程中,液冷数据中心仍然面临着诸多问题。从设计方面来看,传统设计院对液冷和传统暖通设计存在误区;液冷服务器种类繁多,系统匹配难度较大,同时各厂家的设计标准不一,温度、温差、压力等参数各不相同,架构设计也千差万别。这些不同的需求和设计都增加了液冷数据中心的复杂性。
此外,液冷数据中心的施工质量参差不齐,一旦施工环节出现问题,后期运维难度将大幅增加。液冷系统本身看似简单,无冷机,仅有冷塔、风扇、水泵,但实际上,目前大部分液冷系统设计较为脆弱,一旦运维稍有疏忽,就可能导致事故宕机。
张鹏表示,基于此,曙光数创践行“液冷即服务”的理念,强调液冷不单纯是设备的提供,客户需要的是全生命周期的服务。这包括从设计规划到设备选型,从定制化的深化设计到安装交付,再到运维保障,包括水质管理等各个环节,致力于为客户提供从可研架构设计到最终使用的全方位服务,确保液冷系统的安全性和可靠性。
相变间接液冷技术解决深层应用痛点
当下,冷板式液冷仍是主流技术。其优势在于对服务器硬件架构和用户使用习惯几乎没有改变,且成本相对较低。然而,冷板式液冷也存在一些问题。例如,材料兼容性方面,一些材料在长时间使用后会发生性质变化,如密封件、管路等,容易引发故障。此外,客户对冷却液的需求也不尽相同,有的需要纯水加药剂,有的则需要乙二醇或丙二醇等,这都需要进行长期的材料兼容性测试和验证。水质、菌落、结构以及电化学腐蚀等问题也时有发生。更重要的是,随着芯片TDP的不断攀升,水冷板的散热能力面临挑战,客户对其未来能否满足更高功耗芯片的散热需求存在担忧。

“相变间接冷板的散热相较于传统水冷板,其热阻下降约15%,整体温度至少降低5度。在冷板设计方面,曙光数创从表面处理、界面设计到流道设计,都进行了精细优化。”张鹏如是说。
在系统架构方面,曙光数创提供了多种解决方案。例如,采用“N+1”CDU(冷却分配单元)的池化架构,实现上液下气的排气解决方案,可支持2个或多个CDU。该架构既可采用泵驱设计,也可采用无泵设计。通过将蒸汽引导至上方冷凝后再循环,上方的冷凝器也可实现“N+1”冗余池化。此外,对于偏好模块化设计的客户,曙光数创也提供了模块化解决方案。“这些架构已在实验室经过验证,系统电载和运行稳定性均经过测试。单柜功率方面,泵驱设计可达到100千瓦,无泵设计可达到80千瓦,均通过了系统可靠性测试。”张鹏解释说。
(本文不涉密)
责任编辑:路沙
上一篇:双万兆AI赋能行动发布 北京联通加速推动行业数字化转型
下一篇:最后一页