您现在的位置是:首页 > 特别推荐 >
360潘剑锋:安全的老路走不通了 360首提智能体安全治理方案
2026-06-09 18:15:14作者:来源:中国信息化周报
摘要在近日举办的 "2026华为云畅想者大会”上,360 集团首席科学家、集团副总裁潘剑锋博士首次系统性指出:AI 智能体安全风险的本质并非只有外部攻击,而是大模型底层机制衍生的“原生不确定性”。 ...
根据斯坦福《AI Index 2026》报告,主流大模型在垂直领域的幻觉率高达22%至94%。360安全团队监测显示,仅OpenClaw框架累计披露漏洞82个,高危占比近四成,公网上数百万AI资产更是处于无防护状态。模型幻觉、框架漏洞与资产暴露的三重叠加,正让传统“只防外部攻击”的防线显得捉襟见肘。
在近日举办的"2026华为云畅想者大会”上,360 集团首席科学家、集团副总裁潘剑锋博士首次系统性指出:AI 智能体安全风险的本质并非只有外部攻击,而是大模型底层机制衍生的“原生不确定性”。
潘剑锋表示,传统安全的核心范式是"防御确定性威胁"——基于已知的漏洞特征和攻击模式,构建规则化的检测与响应体系。当AI从被动执行指令的工具跃升为具备自主决策能力的新型主体时,这一前提已被彻底打破。智能体的"自主性"意味着一旦遭恶意诱导,它会自主走完整个攻击链;"协同性"使得单点失陷的风险沿协作网络指数级蔓延;"演化性"则让它持续自我迭代,静态检测规则迅速过时。
潘剑锋将这种无法通过代码修补彻底消除的特性定义为"原生不确定性",并强调这并非工程缺陷,而是AI处理开放性、创造性任务的能力源泉。能力与风险同根同源,试图彻底消灭不确定性,无异于扼杀智能本身。
更值得警惕的是,在多智能体协同的复杂网络中,单个节点的判断偏差或幻觉并不会在传递中被自然过滤,反而会作为下游节点的输入被逐级放大,形成潘剑锋所警示的"不确定性传导放大效应",最终酿成系统性坍塌。
面对无法被彻底消除的不确定性,潘剑锋分享了360以"管控不确定性"为核心的全链路治理实践。该方案通过"管意图、校认知、控行为"的三层架构,为智能体的不可预知性构建动态治理体系。
在意图接入层,360落地了"以模治模"的恶意意图识别引擎,打通恶意样本运营与意图识别大模型训练的闭环,确保对新型攻击手法快速响应,实测可将DeepSeek R1等主流模型的安全水位从82%拉升至94%;在逻辑推理层,360首创"世界认知模型"(WCM),针对任务目标世界建立语义化数据与逻辑体系,与大语言模型双引擎协同工作,以预测能力约束和引导推理过程,从根源上抑制幻觉;在行为执行层,360构建"环境孪生沙箱"限制智能体行动半径,每个Agent独立运行于受信执行环境,动态行为分析引擎实时识别异常,状态监控与自动回滚全程兜底。
“传统安全是修围墙,智能体安全是驭马。”潘剑锋最后总结道,AI 安全的目标不应是让模型变得绝对确定,而是建立一套与不确定性共存的治理体系。这场从"防御"到"管控"的范式重构,才刚刚开始。
(本文不涉密)
责任编辑:路沙
在近日举办的"2026华为云畅想者大会”上,360 集团首席科学家、集团副总裁潘剑锋博士首次系统性指出:AI 智能体安全风险的本质并非只有外部攻击,而是大模型底层机制衍生的“原生不确定性”。
潘剑锋表示,传统安全的核心范式是"防御确定性威胁"——基于已知的漏洞特征和攻击模式,构建规则化的检测与响应体系。当AI从被动执行指令的工具跃升为具备自主决策能力的新型主体时,这一前提已被彻底打破。智能体的"自主性"意味着一旦遭恶意诱导,它会自主走完整个攻击链;"协同性"使得单点失陷的风险沿协作网络指数级蔓延;"演化性"则让它持续自我迭代,静态检测规则迅速过时。
潘剑锋将这种无法通过代码修补彻底消除的特性定义为"原生不确定性",并强调这并非工程缺陷,而是AI处理开放性、创造性任务的能力源泉。能力与风险同根同源,试图彻底消灭不确定性,无异于扼杀智能本身。
更值得警惕的是,在多智能体协同的复杂网络中,单个节点的判断偏差或幻觉并不会在传递中被自然过滤,反而会作为下游节点的输入被逐级放大,形成潘剑锋所警示的"不确定性传导放大效应",最终酿成系统性坍塌。
面对无法被彻底消除的不确定性,潘剑锋分享了360以"管控不确定性"为核心的全链路治理实践。该方案通过"管意图、校认知、控行为"的三层架构,为智能体的不可预知性构建动态治理体系。
在意图接入层,360落地了"以模治模"的恶意意图识别引擎,打通恶意样本运营与意图识别大模型训练的闭环,确保对新型攻击手法快速响应,实测可将DeepSeek R1等主流模型的安全水位从82%拉升至94%;在逻辑推理层,360首创"世界认知模型"(WCM),针对任务目标世界建立语义化数据与逻辑体系,与大语言模型双引擎协同工作,以预测能力约束和引导推理过程,从根源上抑制幻觉;在行为执行层,360构建"环境孪生沙箱"限制智能体行动半径,每个Agent独立运行于受信执行环境,动态行为分析引擎实时识别异常,状态监控与自动回滚全程兜底。
“传统安全是修围墙,智能体安全是驭马。”潘剑锋最后总结道,AI 安全的目标不应是让模型变得绝对确定,而是建立一套与不确定性共存的治理体系。这场从"防御"到"管控"的范式重构,才刚刚开始。
(本文不涉密)
责任编辑:路沙





