您现在的位置是：首页 > 特别推荐 >

360潘剑锋：安全的老路走不通了 360首提智能体安全治理方案

2026-06-09 18:15:14作者：来源：中国信息化周报

摘要在近日举办的 "2026华为云畅想者大会”上，360 集团首席科学家、集团副总裁潘剑锋博士首次系统性指出：AI 智能体安全风险的本质并非只有外部攻击，而是大模型底层机制衍生的“原生不确定性”。 ...

根据斯坦福《AI Index 2026》报告，主流大模型在垂直领域的幻觉率高达22%至94%。360安全团队监测显示，仅OpenClaw框架累计披露漏洞82个，高危占比近四成，公网上数百万AI资产更是处于无防护状态。模型幻觉、框架漏洞与资产暴露的三重叠加，正让传统“只防外部攻击”的防线显得捉襟见肘。

在近日举办的"2026华为云畅想者大会”上，360 集团首席科学家、集团副总裁潘剑锋博士首次系统性指出：AI 智能体安全风险的本质并非只有外部攻击，而是大模型底层机制衍生的“原生不确定性”。

潘剑锋表示，传统安全的核心范式是"防御确定性威胁"——基于已知的漏洞特征和攻击模式，构建规则化的检测与响应体系。当AI从被动执行指令的工具跃升为具备自主决策能力的新型主体时，这一前提已被彻底打破。智能体的"自主性"意味着一旦遭恶意诱导，它会自主走完整个攻击链；"协同性"使得单点失陷的风险沿协作网络指数级蔓延；"演化性"则让它持续自我迭代，静态检测规则迅速过时。

潘剑锋将这种无法通过代码修补彻底消除的特性定义为"原生不确定性"，并强调这并非工程缺陷，而是AI处理开放性、创造性任务的能力源泉。能力与风险同根同源，试图彻底消灭不确定性，无异于扼杀智能本身。

更值得警惕的是，在多智能体协同的复杂网络中，单个节点的判断偏差或幻觉并不会在传递中被自然过滤，反而会作为下游节点的输入被逐级放大，形成潘剑锋所警示的"不确定性传导放大效应"，最终酿成系统性坍塌。

面对无法被彻底消除的不确定性，潘剑锋分享了360以"管控不确定性"为核心的全链路治理实践。该方案通过"管意图、校认知、控行为"的三层架构，为智能体的不可预知性构建动态治理体系。

在意图接入层，360落地了"以模治模"的恶意意图识别引擎，打通恶意样本运营与意图识别大模型训练的闭环，确保对新型攻击手法快速响应，实测可将DeepSeek R1等主流模型的安全水位从82%拉升至94%；在逻辑推理层，360首创"世界认知模型"（WCM），针对任务目标世界建立语义化数据与逻辑体系，与大语言模型双引擎协同工作，以预测能力约束和引导推理过程，从根源上抑制幻觉；在行为执行层，360构建"环境孪生沙箱"限制智能体行动半径，每个Agent独立运行于受信执行环境，动态行为分析引擎实时识别异常，状态监控与自动回滚全程兜底。

“传统安全是修围墙，智能体安全是驭马。”潘剑锋最后总结道，AI 安全的目标不应是让模型变得绝对确定，而是建立一套与不确定性共存的治理体系。这场从"防御"到"管控"的范式重构，才刚刚开始。

(本文不涉密)
责任编辑：路沙

上一篇：2026 CIO必答：当宕机成本破百万，软件质量治理如何成为战略资产