沙磊：技术路线之争背后端侧智能体能力治理是关键

——访北京航空航天大学人工智能学院教授沙磊

今年《政府工作报告》明确提出，深化拓展“人工智能（885728）+”，促进新一代智能终端和智能体加快推广，推动人工智能（885728）在重点行业领域实现商业化、规模化应用。在此背景下，以端侧智能体为代表的新一代AI终端正加速发展。

当前，围绕端侧智能体的实现路径，行业逐渐形成两条典型技术路线：一是基于API的结构化调用路线，二是基于GUI的界面理解与操作路线。日前，国家网信办等部门联合印发的《智能体规范应用与创新发展实施意见》首次从国家层面对智能体的决策权限边界、分类分级治理框架作出安排。在这一制度框架下，两条路线的技术选择不仅关乎执行效率与权限边界，更涉及安全可控、规范有序等治理要求。近日，中国经济时报记者就上述话题专访了北京航空航天大学人工智能（885728）学院教授沙磊。

API强调结构化调用，GUI更接近“人类操作”

中国经济时报：您如何理解当前端侧智能体的两条技术路线，API路线与GUI路线分别有哪些优势与局限？

沙磊：我更倾向于把API路线和GUI路线理解为两种不同的“控制面”。API路线的优势在于边界清晰、权限可枚举、动作语义明确，日志也天然结构化，很多能力还能复用现有平台的权限管理体系。例如，Android本身已经围绕权限声明、运行时授权和受限动作建立了相对成熟的安全框架。不过，其局限性也很明显：可接入能力高度依赖平台和生态是否开放。现实中大量跨应用程序（App）、跨厂商、跨遗留系统的流程，并不存在标准化API，或者接口粒度较粗，难以覆盖真实世界中大量“最后一公里”操作。GUI路线的最大优势是通用性强——只要“人能够看到并点击”的界面，理论上模型都可以学习并执行，因此，它更容易适配封闭生态、旧系统和非标准化流程，也更接近用户对于“智能体”的直觉期待。但GUI路线的问题在于，它面对的是一个“为人设计，而不是为机器设计”的环境，界面状态可能随时发生变化，环境噪声较大，动作语义也相对模糊，因此，更容易受到界面欺骗、弹窗诱导、对抗性文案等因素影响。

从目前的行业实践来看，一些采用GUI路线的智能体产品，已经在公开资料中将“敏感输入人工接管”“关键动作二次确认”等视为核心安全机制。这也说明，相比传统API调用，采用GUI路线的智能体面临的风险场景更加复杂。

两条技术路线并非“一个安全、一个不安全”的关系

中国经济时报：有人认为，GUI路线的风险高于API路线，您怎么看待这种观点？两种路线的风险是否存在差异？

沙磊：我基本认同“GUI路线风险暴露面更高”这一判断，但需要强调的是，“高”并不是指绝对危害上限更高，而是指平均风险暴露面更广和不可预测性更强。API调用通常发生在平台定义好的语义接口中，权限、参数和返回值都更容易验证；GUI则是在像素空间和自然语言空间中进行推断，它面对的是一个“对人设计，而不是对机器设计”的开放环境，因此更容易被误导，也更难进行形式化验证。

换句话说，API的风险更像“已知边界内的越权”，GUI的风险更像“开放环境中的错判和误操作”。但两者的风险并不是“一个安全、一个不安全”的关系。因为API一样会有高危问题，比如权限配置不当、令牌泄露、过度授权、插件链路污染、参数注入、意图跳转和跨组件调用失控。API的问题更偏接口治理失效，GUI的问题更偏“感知—决策—执行”的闭环失效。它们不是同一种风险，但最终都可能落到同一个结果——替用户做了不该做的事。

应按能力级别和后果级别分级分类治理

中国经济时报：您认为两种技术路线在治理方式上是否需要差异化对待？

沙磊：两种技术路线在治理上必须差异化对待，应按能力级别和后果级别分级分类治理。有一个比较实用的框架，分为四层：第一层是“只读观察型”，只能看屏幕、总结信息，不给外部系统写入；第二层是“低风险执行型”，可以做搜索、整理、打开页面、填写草稿，但不能提交；第三层是“受限写入型”，可以发消息、下单前填表、修改设置，但必须强制确认；第四层是“高后果自治型”，涉及支付、转账、删改数据、账号安全、企业系统操作，这一层无论API还是GUI，都不应默认自治，必须有更强身份校验、双重确认、细粒度审计和可回滚机制。

具体而言，API路线应重点关注五件事，分别是最小权限、短时令牌、动作白名单、参数校验、全链路审计；GUI路线则需要额外加强界面来源认证、敏感区域识别、跨应用隔离、强制接管点以及对抗性内容防护等能力。此外，两条路线还应共享“高风险动作前确认”“敏感输入必须人工接管”“异常行为可中断”“默认不连续执行高危链路”等底线。

技术路线之争或将走向能力协同

中国经济时报：展望未来，您认为GUI路线和API路线将如何演进？

沙磊：API路线和GUI路线大概率不是谁替代谁，而是会走向混合编排。短期来看，能力最强的通用智能体和手机助手一定是“API优先、GUI兜底”：有正式接口时优先调用API，因为它更稳定、更高效，也更容易审计；在缺乏标准化接口的场景下，再由GUI承担补充能力，因为它具备更强的通用性。中期来看，操作系统、超级App以及企业SaaS平台，可能会逐步将高频操作API化，把安全确认、权限审计和策略控制进一步下沉到系统层；GUI会更多承担探索、发现、例外处理以及长尾场景的操作。长期来看，用户真正接触的可能不再是一个个独立App，而是一个“意图层”入口。用户提出需求后，系统会动态决定调用API还是操作GUI界面。

对于有人担忧手机、App都将消失的情况，我认为，交互入口可能会退居后台，但底层能力体系会长期存在。或者说，API和GUI或许都不是终局形态，但它们对应的两类本质能力不会消失：一种是结构化能力调用，另一种是非结构化环境操作。未来真正变化的，可能不是能力本身，而是这些能力会被进一步系统化、权限化和策略化，并最终对用户“隐身”。