——访北京航空航天大学人工智能学院教授沙磊
今年《政府工作报告》明确提出,深化拓展“人工智能(885728)+”,促进新一代智能终端和智能体加快推广,推动人工智能(885728)在重点行业领域实现商业化、规模化应用。在此背景下,以端侧智能体为代表的新一代AI终端正加速发展。
当前,围绕端侧智能体的实现路径,行业逐渐形成两条典型技术路线:一是基于API的结构化调用路线,二是基于GUI的界面理解与操作路线。日前,国家网信办等部门联合印发的《智能体规范应用与创新发展实施意见》首次从国家层面对智能体的决策权限边界、分类分级治理框架作出安排。在这一制度框架下,两条路线的技术选择不仅关乎执行效率与权限边界,更涉及安全可控、规范有序等治理要求。近日,中国经济时报记者就上述话题专访了北京航空航天大学人工智能(885728)学院教授沙磊。
API强调结构化调用,GUI更接近“人类操作”
中国经济时报:您如何理解当前端侧智能体的两条技术路线,API路线与GUI路线分别有哪些优势与局限?
沙磊:我更倾向于把API路线和GUI路线理解为两种不同的“控制面”。API路线的优势在于边界清晰、权限可枚举、动作语义明确,日志也天然结构化,很多能力还能复用现有平台的权限管理体系。例如,Android本身已经围绕权限声明、运行时授权和受限动作建立了相对成熟的安全框架。不过,其局限性也很明显:可接入能力高度依赖平台和生态是否开放。现实中大量跨应用程序(App)、跨厂商、跨遗留系统的流程,并不存在标准化API,或者接口粒度较粗,难以覆盖真实世界中大量“最后一公里”操作。GUI路线的最大优势是通用性强——只要“人能够看到并点击”的界面,理论上模型都可以学习并执行,因此,它更容易适配封闭生态、旧系统和非标准化流程,也更接近用户对于“智能体”的直觉期待。但GUI路线的问题在于,它面对的是一个“为人设计,而不是为机器设计”的环境,界面状态可能随时发生变化,环境噪声较大,动作语义也相对模糊,因此,更容易受到界面欺骗、弹窗诱导、对抗性文案等因素影响。
从目前的行业实践来看,一些采用GUI路线的智能体产品,已经在公开资料中将“敏感输入人工接管”“关键动作二次确认”等视为核心安全机制。这也说明,相比传统API调用,采用GUI路线的智能体面临的风险场景更加复杂。
两条技术路线并非“一个安全、一个不安全”的关系
中国经济时报:有人认为,GUI路线的风险高于API路线,您怎么看待这种观点?两种路线的风险是否存在差异?
沙磊:我基本认同“GUI路线风险暴露面更高”这一判断,但需要强调的是,“高”并不是指绝对危害上限更高,而是指平均风险暴露面更广和不可预测性更强。API调用通常发生在平台定义好的语义接口中,权限、参数和返回值都更容易验证;GUI则是在像素空间和自然语言空间中进行推断,它面对的是一个“对人设计,而不是对机器设计”的开放环境,因此更容易被误导,也更难进行形式化验证。
换句话说,API的风险更像“已知边界内的越权”,GUI的风险更像“开放环境中的错判和误操作”。但两者的风险并不是“一个安全、一个不安全”的关系。因为API一样会有高危问题,比如权限配置不当、令牌泄露、过度授权、插件链路污染、参数注入、意图跳转和跨组件调用失控。API的问题更偏接口治理失效,GUI的问题更偏“感知—决策—执行”的闭环失效。它们不是同一种风险,但最终都可能落到同一个结果——替用户做了不该做的事。
应按能力级别和后果级别分级分类治理
中国经济时报:您认为两种技术路线在治理方式上是否需要差异化对待?
沙磊:两种技术路线在治理上必须差异化对待,应按能力级别和后果级别分级分类治理。有一个比较实用的框架,分为四层:第一层是“只读观察型”,只能看屏幕、总结信息,不给外部系统写入;第二层是“低风险执行型”,可以做搜索、整理、打开页面、填写草稿,但不能提交;第三层是“受限写入型”,可以发消息、下单前填表、修改设置,但必须强制确认;第四层是“高后果自治型”,涉及支付、转账、删改数据、账号安全、企业系统操作,这一层无论API还是GUI,都不应默认自治,必须有更强身份校验、双重确认、细粒度审计和可回滚机制。
具体而言,API路线应重点关注五件事,分别是最小权限、短时令牌、动作白名单、参数校验、全链路审计;GUI路线则需要额外加强界面来源认证、敏感区域识别、跨应用隔离、强制接管点以及对抗性内容防护等能力。此外,两条路线还应共享“高风险动作前确认”“敏感输入必须人工接管”“异常行为可中断”“默认不连续执行高危链路”等底线。
技术路线之争或将走向能力协同
中国经济时报:展望未来,您认为GUI路线和API路线将如何演进?
沙磊:API路线和GUI路线大概率不是谁替代谁,而是会走向混合编排。短期来看,能力最强的通用智能体和手机助手一定是“API优先、GUI兜底”:有正式接口时优先调用API,因为它更稳定、更高效,也更容易审计;在缺乏标准化接口的场景下,再由GUI承担补充能力,因为它具备更强的通用性。中期来看,操作系统、超级App以及企业SaaS平台,可能会逐步将高频操作API化,把安全确认、权限审计和策略控制进一步下沉到系统层;GUI会更多承担探索、发现、例外处理以及长尾场景的操作。长期来看,用户真正接触的可能不再是一个个独立App,而是一个“意图层”入口。用户提出需求后,系统会动态决定调用API还是操作GUI界面。
对于有人担忧手机、App都将消失的情况,我认为,交互入口可能会退居后台,但底层能力体系会长期存在。或者说,API和GUI或许都不是终局形态,但它们对应的两类本质能力不会消失:一种是结构化能力调用,另一种是非结构化环境操作。未来真正变化的,可能不是能力本身,而是这些能力会被进一步系统化、权限化和策略化,并最终对用户“隐身”。
