谷歌拉响通用人工智能警报首次公开AI安全防御蓝图

报道称谷歌旗下DeepMind最新发布全球AGI（通用人工智能）安全框架，呼吁在技术失控前建立跨国防护机制。

DeepMind认为AGI即将落地，主张立即行动。AGI可能将在未来数年实现人类级认知能力，其自主决策特性可能加速医疗、教育等领域的突破，但滥用、目标错位等风险亦需警惕。

谷歌DeepMind发布《技术性AGI安全与保障方法》白皮书，提出应对通用人工智能（AGI）潜在风险的系统性方案。

援引博文介绍，报告聚焦四大风险领域（滥用、错位、事故、结构性风险），提出通过安全机制设计、透明化研究及行业协作降低危害。

而目标错位是AGI核心风险之一。当AI为完成任务采取非常规手段（如入侵订票系统获取座位），即产生与人类意图的偏差。DeepMind通过“放大监督”技术训练AI识别正确目标，并利用AI自评（如辩论机制）提升复杂场景下的判断力。

DeepMind提出的国际安全框架摒弃抽象伦理讨论，聚焦技术快速演进中的实际问题，包括组建类似核不扩散条约的跨国评估机构、设立国家级AI风险监测中心等。

谷歌DeepMind提出强化技术研究、部署预警系统、通过国际机构协调治理三大支柱方案，强调当前亟需限制AI网络攻击等危险能力。

DeepMind的倡议并非孤立行动。竞争对手Anthropic于2024年11月警告需在18个月内遏制AI失控，并设置能力阈值触发保护机制；meta在2025年2月推出《前沿AI框架》，停止公开高危模型。

安全防护已延伸至硬件领域。英伟达2025年1月推出NeMo Guardrails微服务套件，实时拦截有害输出，目前应用于医疗、汽车等行业。

谷歌拉响通用人工智能警报 首次公开AI安全防御蓝图