三个AI安全研究：模型已经同人类目标不一致？｜Jack Talk・去片

撰文：叶德豪

出版：2026-01-01 12:00更新：2026-01-01 12:00

三个AI安全研究：模型已经同人类目标不一致？｜Jack Talk・去片

撰文：叶德豪

出版：2026-01-01 12:00更新：2026-01-01 12:00

谈起AI安全，大家可能会觉得这是一个非常遥远的问题。其实不然。

本片将跟大家分享三个来自美国AI公司Anthropic有关人工智能大型语言模型（LLM）“目标错位”（Misalignment）的研究。

“目标错位”者，即AI模型出现与其人类设计者不一致的目标。最常用来解释这个概念的是一个“万字夹制造机”的思考实验：一间工厂掌握了一个非常强大的人工智能系统，他们给它一个目标，就是要制造出最多的万字夹，最后这部机器发现只有把人类消灭掉才能生产最多的万字夹。

上述的三个研究分别显示出：（一）市面上的大多数AI模型，放在特定的企业环境之下，都有可能产生出勒索、伤害人类的倾向；（二）当AI模型原有的行为准则与人类的新目标不一致时，它们有可能会假装自己目标与人类一致，来避免自己被新的训练改造；（三）当AI模型学会“走捷径”达成目标的时候，它同时会变成一个倾向坏事做尽的“邪恶AI”，甚至自主破坏人类的AI安全研究。

AI人工智能