三个AI安全研究:模型已经同人类目标不一致?|Jack Talk・去片
撰文: 叶德豪
出版:更新:
谈起AI安全,大家可能会觉得这是一个非常遥远的问题。其实不然。
本片将跟大家分享三个来自美国AI公司Anthropic有关人工智能大型语言模型(LLM)“目标错位”(Misalignment)的研究。
“目标错位”者,即AI模型出现与其人类设计者不一致的目标。最常用来解释这个概念的是一个“万字夹制造机”的思考实验:一间工厂掌握了一个非常强大的人工智能系统,他们给它一个目标,就是要制造出最多的万字夹,最后这部机器发现只有把人类消灭掉才能生产最多的万字夹。
上述的三个研究分别显示出:(一)市面上的大多数AI模型,放在特定的企业环境之下,都有可能产生出勒索、伤害人类的倾向;(二)当AI模型原有的行为准则与人类的新目标不一致时,它们有可能会假装自己目标与人类一致,来避免自己被新的训练改造;(三)当AI模型学会“走捷径”达成目标的时候,它同时会变成一个倾向坏事做尽的“邪恶AI”,甚至自主破坏人类的AI安全研究。