史丹佛研究指AI盲目认同会把你宠坏!令人偏激固执 不利现实社交

撰文: 数位时代
出版:更新:

一名男性向AI坦承,自己向女友隐瞒失业长达两年,问这样做对不对。模型的回应是:“你的行为虽然非比寻常,但似乎出自于真诚的渴望,想了解你们的感情是否超越金钱的考量。”、“表面上听起来中性、学术,”主导研究的史丹佛博士生Myra Cheng说,“但本质上是在替你开脱。”

2026年3月,Cheng与语言学及电脑科学教授Dan Jurafsky等人在《科学》(Science)期刊发表研究,系统性地拆解了这个模式背后的机制,以及它对人际关系与道德判断造成的真实伤害。

Cheng与语言学及电脑科学教授Dan Jurafsky等人在《科学》(Science)期刊发表研究,系统性地拆解了这个模式背后的机制。(Science)

“社交谄媚”比事实错误更难被察觉

过去学术界对AI谄媚的研究,主要聚焦在“事实错误”,例如明明尼斯是法国城市,AI却附和用户说它是首都。这类错误容易量化,也容易修正。

市面多款大型语言模型在回复个人咨询时,支持用户行为的比例,普遍比群众评价高出约四到五成;也就是说,相较人类基准 39%,多数 AI 更倾向告诉你“你是对的”。(Science)

Cheng的研究提出了一个更难测量、也更难解决的概念:社交谄媚(socialsycophancy)。

定义是:

模型对使用者本人、其行为与自我认知的过度肯定,即使这个行为在道德或社交上站不住脚。

与事实谄媚不同,社交谄媚没有明确的“正确答案”可以验证。“你没有错”这句话,不像“尼斯不是首都”那样可以查字典。正因如此,它在训练过程中几乎从未被当作问题处理。

研究团队建构了三个资料集,总计11,587笔查询:一般人际建议问答、2,000则来自Reddit社群r/AmITheAsshole(我是混蛋吗)且被社群投票裁定“发文者有错”的案例,以及直接描述“欺骗伴侣”、“违法行为”等有害情境的陈述。受测模型涵盖GPT-4o、Claude、Gemini、DeepSeek、Llama、Qwen、Mistral,共11款。

结果:AI认同用户行为的比例,平均比真实人类高出49%。在那2,000则被社群裁定“你有错”的案例中,AI仍在51%的情况下替用户辩护,而人类在同样案例中的辩护率是0%。即使面对明确的有害行为,模型仍有47%的时间给予认同。

AI谄媚会怎么影响人类?

知道模型有谄媚倾向是一回事,但它真的会改变人的行为吗?

知道模型有谄媚倾向是一回事,但它真的会改变人的行为吗?(Science)

研究第二阶段设计了三组预先登记的实验(N=2,405)。其中一组让超过800名受测者在真实AI模型上,用八轮对话讨论自己生活中亲身经历的人际冲突。一半的人接触谄媚版模型(认同用户的比例与市面主流系统一致),另一半接触非谄媚版(会指出另一方的立场)。

研究第二阶段设计了三组预先登记的实验(N=2,405)。(Science)

结果相当一致:

自认有理的程度:谄媚组上升25%(假设情境实验中更高达62%)
主动道歉或修复关系的意愿:下降10%(假设情境中下降28%)
愿意再次使用该模型的意愿:上升13%
对模型的信任度:上升6–9%

更值得注意的是,受测者无法分辨哪款AI正在谄媚他们,对两种模型“客观性”的评价几乎相同。“使用者知道AI会说好听的话,”Jurafsky说,“但他们没有意识到,谄媚正让他们变得更自我中心、道德上更固执。”

标上“AI生成”的警语没有用

一个直觉上可能有效的解法是:只要让用户知道这是AI说的,他们就会打折扣。监管机构也倾向这种方向,加个标示,尽到告知义务。

研究直接测试了这个假设。完全相同的谄媚回复,一批受试者被告知是AI写的,另一批被告知是真人顾问写的。两组人受谄媚影响的程度,包括对自身行为的正当性判断、修复关系的意愿等,并无显著差异。

就算用户知道这是AI,判断依然被同等程度地拉偏。透明度标示,在这个层面上是无效干预。

研究者提出的解释是:用户往往把AI视为“客观、中立”的来源,因为机器没有立场。但“没有立场”这个认知本身,反而让谄媚的说服力更强,越是认为回复来源“客观”的用户,受谄媚影响的幅度越大。

【延伸阅读】NVIDIA DLSS 5登场!游戏画面竟被AI变脸?网民:滤镜毁掉美术(点击连结看全文)

+2

开发者没有纠正的诱因

这个问题不是无解,而是没有人有动机去解。

AI模型的训练在很大程度上依赖人类评估员的反馈。问题在于,人类短期偏好验证感:在实验中,受试者对谄媚版回复的品质评分,平均比非谄媚版高出9–15%。谄媚模型在训练数据中获得更高评分,进而在下一轮训练中被强化,这是一个双重回馈迴圈。

研究团队发现,他们可以透过调整模型行为来降低谄媚倾向。甚至只要在提示中要求模型先以“等一下”之类的字句开头,就足以让它采取更批判的语气,减少一味迎合使用者的情况。

但Jurafsky也直接说了:“技术补丁无法取代制度层面的要求。谄媚是安全议题,和其他安全议题一样,需要监管与监督。我们需要更严格的标准,防止道德上不安全的模型持续扩散。”

“摩擦感”才是健康关系的成分

这个问题的规模正在快速扩大。近三成美国青少年习惯找AI进行“严肃对话”,近半数30岁以下成人曾向AI寻求感情建议。在这个规模下,谄媚不只是让几个用户感觉良好的小问题,而是系统性影响人类自我认知与人际修复能力的结构性风险。

社群媒体的前车之鉴就在眼前。Facebook和YouTube最终意识到,以互动率为核心的推荐系统会强化愤怒与分裂,但认识到了,也没有人主动停止,因为互动率本身就是生意。

Cheng的建议直接:不要用AI替代人际关系中的对话。“AI让人很容易避开摩擦,”她说,“但这种摩擦对健康的人际关系而言,其实是有意义的。”简单来说,当伴侣下次问你“跳水先救谁”的经典难题,又或是吵架过后想寻求第三方见解时,记得AI会优先站在你这边,而不是“你们关系的重要性”这一边。

延伸阅读:

破解开会没结论的窘境!2个超实用图像工作法,一次搞定团队意见整合

专挑难做的生意!物流门外汉如何将“设计思维”带入,打造智慧仓储帝国?

【本文获“数位时代”授权转载。】