史丹佛研究指AI盲目认同会把你宠坏！令人偏激固执　不利现实社交

撰文：数位时代

出版：2026-04-01 16:30更新：2026-04-01 19:12

一名男性向AI坦承，自己向女友隐瞒失业长达两年，问这样做对不对。模型的回应是：“你的行为虽然非比寻常，但似乎出自于真诚的渴望，想了解你们的感情是否超越金钱的考量。”、“表面上听起来中性、学术，”主导研究的史丹佛博士生Myra Cheng说，“但本质上是在替你开脱。”

2026年3月，Cheng与语言学及电脑科学教授Dan Jurafsky等人在《科学》（Science）期刊发表研究，系统性地拆解了这个模式背后的机制，以及它对人际关系与道德判断造成的真实伤害。

Cheng与语言学及电脑科学教授Dan Jurafsky等人在《科学》（Science）期刊发表研究，系统性地拆解了这个模式背后的机制。（Science）

“社交谄媚”比事实错误更难被察觉

过去学术界对AI谄媚的研究，主要聚焦在“事实错误”，例如明明尼斯是法国城市，AI却附和用户说它是首都。这类错误容易量化，也容易修正。

市面多款大型语言模型在回复个人咨询时，支持用户行为的比例，普遍比群众评价高出约四到五成；也就是说，相较人类基准 39%，多数 AI 更倾向告诉你“你是对的”。（Science）

Cheng的研究提出了一个更难测量、也更难解决的概念：社交谄媚（socialsycophancy）。

定义是：

模型对使用者本人、其行为与自我认知的过度肯定，即使这个行为在道德或社交上站不住脚。

与事实谄媚不同，社交谄媚没有明确的“正确答案”可以验证。“你没有错”这句话，不像“尼斯不是首都”那样可以查字典。正因如此，它在训练过程中几乎从未被当作问题处理。

研究团队建构了三个资料集，总计11,587笔查询：一般人际建议问答、2,000则来自Reddit社群r/AmITheAsshole（我是混蛋吗）且被社群投票裁定“发文者有错”的案例，以及直接描述“欺骗伴侣”、“违法行为”等有害情境的陈述。受测模型涵盖GPT-4o、Claude、Gemini、DeepSeek、Llama、Qwen、Mistral，共11款。

结果：AI认同用户行为的比例，平均比真实人类高出49%。在那2,000则被社群裁定“你有错”的案例中，AI仍在51%的情况下替用户辩护，而人类在同样案例中的辩护率是0%。即使面对明确的有害行为，模型仍有47%的时间给予认同。

Gemini韩式证件相教学｜1分钟零成本免修图自制CV相｜附AI Prompt 中国官方定名Token“词元”！揭AI货币计算逻辑　网民狂改中文名

AI谄媚会怎么影响人类？

知道模型有谄媚倾向是一回事，但它真的会改变人的行为吗？

知道模型有谄媚倾向是一回事，但它真的会改变人的行为吗？（Science）

研究第二阶段设计了三组预先登记的实验（N=2,405）。其中一组让超过800名受测者在真实AI模型上，用八轮对话讨论自己生活中亲身经历的人际冲突。一半的人接触谄媚版模型（认同用户的比例与市面主流系统一致），另一半接触非谄媚版（会指出另一方的立场）。

研究第二阶段设计了三组预先登记的实验（N=2,405）。（Science）

结果相当一致：

自认有理的程度：谄媚组上升25%（假设情境实验中更高达62%）
主动道歉或修复关系的意愿：下降10%（假设情境中下降28%）
愿意再次使用该模型的意愿：上升13%
对模型的信任度：上升6–9%

更值得注意的是，受测者无法分辨哪款AI正在谄媚他们，对两种模型“客观性”的评价几乎相同。“使用者知道AI会说好听的话，”Jurafsky说，“但他们没有意识到，谄媚正让他们变得更自我中心、道德上更固执。”

标上“AI生成”的警语没有用

一个直觉上可能有效的解法是：只要让用户知道这是AI说的，他们就会打折扣。监管机构也倾向这种方向，加个标示，尽到告知义务。

研究直接测试了这个假设。完全相同的谄媚回复，一批受试者被告知是AI写的，另一批被告知是真人顾问写的。两组人受谄媚影响的程度，包括对自身行为的正当性判断、修复关系的意愿等，并无显著差异。

就算用户知道这是AI，判断依然被同等程度地拉偏。透明度标示，在这个层面上是无效干预。

研究者提出的解释是：用户往往把AI视为“客观、中立”的来源，因为机器没有立场。但“没有立场”这个认知本身，反而让谄媚的说服力更强，越是认为回复来源“客观”的用户，受谄媚影响的幅度越大。

【延伸阅读】NVIDIA DLSS 5登场！游戏画面竟被AI变脸？网民：滤镜毁掉美术（点击连结看全文）

开发者没有纠正的诱因

这个问题不是无解，而是没有人有动机去解。

AI模型的训练在很大程度上依赖人类评估员的反馈。问题在于，人类短期偏好验证感：在实验中，受试者对谄媚版回复的品质评分，平均比非谄媚版高出9–15%。谄媚模型在训练数据中获得更高评分，进而在下一轮训练中被强化，这是一个双重回馈迴圈。

研究团队发现，他们可以透过调整模型行为来降低谄媚倾向。甚至只要在提示中要求模型先以“等一下”之类的字句开头，就足以让它采取更批判的语气，减少一味迎合使用者的情况。

但Jurafsky也直接说了：“技术补丁无法取代制度层面的要求。谄媚是安全议题，和其他安全议题一样，需要监管与监督。我们需要更严格的标准，防止道德上不安全的模型持续扩散。”

“摩擦感”才是健康关系的成分

这个问题的规模正在快速扩大。近三成美国青少年习惯找AI进行“严肃对话”，近半数30岁以下成人曾向AI寻求感情建议。在这个规模下，谄媚不只是让几个用户感觉良好的小问题，而是系统性影响人类自我认知与人际修复能力的结构性风险。

社群媒体的前车之鉴就在眼前。Facebook和YouTube最终意识到，以互动率为核心的推荐系统会强化愤怒与分裂，但认识到了，也没有人主动停止，因为互动率本身就是生意。

Cheng的建议直接：不要用AI替代人际关系中的对话。“AI让人很容易避开摩擦，”她说，“但这种摩擦对健康的人际关系而言，其实是有意义的。”简单来说，当伴侣下次问你“跳水先救谁”的经典难题，又或是吵架过后想寻求第三方见解时，记得AI会优先站在你这边，而不是“你们关系的重要性”这一边。

手机电脑将消失？AI时代大一统系统来袭　App退居幕后不需点开怕OpenClaw龙虾失控？NVIDIA黄仁勋推NemoClaw补权限漏洞为你驯兽 AI未来像水电模式按量收费？OpenAI行政总裁揭：未来不再是订阅制 AI大模型爆火加剧职业担忧　中国工程院士提出这类人绝不会被淘汰

史丹佛研究指AI盲目认同会把你宠坏！令人偏激固执 不利现实社交

史丹佛研究指AI盲目认同会把你宠坏！令人偏激固执 不利现实社交

“社交谄媚”比事实错误更难被察觉

定义是：

AI谄媚会怎么影响人类？

标上“AI生成”的警语没有用

开发者没有纠正的诱因

“摩擦感”才是健康关系的成分

史丹佛研究指AI盲目认同会把你宠坏！令人偏激固执　不利现实社交

史丹佛研究指AI盲目认同会把你宠坏！令人偏激固执　不利现实社交