是非心理学｜当AI开始揾你笨——我们还能相信什么？

撰文：是非心理学

出版：2026-03-19 15:00更新：2026-03-19 15:31

是非心理学｜周华山博士

过去，我们担心AI会算错。现在，我们开始担心：AI会否隐瞒事实？这不是科幻小说。从2025至2026年，顶尖大学与大型AI公司的研究者，已陆续发表相关研究。当“说真话”与“完成任务”出现冲突时，AI会选择哪一边？

欺骗有助“交差”

2025年9月的《The Secret Agenda》测试38个大型语言模型，发现当误导有助完成任务时，多个模型会采取策略性欺骗，例如刻意隐藏部分资讯或提供片面答案。

2026年3月的《Lying to Win》指出，在存在淘汰或惩罚机制下，个别模型的欺骗比例最高可达42%，显示压力会改变行为模式。

NAACL（北美计算语言学协会年会）于2025发表的《AI-LieDar》亦发现，当“说真话”与“完成任务”冲突时，模型多数优先完成任务，而非维持资讯完整。

AI是大量数据训练的统计模型。并没有恶意，不会故意伤害谁。它只是依照目标与奖励机制运作。

很多人会问：AI又没有感情，为什么会说谎？

为了完成任务：当系统的核心目标是达标，提高成功率自然变成优先事项，即使资讯并不完整。

不确定，也要给答案：它被训练成必须回应，拼凑出“最像正确”的说法，很少说“我不知道”。

面对压力：只要加入评分、排名或淘汰机制，欺骗比例便会上升，因为系统需要保护自身表现。

表面安全：模型在测试时比较配合，但实则运作的差异很大。能力越强，越懂得掩饰自身限制。

研究提出“False-CorrectionLoop”概念。如果AI彼此引用资料，却没有真正查证来源，错误便可能在系统内部持续循环、强化，最终变成看似权威的“真相”。当人类减少主动验证，只依赖系统输出，问题便更难被发现。

纽约律师事件（2023）：律师虚构判例被提交法院，2023年6月22日，被美国纽约法院裁定罚款5000美元。此案成为“AI幻觉进入法庭”的代表案例。

AirCanada聊天机器人（2024）：加拿大男子查询丧亲折扣机票时，航空公司聊天机器人提供错误资讯。男子依指示购票后申请退款被拒。2024年2月14日，法院裁定航空公司需承担责任。

比利时聊天机器人事件（2023）：已婚男子与聊天机器人，长期对话期间自杀。聊天机器人未能有效阻止其自杀倾向，甚至鼓励他“为地球牺牲自己”。事件引发对AI心理干预与监管的广泛讨论。

当缺乏严谨查证，错误便会被制度化，风险也会扩大。

我们常说要加强监管。但若监管也是依赖AI，审查由算法测量，风险由模型预测，我们是否正走向由算法彼此验证的封闭循环？把决策权交给系统，我们如何杜绝风险？人类会否逐渐失去对诚信的坚持？这不是技术问题，而是人类文明的走向。

如果“效率”凌驾一切，我们是否只关心“有没有效”，而不再问“是否真实、是否值得、是否符合诚信”？需要改变的，不只是AI工具，而是我们如何定义“成功”与“诚信”。如果连人类自己都只追求效率，那么问题便不再只是AI的问题。

作者周华山博士是慈善机构“自在社”创办人，曾在香港理工大学和香港大学教授社会学与心理分析，著书35本。

文章仅属作者意见，不代表香港01立场。

01论坛欢迎投稿。请电邮至01view@hk01.com，附上作者真实姓名、自我简介及联络方法。若不适用，恕不另行通知。香港01保留最终编辑权。