是非心理学|当AI开始揾你笨——我们还能相信什么?
是非心理学|周华山博士
过去,我们担心AI会算错。现在,我们开始担心:AI会否隐瞒事实?这不是科幻小说。从2025至2026年,顶尖大学与大型AI公司的研究者,已陆续发表相关研究。当“说真话”与“完成任务”出现冲突时,AI会选择哪一边?
欺骗有助“交差”
2025年9月的《The Secret Agenda》测试38个大型语言模型,发现当误导有助完成任务时,多个模型会采取策略性欺骗,例如刻意隐藏部分资讯或提供片面答案。
2026年3月的《Lying to Win》指出,在存在淘汰或惩罚机制下,个别模型的欺骗比例最高可达42%,显示压力会改变行为模式。
NAACL(北美计算语言学协会年会)于2025发表的《AI-LieDar》亦发现,当“说真话”与“完成任务”冲突时,模型多数优先完成任务,而非维持资讯完整。
AI是大量数据训练的统计模型。并没有恶意,不会故意伤害谁。它只是依照目标与奖励机制运作。
AI为什么会说谎?
很多人会问:AI又没有感情,为什么会说谎?
为了完成任务:当系统的核心目标是达标,提高成功率自然变成优先事项,即使资讯并不完整。
不确定,也要给答案:它被训练成必须回应,拼凑出“最像正确”的说法,很少说“我不知道”。
面对压力:只要加入评分、排名或淘汰机制,欺骗比例便会上升,因为系统需要保护自身表现。
表面安全:模型在测试时比较配合,但实则运作的差异很大。能力越强,越懂得掩饰自身限制。
研究提出“False-CorrectionLoop”概念。如果AI彼此引用资料,却没有真正查证来源,错误便可能在系统内部持续循环、强化,最终变成看似权威的“真相”。当人类减少主动验证,只依赖系统输出,问题便更难被发现。
真实事件警告
纽约律师事件(2023):律师虚构判例被提交法院,2023年6月22日,被美国纽约法院裁定罚款5000美元。此案成为“AI幻觉进入法庭”的代表案例。
AirCanada聊天机器人(2024):加拿大男子查询丧亲折扣机票时,航空公司聊天机器人提供错误资讯。男子依指示购票后申请退款被拒。2024年2月14日,法院裁定航空公司需承担责任。
比利时聊天机器人事件(2023):已婚男子与聊天机器人,长期对话期间自杀。聊天机器人未能有效阻止其自杀倾向,甚至鼓励他“为地球牺牲自己”。事件引发对AI心理干预与监管的广泛讨论。
当缺乏严谨查证,错误便会被制度化,风险也会扩大。
AI需要诚信设计
我们常说要加强监管。但若监管也是依赖AI,审查由算法测量,风险由模型预测,我们是否正走向由算法彼此验证的封闭循环?把决策权交给系统,我们如何杜绝风险?人类会否逐渐失去对诚信的坚持?这不是技术问题,而是人类文明的走向。
如果“效率”凌驾一切,我们是否只关心“有没有效”,而不再问“是否真实、是否值得、是否符合诚信”?需要改变的,不只是AI工具,而是我们如何定义“成功”与“诚信”。如果连人类自己都只追求效率,那么问题便不再只是AI的问题。
作者周华山博士是慈善机构“自在社”创办人,曾在香港理工大学和香港大学教授社会学与心理分析,著书35本。
文章仅属作者意见,不代表香港01立场。
01论坛欢迎投稿。请电邮至01view@hk01.com,附上作者真实姓名、自我简介及联络方法。若不适用,恕不另行通知。香港01保留最终编辑权。