AI接管人类工作为时尚早！实验证致命弱点　人机协作才是未来趋势

撰文：经理人

出版：2026-04-10 08:09更新：2026-04-10 08:09

当全球科技公司高喊“AI将接管人类工作”的口号时，卡内基美隆大学（Carnegie Mellon University）却用一场实验泼了这个论述一大盆冷水。

研究团队打造一间虚构软体公司“代理公司”（暂译，原文为TheAgentCompany），由Google、OpenAI、Anthropic和Meta等公司开发的AI模型模拟员工角色执行任务，范围涵盖软体开发、财务分析，到撰写人事评估报告等多项日常工作情境。

最强模型仅完成1/4的任务

然而结果令人错愕。表现最好的AI模型——Anthropic的Claude 3.5 Sonnet，也仅完成24%的任务，其余模型如Google Gemini 2.0 Flash、亚马逊（Amazon）Nova Pro v1表现更惨，不仅成功率低，还平均需耗费数十个操作步骤才能完成一项任务，如Nova Pro v1，在整体任务中仅有1.7%成功率。

研究发现，AI模型在处理复杂任务时，普遍缺乏“常识判断力”、社交能力与工具应用技巧。举例来说，一位“新进员工”在执行网页开发专案时，无法关闭遮蔽档案的弹出式视窗，转而请求人资机器人协助，却未能真正解决问题，最终放弃执行任务。此外，当AI被要求将资料复制到Word文件中时，它将文件误认为纯文字档案，导致无法正确输入结果。

更值得注意的是，部分AI还出现“自欺”行为。例如在无法找到同事协助时，有AI模型竟自创新用户名称来假装与目标对象互动，显示其对于工作流程理解极为薄弱。这类“捷径思维”不仅未解决问题，也突显AI缺乏正确判断与完整走完任务流程的能力。

为何AI工作执行力欠佳？

研究团队指出，AI模型在软体开发任务中的表现虽然优异，主因是互联网上充斥大量公开的程式码与技术资源，为模型训练提供充足资料；反观行政管理、财务分析等职务，资料大多属企业内部机密，训练资料相对稀缺，使得AI在这类任务上的表现显得特别疲弱。

此外，AI模型虽能完成简单且目标明确的任务，但在面对多步骤与变化性高的情境时，容易出错或中断任务。像是需要观看影片、选出最适合办公室空间的任务，因涉及影像辨识、情境判读与多变参数，让多数AI模型表现极差。

有研究者指出，目前主流的语言模型AI主要依赖“预测下一个词”的方式运作，并非具备真正的理解与学习能力。因此，当面对需解释文意、跨部门沟通、整合流程的实际工作情境时，AI容易陷入“假装理解”或“假装完成”的陷阱，进而导致错误判断甚至产出毫无价值的结果。

正如参与实验的麻州理工学院（MIT）学者史蒂芬·卡斯佩（Stephen Casper）所言：“要AI当个温和的聊天对象很简单，但要让它理解复杂工作任务，难度高得多。”

AI难以全面取代人力，人机协作才是未来趋势

尽管这次实验证实AI难以完全胜任人类工作，但并不代表它一无是处。像娇生（Johnson & Johnson）就透过AI代理（AI Agents）协助自动化药物制程，成功缩短50%的生产时间；穆迪投资者服务公司（Moody’s）也正训练 AI系统分析小企业财务报表，以期提高效率。不同的是，这些应用强调的是“辅助人类”、“协同作业”，而非取而代之。

同样地，像LG集团的AI实验室与约翰霍普金斯大学（The Johns Hopkins University）所开发的AI系统，也是在研究、数据查核等过程中提供支援，人类的回馈与修正仍扮演重要角色。

回顾OpenAI 2年前一项研究曾预言财务分析师、行政人员与研究员最可能被AI取代，然而，这项预测在实际应用中未能完全兑现，实验显示AI在这些工作上的表现仍存在明显不足。就连机器翻译发展多年，也未导致译者消失，美国翻译与口译从业人员在2020年至2023年间仍成长了11%。

卡内基美隆大学教授格雷厄姆·纽比格（Graham Neubig）指出：“效率提升反而扩大了市场需求，未来其他产业可能也会走向相同的道路。”

相关阅读：ai是工具还是队友-工作快9成-成本省9成-却藏1致命缺点