AI接管人类工作为时尚早!实验证致命弱点 人机协作才是未来趋势
当全球科技公司高喊“AI将接管人类工作”的口号时,卡内基美隆大学(Carnegie Mellon University)却用一场实验泼了这个论述一大盆冷水。
研究团队打造一间虚构软体公司“代理公司”(暂译,原文为TheAgentCompany),由Google、OpenAI、Anthropic和Meta等公司开发的AI模型模拟员工角色执行任务,范围涵盖软体开发、财务分析,到撰写人事评估报告等多项日常工作情境。
最强模型仅完成1/4的任务
然而结果令人错愕。表现最好的AI模型——Anthropic的Claude 3.5 Sonnet,也仅完成24%的任务,其余模型如Google Gemini 2.0 Flash、亚马逊(Amazon)Nova Pro v1表现更惨,不仅成功率低,还平均需耗费数十个操作步骤才能完成一项任务,如Nova Pro v1,在整体任务中仅有1.7%成功率。
研究发现,AI模型在处理复杂任务时,普遍缺乏“常识判断力”、社交能力与工具应用技巧。举例来说,一位“新进员工”在执行网页开发专案时,无法关闭遮蔽档案的弹出式视窗,转而请求人资机器人协助,却未能真正解决问题,最终放弃执行任务。此外,当AI被要求将资料复制到Word文件中时,它将文件误认为纯文字档案,导致无法正确输入结果。
更值得注意的是,部分AI还出现“自欺”行为。例如在无法找到同事协助时,有AI模型竟自创新用户名称来假装与目标对象互动,显示其对于工作流程理解极为薄弱。这类“捷径思维”不仅未解决问题,也突显AI缺乏正确判断与完整走完任务流程的能力。
为何AI工作执行力欠佳?
研究团队指出,AI模型在软体开发任务中的表现虽然优异,主因是互联网上充斥大量公开的程式码与技术资源,为模型训练提供充足资料;反观行政管理、财务分析等职务,资料大多属企业内部机密,训练资料相对稀缺,使得AI在这类任务上的表现显得特别疲弱。
此外,AI模型虽能完成简单且目标明确的任务,但在面对多步骤与变化性高的情境时,容易出错或中断任务。像是需要观看影片、选出最适合办公室空间的任务,因涉及影像辨识、情境判读与多变参数,让多数AI模型表现极差。
有研究者指出,目前主流的语言模型AI主要依赖“预测下一个词”的方式运作,并非具备真正的理解与学习能力。因此,当面对需解释文意、跨部门沟通、整合流程的实际工作情境时,AI容易陷入“假装理解”或“假装完成”的陷阱,进而导致错误判断甚至产出毫无价值的结果。
正如参与实验的麻州理工学院(MIT)学者史蒂芬·卡斯佩(Stephen Casper)所言:“要AI当个温和的聊天对象很简单,但要让它理解复杂工作任务,难度高得多。”
AI难以全面取代人力,人机协作才是未来趋势
尽管这次实验证实AI难以完全胜任人类工作,但并不代表它一无是处。像娇生(Johnson & Johnson)就透过AI代理(AI Agents)协助自动化药物制程,成功缩短50%的生产时间;穆迪投资者服务公司(Moody’s)也正训练 AI系统分析小企业财务报表,以期提高效率。不同的是,这些应用强调的是“辅助人类”、“协同作业”,而非取而代之。
同样地,像LG集团的AI实验室与约翰霍普金斯大学(The Johns Hopkins University)所开发的AI系统,也是在研究、数据查核等过程中提供支援,人类的回馈与修正仍扮演重要角色。
回顾OpenAI 2年前一项研究曾预言财务分析师、行政人员与研究员最可能被AI取代,然而,这项预测在实际应用中未能完全兑现,实验显示AI在这些工作上的表现仍存在明显不足。就连机器翻译发展多年,也未导致译者消失,美国翻译与口译从业人员在2020年至2023年间仍成长了11%。
卡内基美隆大学教授格雷厄姆·纽比格(Graham Neubig)指出:“效率提升反而扩大了市场需求,未来其他产业可能也会走向相同的道路。”
相关阅读:ai是工具还是队友-工作快9成-成本省9成-却藏1致命缺点
【本文获“经理人”授权转载。】