AI是工具还是队友?工作快9成、成本省9成 却藏1致命缺点

撰文: 数位时代
出版:更新:

AI抢工作的讨论,近年来可说沸沸洋洋。不过,AI处理各种任务的能力,真的比人类工作者厉害吗?近日便有研究团队发布报告,比较48名人类员工和4款AI代理的工作流程与完成工作的能力。

这份名为《AI代理如何执行人类工作?比较AI与人类在不同职业中的工作流程》(How Do AI Agents Do Human Work?Comparing AI and Human Workflows Across Diverse Occupations)的研究由卡内基美隆大学、史丹佛大学的多位学者共同提出,针对涵盖资料分析、工作、计算、写作与设计等5个领域总计16项任务,例如撰写职缺内容、分析股票、更新开发文件等,研究人类与AI代理的工作流程及结果差异。

研究中使用到的4种AI代理框架分别是:

.ChatGPT Agent
.Manus
.开源AI代理平台OpenHands Agent(由GPT-4o驱动)
.开源AI代理平台OpenHands Agent(由Claude Sonnet 4驱动)

这份研究希望透过直接对比人类与AI代理的工作流程,深入了解AI代理的优势及限制,为人类与AI协作的未来提供指引。

+2

AI工作速度比人类快近9成、成本少9成,却牺牲了品质

从结论说起的话,AI代理完成任务的速度远较人类工作者为快,整体快上88.3%之多。而且成本也极为低廉,如果使用的是开源AI代理(OpenHands),执行任务成本比低90.4到94.2%。

但这代表AI比人类更能胜任各种职场工作吗?不完全如此。尽管AI处理工作的速度与成本远胜人类员工,这样的成果却是建立在相对较低的成果品质上。

该研究指出,AI代理的工作成果品质明显低于人类,成功率比人类低上32.5%至49.5%,37.5%的资料分析任务中出现计算错误,且AI代理本身缺乏视觉感知能力,在需要从图像提取资讯,或者审美判断的任务上都表现不佳。

更糟糕的是,AI代理会捏造数据得出看似合理的结果,来掩盖自己无法解析某份文件或数据的事实。又或者因为无法读取用户提供的档案,转而在互联网上搜寻资料填补,这可能导致资料不准确。

什么任务都靠程式解决,成AI双面刃

而AI代理执行任务极为快速、成本低廉,以及品质较低的成果,与AI采取极度程式化的方式处理任务有关。

无论接手什么任务,AI代理都是透过写程式处理。人类员工在任务的不同阶段可能会交替使用Jupyter Notebook、Excel、Power Point等工具,而AI代理可能自始至终都在编写Python脚本。具体来说,AI代理在研究中透过写程式解决93.8%的任务。

以写程式的方式执行任务固然有很多好处,例如用Python处理数据远比Excel迅速、大幅缩减了工作步骤。人类平均解决单一任务需要981.1的动作步骤,而AI代理仅仅只要33.8个步骤,因为程式码可以一次执行多个复杂任务。

但并非所有任务都适合用程式解决,例如设计或行政相关的非结构化工作,AI代理仍会一味地利用程式去解决,自然容易在工作成果中产生重大缺陷。在设计任务中AI代理虽然具备与UI互动、编辑图像的能力,仍然选择透过程式码编辑。

而且,人类的资料或文件通常倾向于使用UI便利的格式,例如.pptx、docx等常见的文件格式,但AI代理更倾向于适合程式处理的格式,例如Markdown或HTML,硬是转换格式容易出现问题,也是AI代理工作成果品质较低的原因之一。

人类与AI分工合作,才能发挥彼此优势

透过这次研究的发现,研究人员认为人类与AI代理在执行任务上各有优缺,人们应该依照彼此的优势进行分工,人类负责处理涉及视觉处理或专业判断的工作,并将适合程式处理的任务交给AI代理,发挥它快速、低成本的优势。

例如在一个资料分析协作案例中,人类先浏览档案挑出需要的资料文件,并将分析工作交给AI代理,这样分工合作的方式比人工单独作业要快上68.7%,并且维持了资料准确。

研究中形容,AI就像是个万事只会用锤子解决的工程师,而人类是懂得运用多种不同工具的工匠,要达到高效且高品质的成果,需要结合两者优点分工合作,让工程师(AI)处理可量化、程式化的部分,并由工匠(人类)处理其余部分,才能得到比AI代理或人类单打独斗更好的结果。

延伸阅读:AI看脸能判断职场潜力 样貌决定了收入?整形迎合算法恐成真(点击连结看全文)

+11

延伸阅读:

AI 智慧代理人时代来临!三大导入阶段, AI 落地企业不卡关

实测教学|AI 影片平台 Sora 2 在台上线!3大玩法一次看:Cameos怎么做?如何让好友客串演出?

AI抢了谁的饭碗?哈佛研究:爱用AI的企业不爱找小菜鸟,中等大学毕业比后段班更没头路

【本文获“数位时代”授权转载。】