AI写作7大缺陷揭晓!嫌GPT-4o文笔差?专家1招显著提升品质

撰文: 数位时代
出版:更新:

Salesforce最新研究揭示,顶尖AI模型在创意写作上普遍存在七大缺陷,但透过自动化编辑流程,AI文本品质可显著提升。

重点一:Salesforce研究指出,顶尖AI模型如GPT-4o在创意写作上品质无显著差异,且普遍存在七大写作缺陷。
重点二:研究证实,透过自动化编辑流程,AI能有效识别并修正自身初稿的缺陷。
重点三:各大AI模型皆出现重复的句法模式与用词,暴露出其训练数据与方法可能存在“演算法单一化”的缺陷。

Salesforce AI 研究中心近日发表一篇题为《AI写作能否被拯救?》的研究报告,对当前大型语言模型 (LLM) 的创意写作能力提出检讨。

顶尖AI模型在创意写作上普遍存在缺陷,但在人类指导下,品质即有显著提升。(AI生成图片)

为了探讨AI与人类写作的差异,该研究聘请了18位拥有艺术创作硕士 (MFA) 学位的专业作家,对1,057段由前述三大模型生成的文学小说,与创意非小说段落进行深度编辑与评分。

研究发现,尽管AI技术飞速演进,但包括OpenAI的GPT-4o、Anthropic的Claude-3.5-Sonnet及Meta的Llama-3.1-70b在内的三大顶尖模型,其生成的创意写作文本在品质上并无显著差异。

更重要的是,专业作家在评审过程中,一致认为这些AI生成的内容普遍存在七大类写作缺陷,显示AI在原创性与艺术性方面,可能已触及现有技术的天花板。

专业编辑归纳出的“AI写作7大缺陷”

AI写作7大缺陷(点击图集快速了解)

+3

为了系统性地分析AI写作的弊病,研究团队在专业作家的协助下,建立了一个包含七大类别的“AI写作缺陷分类法”。这些缺陷按被标记的频率高至低排序,分别为:

(一) 别扭的用词与措辞 :占28%,指用字不精准或语句不通顺。例如AI常使用“seem to”这样的不必要修饰语,使表达显得不够精确。

AI原生:where the sky seemed to hover (天空似乎盘旋的地方)
人类修改: where the sky hovered (天空盘旋的地方)

(二) 句子结构不良 :占20%,包括流水句、句子片段、修饰语位置不当等问题。AI倾向于产生过长复杂的句子,影响可读性和清晰度。

AI原生:As the night wore on, Z's laughter grew louder, his words slurring together like a sloppy melody. N. and I exchanged a knowing glance... (夜深了,Z的笑声越来越大,他的话语像一段草率的旋律般含糊不清。N和我交换了一个心照不宣的眼神…)
人类修改: Z. was drinking more and more as the night went on. He laughed more loudly. His words started to slur... (随著夜深,Z越喝越多。他笑得更大声了。他的话开始变得含糊不清…)

(三) 不必要/冗余的阐述:占18%,即“过度解释”,未能做到“点到为止”,反映了AI难以掌握什么讯息对读者是必要的。

AI原生:a concrete behemoth that cast long shadows over the desolate landscape (一个在荒凉景观上投下长长阴影的混凝土巨兽)
人类修改: a concrete behemoth that cast a long shadow. (一个投下长影的混凝土巨兽。)

(四) 陈腔滥调:占17%,使用过度俗套的比喻或情节。

AI原生:settled over her like a heavy blanket (像一条沉重的毯子笼罩著她)
人类修改: This time, though, she was alone. (不过,这一次,她独自一人。)

(五) 华丽辞藻:指过度堆砌形容词与副词,显得矫揉造作。

AI原生:The sobs emerged from this deep well of unspoken expectations, leaving behind a residue of weary resilience... (哭泣从这口潜藏期望的深井中涌出,留下了疲惫韧性的残余…)
人类修改:She cried. She cried for unfairness. She cried without relief. (她哭了。她为不公而哭。她哭得无法释怀。)

(六) 缺乏具体性与细节:内容空泛,缺乏能够创造鲜明心理图像的具体细节。

AI原生:Dr. Arthur Steiger's fall from grace began with a series of whispered concerns... (亚瑟·史泰格医生的失势始于同事间一系列窃窃私语的担忧…)
人类修改:Pain was Dr. Arthur Steiger's forte. Not inflicting it, that is, but resolving it. (疼痛是亚瑟·史泰格医生的专长。不是制造疼痛,而是解决它。)

(七) 时态不一致:在过去、现在、未来时态间不当跳换,造成时间线混乱。

AI原生:The first snowflakes began to drift (第一片雪花开始飘落)
人类修改:The first snowflakes drifted (第一片雪花飘落了)

研究还发现,这些顶尖模型不仅问题相似,甚至连用词偏好都惊人地一致。例如,“unspoken (潜台词的/未说出口的)”一词在约15%的AI生成文本中出现,而“sense of (…的感觉)”、“weight of (…的重量)”等片语也远高于人类作家的使用频率。

这种跨模型的语言同质化现象,可能源于它们使用了相似的训练数据基础(如Books3语料库),或是存在模型以其他模型生成的合成数据进行训练的产业现况,这为“演算法单一化 (Algorithmic Monoculture)”敲响了警钟,可能导致AI语言表现多样性的流失。

研究展示了在分析文本资料时,所归纳出的七种常见的AI写作问题。(Salesforce)

AI写作有救吗?答案是“可以教化”

尽管研究点出了顶尖模型的共同瓶颈,但这不代表AI在写作方面不可教化。研究发现,AI其实具备自我进化的潜力。研究团队基于专业作家的编辑回馈,建立了一套创新的“对齐模型与人类偏好”的方法,证明AI能够透过自动化流程改善写作力。

传统上,训练AI(即“对齐”)的方式是让人类在两个由AI生成的范例中择一,但缺点是两个选项可能同样有瑕疵。 而Salesforce提出的新方法则是“透过编辑对齐 (Alignment via Edits)”,让人类专家直接修改AI生成的文本,为AI提供了更精确、更具体的学习范本。

简单来说,就是先让AI生成文章,然后请人类编辑下去修改,把不通顺的地方改通顺、把用错的词换掉,透过提供“标准答案”给AI当范本,让它更能揣摩真实人类的下笔方式。

基于上述概念,研究团队进一步开发出一套两阶段自动化编辑管线:首先由一个AI模型“检测”出初稿中的问题文本,再交由另一个AI模型进行“改写”。

在一项由12位专家参与的偏好度排名评测中,结果呈现出清晰的排序: 作家编辑版本 > AI自我编辑版本 > AI原始版本。

这张图描绘了一个三步骤的自动化流程:从真实文章中提取内容 -> 用 AI 将内容转化为问题 -> 再用 AI 针对问题生成答案。透过这种方式,可以高效地创造出大量高品质、类似人类对话的“问题-答案”组合,用来训练和优化 AI 模型。 (Salesforce)

其中,AI自我编辑后的文章,平均排名分数(1.99分)显著优于原始文章(2.51分),虽然仍不及人类专家亲自操刀的版本(1.5分),但已证明AI透过“撰写初稿、发现问题、进行修改”的迭代过程,能有效提升最终产出的文本品质。

人类作者该如何跟LLM协作?

文章的结论指出,LLM的问世,让人类作家不再需要与一个充满缺陷的初稿搏斗,而是可以由AI执行初步的“自我润色”流程,从而为人类提供一个品质更高的起点,将人类的角色从文案校对员转变为更高层次的创意总监。

而为建构AI成为更好的写作辅助工具,研究提出的操作心法如下:

1、克服过度写作 :LLM必须学会“少就是多”原则,删减不必要的阐述,让简洁成为标准。
2、消除陈腔滥调 :LLM的机率性本质使其成为老梗制造机,因此未来的AI对齐工作,必须积极惩罚高机率出现的老梗文字用法。
3、掌握结构 :LLM需要更好地管理文章的流畅性、清晰度和句子结构,并学会何时以及如何有效地拆分复杂的思想。

研究中所提到的具体的优化提示词如下:

力求原创,避开陈腔滥调与常见的套路。语言风格应简洁、精练,避免不必要的词藻堆砌。请著重于呈现细腻的差异与潜台词,不必加上前言或开场白,直接开始。

结论:为AI秀出范例,是最好的调教手段

最后要说的是,AI写作虽然目前充满缺陷,但确实可以被“拯救”,而拯救的关键方法是“编辑”,而非不断要求AI重新生成。毕竟,一个经过编辑的版本,本身就为AI提供了“哪里错了”以及“该如何改”的明确讯号 。

换言之,与其期待AI一次就写出完美的文章,不如将其视为一个能快速产出草稿、但需要后续修改的助手。

相关阅读:ChatGPT 4o|00后一招侦破AI写作漏洞 他教这样做避开辨识特征

+4

延伸阅读:

【观点】AI写作会害你变得“超级平庸”?别以为自己在进步,小心落入致命缺点

Z世代热议ChatGPT破绽!看到“这符号”就能判定是AI写作,OpenAI怎么说?

内容大通膨时代来了!当社群河道充斥“无脑AI文”,内容创作者如何保住含金量?

【本文获“数位时代”授权转载。】