AI大模型术语“Token”译名惹争论 内地官方正式定名:词元

撰文: 郑宁
出版:更新:

AI中文为人工智能,AI工具又被称为“大模型”;大模型中的术语Token该如何翻译,争论已久。3月24日,中国政府网转发人民日报援引自国家数据局的文章显示,“我们日均词元调用量突破140万亿”,正式将Token的中文名译为“词元”。

3月24日,中国政府网转发人民日报援引自国家数据局的文章显示,“我们日均词元调用量突破140万亿”,正式将Token的中文名译为“词元”。

国家数据局发布的数据,人民日报发布,中国政府网转发,官方政府机构与官方媒体双重发布,其中都统一将Token称为“词元”。

Token该如何命名?争论已久。此前腾讯研究院发表的文章中,学者杨斌提出的“模元”译名。他认为,把token翻译为模元。其中,“模”意为大模型、多模态,锚定AI场景的核心属性;“元”代表最小基本单元,承续“字节”这类中文经典度量单位的命名逻辑,简洁直白、通俗易懂。

清华大学可持续社会价值研究院发文《杨斌丨模元(token):AI时代的新度量衡》。清华大学教授杨斌建议,将“模元”这个词作为“token”的中文译法。

杨斌的这一建议,立刻引发各路AI界人士在社交平台和行业群组中纷纷给出自己的答案。除了“模元”外,“智元”这个名字浮出水面,并迅速获得广泛认同。

新加坡国立大学校长青年教授、潞晨科技创始人尤洋表示,“Token中文叫做‘智元’,不知道‘新智元’创始人是不是时空穿梭回来的。”

自由学者、原清华大学科学史系副教授胡翌霖提出,“真不如‘智元’。计算机的单元是字节,Token是人类智识的计算单元。Token不是通用计算的概念,是‘通用智能’的概念,‘智’比‘通’更切中要害。”

百川智能创始人王小川表示,“叫做‘智元’挺好的。”资深开源人士陈绪也称,“这几天提出了各种x元,就觉得‘智元’能打动我,符合信达雅的要求。”

最终,官方给出定论,正式译名为“词元”。据人民网的解释,“词元”是AI理解人类语言的最小单位,Token切分出的单位有时是字,有时是词,而词更能覆盖这种范围。

Token中文译名为词元。(鞭牛士)