马斯克激赞 深圳17岁高中生扬威AI界 领衔创「注意力残差」技术

撰文: 许靖雯
出版:更新:

中国人工智能公司月之暗面(Moonshot AI)的Kimi团队近日发表一篇论文,获马斯克(Elon Musk)大赞“Kimi的工作令人印象深刻”。公开资料显示,这篇论文的3位并列第一作者中,其中一名是深圳国际学校高三学生陈广宇(Guangyu Chen),今年仅17岁。

Kimi新架构让马斯克点赞。(深圳特区报)
这篇论文的第一作者是深圳国际学校高三学生陈广宇。(网络图片)

月之暗面是2023年3月成立的AI企业,由清华校友杨植麟等创立,核心产品Kimi大模型在国际榜单上多次挑战GPT-4/Claude等大模型,被誉为中国“AI四小虎”之一。本次Kimi团队发布的论文成果之所以能获马斯克关注,是因为Kimi团队提出了一种叫“注意力残差”(Attention Residuals)的新技术。

简单来说就是过去训练AI模型,常用的是“残差连接”,就像搬东西上楼,每爬一层,都把之前的东西带上,但层数一多东西越多,重要资讯反而会被淹没了。而Kimi团队的“注意力残差”,则是每上一层楼,可以挑出当下有用的东西,不需要背上所有资讯。这样训练效率可直接提升25%,推理延迟只增加不到2%。

Kimi团队发布的最新论文。

17岁少年接触AI研究仅一年

值得注意的是,这篇技术技术论文的附录显示,17岁深圳少年陈广宇排在作者名单第一位。Guangyu Chen(陈广宇)、Yu Zhang(张宇)、Jianlin Su(苏剑林)前三位作者均被标注为“同等贡献”(Equal contribution),其余34位作者姓名后则未见这一标注。

与陈广宇并列共同一作的另外两人,分别是张宇和苏剑林。张宇是Kimi高效模型架构的重要研究者,苏剑林则是大模型领域知名研究者,其提出的旋转位置编码(RoPE)已成为主流大模型广泛采用的位置编码方法之一。

陈广宇排在作者名单第一位。(深圳特区报)

据深圳特区报报道,陈广宇真正深入接触人工智能研究,是近一年的事。最初,他通过研读论文、追踪GitHub开源专案等方式补上基础认知。后来,他因在特推上分享对技术博客的反思,引起一家矽谷AI初创公司CEO关注,并在暑假期间前往美国实习七周,回国后于去年11月到Kimi团队实习,直到参与完成了这篇论文。

对于马斯克点赞带来的热度,陈广宇希望外界多关注写技术和团队。(深圳特区报)

对于马斯克点赞带来的关注,陈广宇回应时强调,不要“造神”,希望外界少写个人、多写技术和团队,不要为了热点突出个人,这项工作是团队共同完成的成果。