DeepSeek因996成功?  矽谷“中国焦虑”论的虚实

撰文: 蔺思含
出版:更新:

上一篇专栏提到矽谷是如何掀起“996”风潮,在众多理论当中,除了美国科技界自身对AI的狂热,中国大模型DeepSeek加入赛局被认为是另一个重要推力。一时间,中英媒体圈都出现关于矽谷“中国焦虑”的叙事。

医疗AI企业创始人、前Meta雇员Sandesh告诉我,最早感受到“996”的压力,是2024年1月DeepSeek R1语言模型(LLM)问世时。当时他还在Meta的AI部门工作,他称,DeepSeek模型的发布在Meta内部引起了非常大的焦虑:

“坦白说,Meta 当时投入了巨大的资金在 AI 上.....上层管理人员产生了很多怀疑,给了我们很大压力,要求我们做一些不同的事情。”

不止是Meta,DeepSeek在矽谷、华尔街乃至白宫都引起震动,在此之前,大家普遍相信美国在人工智能(AI)领域拥有不可动摇的霸主地位,但DeepSeek的模型在各项测试参数上都超过Meta当时的大语言模型Llama 3.1-405B,并与美国两个AI巨头——OpenAI的ChatGPT和Anthropic的Claude Monent并驾齐驱。

更重要的是,在美国芯片出口管制政策下,DeepSeek只能用更低的算力去打造模型按官方说法,该模型只使用约2048张H800的GPU训练了2个月,总成本约为560万美元。由此产生的“DeepSeek-V3”直接威胁到了这些人工智能巨头的市场地位。

DeepSeek-V3推出后,Meta内部很快专门设立了四个专责部门分析DeepSeek的技术,其中两个重点关注DeepSeek如何降低培训成本,另外两个则彻底分析DeepSeek所使用的数据源,试图进行“逆向工程”——找出DeepSeek的模式进行模仿,防止下一代Llama 性能被DeepSeek远远领先。

但被“逆向工程”的不仅仅是模型本身,Meta对DeepSeek自身的企业结构、人才和工作文化都进行研究。Sandesh补充称:

“虽然这么说不太好,但当时管理层提出的疑问是:‘中国人都能做到这一点,为什么我们变成这样?’”

包括大规模裁员及其他人事变动在内,Sandesh 提到,公司内部开始将中国的成功部分归功于工作时数,并以此反思美国员工的努力程度——“尽管我们当时已经每周工作超过 50到60小时,但我们仍然觉得我们工作得不够努力。”

这种“中国焦虑”的论调当然不仅存在于Meta,DeepSeek-V3的问世虽然引爆了这种焦虑,但科技圈对“中国模式”的推崇早就不是新鲜事。只不过,这种叙事在中美AI科技竞赛下变得流行起来。

研究中美AI竞赛的曾敬涵教授就认为,这种焦虑在很大程度上是人为制造的,尤其当ChatGPT和Claude继续更新迭代下,这些模型在表现测试上毫无疑问仍然领先DeepSeek:

“在美国的商业模式下,它是有一种系统性的动机来炒作中国的人工智能发展……炒作‘中国要赢了’,它才能够在国内获得更多的资源。”

曾敬涵认为,媒体与政界讨论“赢得AI竞赛”的背后,本质上是对整体“国家竞争力”下降的焦虑,这包括AI对经济、技术乃至军事地位的全面提升。这自然会在美国国内引发是否应该效法中国的讨论,让政府在AI发展中参与更多、扮演更积极的角色并提供更多资源。

随着中美两国在AI方面的竞争持续,“中国焦虑”论可能还会不断浮现,它一方面为中国成为科技强国提供证据,另一方面则满足了硅谷行业巨头争取资源、企业鞭策员工以在竞争中占据高地的需求。

这种对于中国“举国体制”赢得竞赛的焦虑,与其说反映了中国体制的优越性,也许更多是美国对自身纯商业导向模式的反思。