当机械人会功夫、做番茄炒蛋 2026年成“具身智能”元年?|专栏
今年2月,我在深圳南山一家具身智能企业跨维智能参观时,有幸喝到了一个叫做DexForce的机械人给我做的一杯咖啡。把胶囊精准的放入咖啡机内,从纸杯桶中抽出纸杯放到出水口下方,等待咖啡制作完成,再把装好的咖啡递给我——每个动作丝滑流畅,举手投足间透露着优雅和从容——这个身披黄色外壳、脚踩轮式底盘的人形机械人,据说就是去年在世界妇女大会上给国家主席习近平夫人彭丽媛倒咖啡的“小维”。
如果说打造像ChatGPT、DeepSeek这些大语言模型的过程就是教机械人说话、思考的过程,那么打造具身智能(physical AI,智能机械人)就是教它们做事。
这些机械人虽然近两三年在内地春节晚会的舞台上大出风头——表演舞蹈、功夫,给人倒酒、上菜,但每隔一段时间,我们就会在社交平台上看到机械人在海底捞餐厅里表演时突然“暴走”,或是在波兰的城市街头追赶野猪——这些画面成了如今机械人技术发展下的网络迷因,它指向的是大多数人看到这些新兴科技时所感受到的困惑:机械人好像能做很多,但在现实生活中,它真的能派上用场吗?
如果你去问中国头部人形机械人企业,他们会诚实的告诉你,目前还不能。
科技Tech Buzz China的创办人马睿表示,制造一个真正智能的自主机械人“基本上就等同于复制一个人类”,这比制作一个聊天机械人、或者抓取网络资料的智能问答引擎要复杂得多。企业虽然已经可以制造一些像是交警、博物馆导览之类的机械人,但这些并不是真正必要的应用场景。
(就在笔者与Tech Buzz China马睿对话后,一家总部位于法国的具身智能初创企业Genesis AI发布了机械人基础模型系统GENE-26.5,在演示影片中,机械人在该系统的驱动下,做了一道番茄炒蛋——这或许是目前看上去最能派上用场的人形机械人(见以下影片)。《商业内幕》引述Genesis AI的共同创办人周衔报道,影片中多数步骤的成功率约90%到95%,但单手打蛋和用刀辅助把切好的番茄放进锅里这两个动作,拍摄时成功率只有50%到60%。)
一个所有机械人企业面对的关键难点,是训练数据的压倒性不足,跟大语言模型相比,这是一个巨大的先天缺陷。
Open AI的ChatGPT、Anthropic的Claude和深度求索的DeepSeek,所有这些近两年爆火的人工智能都得益于互联网带来的庞大“数据红利”——互联网其实从上世纪90年代开始,把人类的所有的知识、我们每个人每天的生活都持续的记录到了互联网上。
举例而言,最为人所熟知的common crawl多年来就担任了互联网公共档案馆的角色,定期派出成千上万个“数字图书管理员”,爬取互联网上的网页,给它们拍照、存档并编号,免费开放给全世界使用。此外还有像Google的Clueweb系列、Internet Archive的“时间机器(Wayback Machine)”等互联网数据库。这些数据库为大模型提供了大量可用于训练的文字和视像资源,允许人类用来教AI如何说话、思考、理解二维世界。
跨维的CEO、学者出身的贾奎说:“但当我们希望让一个智能体在三维物理世界里面去理解、决策和行动时,我们却没有像互联网一样现成的教学材料”,换句话说,从第一天开始,你想要做三维物理世界的AI,你就要想办法解决数据(不足)的问题。”
但如何解决呢?
一种相对笨拙的教学方法,是“遥距操作”。如果把机械人想像成一个刚出生的孩子,那么遥操作就相当于手把手教学,握着小朋友的手,一笔一划的写出“大”字。小朋友的手跟着你的力道移动,大脑则在记录:哦,原来写这个字需要这样用力。
在机械人身上,这意味着由人类穿戴传感设备(如VR手套或操作杆),直接控制机械人的动作,而机械人的感测器会记下电流、视觉画面等必要的数据。这种方法精准、安全,但是成本高、效率低。机械人只能像鹦鹉学舌一样,学一句、说一句。但实际上不理解任何一个动作,更加不会举一反三。
第二种方法是影片教学。想像一下,当一个人从未下过厨、想要学做番茄炒蛋,他首先可能会到youtube上搜索做番茄炒蛋的教学影片,把所有的教学影片看完,学习如何持刀切番茄,如何打碎鸡蛋,知道鸡蛋要在多大的火候下、翻炒多久。
在实际训练机械人的过程中,企业会利用生成式AI(如 Sora)生成机械人操作的视频,再将这些二维的影片“翻译”成机械人能执行的指令,相当于利用了现在大模型在生成图像、影片上的先进技术来教会机械人做事。
然而,这种方法生成出来的影片肉眼看可能没问题,但实际包含许多违反物理常识的细微错误,导致机械人无法在真实世界精准操作。贾奎形容这种教学方法下,机械人如同在“盲人摸象”,只是预测了视觉上(外在表象)的变化,而不是理解三维世界中的物理定律(如牛顿力学、因果律等)。
第三种方法则是构建一个符合真实物理规律的多维虚拟世界(Simulation),如同在元宇宙当中生成大量的三维数据来训练机械人,再将这些在元宇宙当中不断试错、纠错的模型迁移到真实世界(Sim-to-Real)。如此生成的数据生成高效、安全,模型能理解物理世界的内在运作规律,但技术门槛也最高。此外,虚拟世界与现实世界仍然存在一定差距。
从美国到中国,许多企业会选择对这三种训练方法进行融合,对于什么才是教机械人做事的最优方法,业内并未形成共识。而除此之外,大部分的机械人本体运算能力不足——那些看似优雅、缓慢的动作背后,实际上是云端传输的延迟问题难以解决,这又需要更好的机械人专用芯片......
技术上的瓶颈让具身智能迎来一个像是ChatGPT和DeepSeek一样的突破。没有人知道它是什么、什么时候会到来,按照贾奎的说法,一旦出现,它不仅会对整个社会经济产生巨大的牵引作用,而且未来的顶尖具身智能公司的估值很有可能达到现在大语言模型公司的10倍——“这个很可能,但现在还没有”。
内地科技媒体“极客公园”引述Genesis AI的周衔表示,具身智能有望在一到两年内、在实验室环境中进入类似GPT-3.0的阶段,届时,专业研究者会看到明显的能力跃迁,并对技术路线形成相对基本的共识。(2022年震惊世人的是GPT-3.5版本,这时GPT的能力才足以让普通人能够在日常生活中广泛应用。)
不过,这并不妨碍今年更多普通人在日常生活中见到人性机械人。贾奎表示,2026-2028年,在现实生活中与人交互的服务机械人正在迎来一个爆发期,我们会在身边看到更多的机械人——商铺店员、餐厅侍应、办公或是娱乐场所的接待人员,而这会让机械人的商业价值将远远超过AI圈的红人——大语言模型。
曾在500 Startups担任投资合伙人的马睿说,她对中国机械人产业的前景尤其感到兴奋:“中国在机械人领域拥有‘完整的配套’”,这包括庞大的市场及在工业、服务业和零售业乃至家庭应用等场景中极大的应用潜力,“这种产能与规模优势在美国是不存在的”。
另一个有趣的差异是,在美国,人们普遍对机械人存在排斥和恐惧,而在中国,许多人更看重便利性——“即使美国服务业有大量职位空缺,大众也不愿意用机械人来取代人力,因为这在文化与根本上被视为一件“坏事’。如果将机械人放在街上当交通警察,或是安排在停车场提供服务,在大多数美国城市都会被认为“很奇怪”。