AI教母李飞飞教授|通往人工智慧关键拼图Spatial 3D AI|苏仲成
当我们谈论人工智慧的下一个转捩点,越来越多科学家、企业家与开发者把焦点放在一个看似冷门但至关重要的领域——Spatial 3D AI(三维空间人工智慧)。这不只是让机器理解三度空间的几何结构,而是让AI真正读懂这个物理世界,具备人类般的空间感、身体知觉与常识推理能力。这项能力,正是迈向通用人工智慧(AGI)的基础建设。
文:Michael C.S. So | AiX Society
什么是Spatial 3D AI?
Spatial 3D AI 指的是能够“看见”并理解物理世界的 AI。它不只是从2D影像辨识物件,而是要能建构三维场景,推断物体的深度、相对位置、潜在物理互动,甚至预测行为的结果。举例来说,一个具备空间智能的AI看到一杯水悬挂在桌边,会预测若有人碰撞桌面,水杯会掉落并打翻。
这不单是感测技术的问题,更是AI必须学会如何整合视觉、听觉、触觉等感官数据,建立一套内在的“世界模型”(World Model)去模拟环境中的可能性。这样的能力在人类心智中天生具备,但对AI来说,是一项全新的挑战。
空间智能为何是AGI的必要条件?
人类之所以具备“常识”,是因为我们从小就在与三维世界互动的过程中,建立起因果推论与空间记忆的能力。这一点,也是李飞飞教授(Fei-Fei Li)近年在Stanford大力倡议的观点。她在2025年于《TIME》撰文指出:“AI若缺乏对空间的理解,就无法真正拥有常识与推理能力。Spatial intelligence is the scaffolding of human cognition.”
她更进一步指出,尽管大型语言模型能够说出精彩的故事、写出代码、回答复杂问题,但它们就像“盲目的说书人(blind storytellers)”,对于物理世界一无所知。她写道:“LLMs are eloquent but inexperienced, knowledgeable but ungrounded. They talk about the world but don’t truly know the world.”
因此,若AI无法掌握三维空间的几何、物体间的因果关系、动作与结果之间的推理,它终究只能停留在符号与语言的层次,无法进入真正“智能”的世界。
Omniverse与数位孪生:AI的虚拟训练场
目前AI最重要的空间训练平台之一,是由NVIDIA打造的Omniverse。这是一个可进行物理正确模拟的3D数位孪生平台,允许企业在虚拟世界中设计、部署并优化真实世界中的系统与流程。
NVIDIA CEO黄仁勋曾表示:“Everything that moves will be robotic and embodied by AI. Omniverse will be the operating system of physical AI.”这个愿景已经在BMW、Amazon等企业中实现。例如BMW透过在Omniverse中重建汽车工厂,模拟生产线改动,成功提升30%效率;Amazon则模拟50万个仓储机器人进行场景演练与布局优化,节省大量实体测试成本。
这些虚拟世界能产生大量synthetic data,提供AI训练使用,有效解决真实世界资料取得困难与昂贵的问题。
Embodied AI:智慧不是“只有脑袋”
空间智能不能只靠大脑(模型),还需要身体(embodiment)。李飞飞教授与其他神经科学家强调,智慧是感官、动作与环境互动的结果。AI若无法透过摄影机、深度感测器、机械手臂等硬体与世界互动,将无法建立真正的“常识”。
她指出:“It is much more likely that AI systems will develop human-like cognition if they are built with architectures that learn and improve in similar ways as the human brain, using connections to the real world.”
目前如Meta的AI Habitat、AI2的THOR平台,正是为此而建的模拟空间,让AI代理人能进行“模拟体验”并透过强化学习获得真实操作能力。
世界模型(World Models):AI的内在宇宙
为了让AI真正理解物理环境与未来情境,它需要具备一个内建的“世界模型”。李飞飞将这种模型定义为具备三大特性:
生成性(Generative):能产生符合语义与物理逻辑的3D世界,并能模拟其中的事件发展;
多模态(Multimodal):能整合语言、影像、声音、深度感测等多元感官输入;
互动性(Interactive):能在输入“某个动作”后,推算出环境中各项变数的更新。
她的新创公司World Labs已针对这方向推出原型系统 Marble,可从简单语句中生成可以互动与导航的虚拟3D世界,为训练AI提供更多的“心理模拟沙盒”。
通用智慧的下一站:从“Words”走向“Worlds”
AI发展的头十年,专注于语言与图像辨识。但下一个十年,若要真正进入人类世界、协助人类工作与生活,AI就必须具备对空间的理解能力。李飞飞写道:“To move toward AGI, we must move from words to worlds.”
这样的AI不再只是回应问题的助理,而是能够进入家庭、工厂、医院等真实空间,理解人类的语言并转化为真实世界的行动决策,具备感知、记忆、预测与适应的能力。
空间智能,打开AGI的通道
人工智慧要真正“通用”,就不能停留在资料与语言处理层次。它必须能够感知现实世界、理解环境结构、预测物理事件、并与人类共享空间与任务。Spatial 3D AI 正是在这条通往AGI的路上,打开那扇必要的大门。
如李飞飞所说:“Without spatial understanding, AI is blind to the real world. With it, we begin to see the potential for machines to reason, imagine, and collaborate as we do.”
空间智能不是AI的附加功能,而是它迈向真正智慧与共存时代的根本能力。未来,我们不只期待AI能说得头头是道,更期待它能“进得来我们的世界”,与我们共创新价值。