具身智能是人工智能(AI)与其他学科交叉融合发展的新范式,从字面可理解为“具身+智能”,通过给 AI 赋予“身体”,能够与物理环境产生交互,让 AI 从仅存于数字世界的软件算法走向现实世界,并在物理世界也能呈现模拟人类甚至超越人类的智能水平。伴随大模型的技术突破、硬件成本的降低,软硬协同的不断成熟,具身智能开始能够主动探索世界、认识世界、改变世界,不断延伸和拓展 AI 边界,实现“知行合一”。
具身智能将在“智能”上拉开质的差距:实现“一脑多形”,适配各种形态的物理实体,如智能机器人、智能车辆等;实现“一机多用”,适应多样化场景,执行一系列复杂任务。未来具身智能将从工业协作生产到柔性制造,从家务助手到医疗护理,从灾难救援到太空探索,无缝融入人类社会。然而,当前仍面临技术能力短板,数据短缺,以及工程实现复杂等一系列挑战。
从模拟、感知、交互三方面训练具身智能:模拟器在训练具身智能中扮演了重要角色,通过提供逼真的虚拟环境进行算法开发和模型训练,帮助研究人员在降低成本、提高安全性和加速迭代的同时,将研究成果更快地转化为现实应用。另外,具身感知让智能体理解物理世界中的视觉推理和空间,技术包括视觉同步定位与绘图(vSLAM)和 3D 视觉定位,帮助智能体在动态环境中移动和互动。具身交互则强调智能体在物理或模拟空间中与环境和人类的互动能力,典型任务如具身问题解答(EQA),需要智能体主动探索环境,整合信息并执行目标导向的动作。