从模拟、感知、交互三方面训练具身智能:模拟器在训练具身智能中扮演了重要角色,通过提供逼真的虚拟环境进行算法开发和模型训练,帮助研究人员在降低成本、提高安全性和加速迭代的同时,将研究成果更快地转化为现实应用。另外,具身感知让智能体理解物理世界中的视觉推理和空间,技术包括视觉同步定位与绘图(vSLAM)和 3D 视觉定位,帮助智能体在动态环境中移动和互动。具身交互则强调智能体在物理或模拟空间中与环境和人类的互动能力,典型任务如具身问题解答(EQA),需要智能体主动探索环境,整合信息并执行目标导向的动作。