具身智能 (Embodied AI)

概述

具身智能研究如何让 AI 系统通过物理身体（机器人）与真实世界进行感知和交互。与纯软件 AI 不同，具身智能强调感知-决策-执行的闭环：机器人必须感知环境状态、做出决策、执行动作，并观察动作后果以持续改进。这一过程需要处理物理世界的复杂性、不确定性、延迟和部分可观测性，是通往通用 AI 的重要路径。

核心原理

具身智能的核心在于闭环控制与因果推理。机器人执行动作后，环境状态发生变化，新的感知信息反馈到决策系统，形成闭环。这种闭环使得模型能够学习"做什么动作会产生什么结果"的因果模型，而非仅依赖静态数据。此外，具身智能强调物理约束：动作必须在关节限位、动力学约束下可行，且需考虑安全与人机交互。

Sim-to-Real 是另一重要原理。在真实机器人上训练成本高、风险大，仿真环境提供了可重复、可加速的替代方案。但仿真与真实存在域差距（Domain Gap），需要通过域随机化、系统辨识、真实数据微调等方法将仿真中习得的策略迁移到现实。

关键技术

感知系统：视觉感知包括 RGB-D 相机、点云处理、3D 目标检测；触觉感知包括力/力矩传感器、柔性触觉阵列；多传感器融合（IMU、LiDAR、Camera）提升鲁棒性。

运动控制：逆运动学（IK）从末端位姿计算关节角度；运动规划（RRT、PRM）在配置空间中搜索可行路径；力控制实现顺应性操作与安全人机交互。

学习方法：模仿学习从人类示教中学习策略，样本效率高；强化学习在仿真中通过试错优化策略，可探索更优解；基础模型驱动使用 LLM/VLM 进行高层任务规划，将自然语言指令分解为可执行动作序列。

仿真平台：Isaac Sim、Isaac Gym 提供 GPU 加速的物理仿真；MuJoCo 是轻量级物理引擎；Habitat 专注室内导航；RoboCasa 模拟家庭服务机器人场景。

代表性工作

模型/方法	类型	主要贡献
RT-2	视觉-语言-动作	将视觉-语言模型与机器人动作空间对齐，实现开放词汇操作
RT-1	机器人策略	大规模真实机器人数据训练，通用抓取与操作
OpenVLA	开源 VLA	开源视觉-语言-动作模型，支持多种机器人平台
Diffusion Policy	模仿学习	扩散模型生成动作序列，处理多模态动作分布
ACT	模仿学习	动作块 Transformer，长时程动作预测
Isaac Gym	仿真	GPU 并行仿真，大规模强化学习训练

应用场景

机械臂操作：抓取、放置、装配、插拔等精细操作，应用于工业与仓储。
移动机器人：室内外导航、避障、探索，用于配送与巡检。
人形机器人：双足行走、灵巧操作，面向通用服务场景。
无人机：自主飞行、航拍、配送。
手术机器人：精密微创手术辅助，提高手术精度与一致性。
家庭服务：清扫、整理、物品递送，服务老年与残障人群。

发展趋势

Foundation Model for Robotics：大模型驱动的通用机器人策略，支持零样本任务泛化与自然语言控制。
Sim-to-Real 迁移：缩小仿真与现实的差距，通过更好的物理建模、域随机化和真实数据闭环提升迁移成功率。
灵巧操作（Dexterous Manipulation）：多指灵巧手的精细操作，如拧瓶盖、穿针引线。
人机协作：安全自然的人机交互，包括意图识别、共享控制、碰撞检测。
多机器人协同：多机器人协同完成复杂任务，如协作搬运、编队飞行。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

具身智能 (Embodied AI)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源

具身智能 (Embodied AI) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

具身智能 (Embodied AI)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源