Ego4D
超大规模的第一人称视频数据集,3670小时覆盖多种日常场景,并提供丰富标注与任务。但缺乏本地手部姿态标注,且不专注于物体操作。
EgoDex
目前最大最丰富的第一视角灵巧操作数据集,829 小时的第一人称视角视频,配有同步采集的 3D 手部和手指追踪数据。
EgoMimic
小型版EgoDex,面向机器人模仿学习的操作数据集,4h人类数据直接映射为机器人可执行动作,collects only the wrist positions。
HUMOTO
高精度的人体-物体交互数据集,覆盖真实完整任务流程,提供清洗后的全身动作与多物体交互。
人体动作 | 通常以 3D骨架关节序列(如 SMPL)表示,包括身体、手臂、手指的运动。 |
---|---|
物体信息 | 被操纵物体的 三维模型、位置、姿态(甚至物体的关节状态,如门是否打开)。 |
时序数据 | 一段完整任务(如“泡茶”)从开始到结束的全流程,而非一个个碎片动作。 |
视觉数据(可选) | 视频、RGB图像、多视角相机采集到的原始数据。 |
语义标签(可选) | 每一帧的人体状态、物体状态、动作名称等。 |
Being-M0
Scaling Large Motion Models with Million-Level Human Motions
首个百万级人体动作生成数据集,结合层次文本标注与创新编码方案。
动作序列 | 通常为每帧的3D关节点位置或参数化的人体模型(如 SMPL)序列。 |
---|---|
语义描述 | 每段动作配有 文本说明(动作是什么、目的是什么、情绪如何)。 |
分层结构(可选) | 有些数据集中,文本标注有高层次任务 + 低层次动作,如“做饭” → “切菜 + 炒菜”。 |