Datasets

Ego4D

超大规模的第一人称视频数据集，3670小时覆盖多种日常场景，并提供丰富标注与任务。但缺乏本地手部姿态标注，且不专注于物体操作。

目前最大最丰富的第一视角灵巧操作数据集，829 小时的第一人称视角视频，配有同步采集的 3D 手部和手指追踪数据。

小型版EgoDex，面向机器人模仿学习的操作数据集，4h人类数据直接映射为机器人可执行动作，collects only the wrist positions。

高精度的人体-物体交互数据集，覆盖真实完整任务流程，提供清洗后的全身动作与多物体交互。

人体动作	通常以 3D骨架关节序列（如 SMPL）表示，包括身体、手臂、手指的运动。
物体信息	被操纵物体的三维模型、位置、姿态（甚至物体的关节状态，如门是否打开）。
时序数据	一段完整任务（如“泡茶”）从开始到结束的全流程，而非一个个碎片动作。
视觉数据（可选）	视频、RGB图像、多视角相机采集到的原始数据。
语义标签（可选）	每一帧的人体状态、物体状态、动作名称等。

Scaling Large Motion Models with Million-Level Human Motions

首个百万级人体动作生成数据集，结合层次文本标注与创新编码方案。

动作序列	通常为每帧的3D关节点位置或参数化的人体模型（如 SMPL）序列。
语义描述	每段动作配有文本说明（动作是什么、目的是什么、情绪如何）。
分层结构（可选）	有些数据集中，文本标注有高层次任务 + 低层次动作，如“做饭” → “切菜 + 炒菜”。

PREVIOUSLeRobot

NEXTACT