欢迎来到具身智能 Blog

这是一个 Robotics 背景 Embodied AI 研究者在探索过程中的学习路径。在当时学习其中相当一部分知识的时候，我因没有找到好的学习路径（global path）而感到痛苦。不断 Reinforcement Learning 中，终于找到了aha moment。

RL的过程是缓慢的，因为存在大量无目的试错，而 reward 很稀疏。如果能加入 huamn in the loop 指导，或者前期有 expert 做 imitation learning（or teacher policy 蒸馏），学习速度可以加快很多。非常不幸，在现实生活中，这样的 expert 并不总是容易获得。因此，我希望尽量复现出之前学习的过程，希望后来的人能沿着这条轨迹直达知识彼岸，至少能利用 demo buffer 做 off-policy training 加速收敛。

当你刚刚学会一个知识的时候，是你向他人讲解它的最好的时刻。因为你非常清晰地记得你为什么原来不懂得这个知识、不懂的人的眼中的世界是什么样子的。从而你的讲解天然就更容易被人接受。而当你知道一件事太久的时候，就容易把“知道”当做理所当然，忘记了“不知道的人”是如何思考问题的。因此，我希望这个 blog 是站在不懂的人角度的 blog。

因为部分知识时间久远，我已经完全忘记了来路，很难完全站在门外的角度往里看，陷入了盲区。为此，Blog 主要用 LLM 仿造给本科生讲解的口吻来记录。其中不免有错漏的地方，希望大家包涵。