欢迎来到具身智能 Blog

欢迎来到具身智能 Blog

这是一个 Robotics 背景 Embodied AI 研究者在探索过程中的学习路径。在当时学习其中相当一部分知识的时候,我因没有找到好的学习路径(global path)而感到痛苦。不断 Reinforcement Learning 中,终于找到了aha moment。

RL的过程是缓慢的,因为存在大量无目的试错,而 reward 很稀疏。如果能加入 huamn in the loop 指导,或者前期有 expert 做 imitation learning(or teacher policy 蒸馏),学习速度可以加快很多。非常不幸,在现实生活中,这样的 expert 并不总是容易获得。因此,我希望尽量复现出之前学习的过程,希望后来的人能沿着这条轨迹直达知识彼岸,至少能利用 demo buffer 做 off-policy training 加速收敛。

当你刚刚学会一个知识的时候,是你向他人讲解它的最好的时刻。因为你非常清晰地记得你为什么原来不懂得这个知识、不懂的人的眼中的世界是什么样子的。从而你的讲解天然就更容易被人接受。而当你知道一件事太久的时候,就容易把“知道”当做理所当然,忘记了“不知道的人”是如何思考问题的。因此,我希望这个 blog 是站在不懂的人角度的 blog。

因为部分知识时间久远,我已经完全忘记了来路,很难完全站在门外的角度往里看,陷入了盲区。为此,Blog 主要用 LLM 仿造给本科生讲解的口吻来记录。其中不免有错漏的地方,希望大家包涵。