0. 碎碎念

最近真是想不到,看了几周的机器人相关的交互式学习的论文。。。
唉,索性就写一篇博客,记录一下吧,不然年长日久, 到时又要忘记看的这些论文到底是什么了。

1. 前情提要

verbalCorrection
大致思想如上图,总的来说,这篇论文主要有三点:

  • User Interaction
  • Data Synthesis
  • Policy Update
    看完这三点,你基本就看完这篇论文了哈哈

2. 庐山真面

开个玩笑,具体来说,论文的大致思想是在机器人执行任务的时候,基于人工纠正的操作来生成训练数据集, 然后生成的数据集加上原有的数据集, 扩充到一起,来重新更新机器人的策略网络的权重,从而达到Interactive Robot Learning from Verbal Correction的目的。 整体一览图如下所示: olafSystem

2.1 User Interaction

这一步乏善可陈,就是机器人比如说有个把剪刀放进抽屉的任务要执行,执行工程中可能会出错,人看到出错后,按下停止键并给出指导: 停!要拿剪刀,你要往右靠一点。 这个交互可以执行多次,以便多收集数据以备训练。

2.2 Data Synthesis

根据上一步骤的交互,机器人生成对应的数据集,具体的内容包含4个部分:
1) the robot’s initial trajectory, where the mistakes have not happened;
2) the pre-intervention region, which covers the mistakes;
3) the user correction;
4) the robot’s terminal trajectory after the user corrects the robot and releases back the control;

然后用一个大模型来根据这些数据生成对应的标签,这样你的全新的训练集就有了。

2.3 Policy Update

然后就是训练更新模型了,数据是新生成的加上原有的训练集。

好了,这些就是这篇论文的总体梗概了。

3. show time

然后就是实验结果了,作者说我们用了什么什么数据集,对比了什么什么算法,我们的效果更好,如此而已: experimentsResults

好啦, 现在到了各位看官捧个场的时候啦~~
敬请期待下次更新,完结撒花~~


微信公众号:璇珠杂俎(也可搜索oukohou),提供本站优质非技术博文~~ wechat_official_account


regards.

oukohou.