用GPT-4V训练机器人和人类演示:眼睛学习，手能跟上“机器的心脏报告”

日期：2023-12-05 10:53:59 / 人气：191

用GPT-4V训练机器人和人类演示:眼睛学习，手能跟上“机器的心脏报告”
编辑:赵阳

微软提出了一种新方法，利用人类手部动作视频，直接教会机器人完成任务。该方法使用GPT-4V对视频中的动作进行分解，并结合大语言模型生成相应的行为表达式作为任务列表。训练机器人只需要动动手就可以完成。
如何将语言/视觉输入转化为机器人动作？
训练自定义模型的方法已过时。基于大型语言模型(LLM)和可视化语言模型(VLM)最近的技术进展，通过prompt项目使用ChatGPT或GPT-4等通用模型是比较流行的方法。
该方法绕过了海量数据收集和模型训练的过程，表现出很强的灵活性，更能适应不同的机器人硬件，增强了系统在研究和工业应用中的可重用性。
尤其是最近，通用的视觉宏模型(VLM)出现了，比如GPT-4V。将这些视觉系统集成到任务规划中为开发基于多模态人类指令的任务规划器提供了可能性。
在微软最近的一篇论文中，研究人员分别使用GPT-4V和GPT-4(图1)作为VLM和LLM的最新例子，并提出了多模态任务规划器。系统可以接受人类行为的视频和文本指令等输入，甚至同时接受两者，输出符号化的任务规划(即一系列连贯的任务步骤)。
地址:https://arxiv.org/pdf/2311.12015.pdf.
代码即将公开:https://Microsoft . github . io/GPT 4 vision-robot-manipulation-prompts/
当可视化数据可用时，系统会根据任务计划重新分析视频，建立每个任务与视频的时空对应关系。这个过程可以提取出机器人性能的各种有价值的信息，比如接近物体的方式、抓取的类型、避免碰撞的路径点以及上肢的姿态等。
最后将能力信息和任务计划编译成一个独立于硬件的可执行文件，以JSON格式保存。本文对模型进行了定性分析，证实了多机器人输出任务规划的可操作性。
技术细节
本文提出的系统由串联的两部分组成(图2):
第一部分是符号任务规划器，以人类行为的教学视频、文本或者两者都有作为输入，然后输出一系列机器人动作。这里，文本输入还包括对GPT-4V的识别结果的反馈以进行校正。为用户提供反馈识别结果的机会，得到更健壮的操作作为输入，换句话说，当用户对系统任务的操作不准确时，可以有重新输入的机会。
第二部分是能力分析器，负责分析视频确定任务的时间地点，然后提取高效执行任务所需的能力信息。
在这个系统中，输入的视频是人类动作的演示，机器人可以复制它。在本研究实验中，假设视频的粒度为抓取-操纵-释放。？
A.符号任务规划器
符号任务规划器由三部分组成:1)视频分析；2)场景分析；3)任务规划。
最初，当输入RGB视频时，视频分析使用GPT-4V来识别视频中人类做出的动作，并将其转录为人与人之间交流时使用的文本指令(例如，请扔掉这个空罐子)。在视频分析中，考虑到模型令牌的局限性和延时性，本文采用视频帧定时采样的方法，将提取的帧输入到GPT-4V中。然后用户检查并编辑输出文本。如果没有提供视频输入，则在此阶段向系统提供文本指令。图3显示了一个视频分析器的示例，它显示GPT-4V可以成功地从帧中理解人类的动作。
接下来，场景分析器根据这些指令和工作环境的第一帧视频数据或图像将预期的工作环境编译成文本信息。这些环境信息包括GPT-4V识别的物体名称清单、物体的可抓取特性以及物体之间的空间关系。虽然这些计算过程在GPT-4V中是一个黑匣子，但信息是根据GPT-4V的知识和输入的图像/文本输出的。
图4显示了一个场景分析器的例子。如图所示，GPT-4V成功选择了与操作相关的物体。例如，当人类移动桌子上的垃圾桶时，输出包括桌子，但在打开冰箱的任务中，桌子被忽略。这些结果表明，场景分析器可以根据人的操作对场景信息进行编码。
根据给定的文本指令和环境信息，任务规划器将输出一系列任务。
具体来说，本文设计了一个提示，允许GPT-4将给定的指令分解成一系列机器人任务。根据库恩-塔克理论，本文建立了机器人操作物体的一组充要动作。
表1显示了本文提示中包含的任务集和解释。这里，基于对GPT-4V的理解，以开放的词汇表格式给出了任务参数的名称。在稍后的阶段，这些名称将通过能力分析器与视频相结合。此外，这些前置/后置条件用于迫使GPT-4输出连贯的任务序列，而不是根据视频中的图像进行验证。
为了保证对GPT-4模型理解的透明性，设计了任务规划器，输出任务说明、运行后的预计环境和运行总结，以及一套任务计划。此外，任务规划器是一个有状态系统，它可以将过去会话的历史记录保持在GPT-4模型的令牌限制内。因此，用户可以通过语言反馈，根据任务规划器的输出修改和确认输出。图5显示了任务规划器的计算结果示例。结果表明，一套量身定制的提示可以产生合理的文字说明、环境描述和符号化的任务规划。
B.影响力分析器
影响力分析器利用来自符号任务规划器的知识对给定的视频进行重新分析，从而获得机器人有效执行任务所需的能力信息。
具体来说，根据任务的性质和物体的名称，重点分析手和物体的关系。它可以识别视频中抓取和释放的时间和位置，并将这些时间和位置与任务序列对齐。这些时刻可用作定位点，以确定每项任务所需的能力。本论文的前期研究“用于观察学习的言语注意焦点系统”已经证明了“注意焦点”在检测抓取和释放动作中的有效性。
1)通过关注人手来检测抓取和释放动作:首先，模型将一系列视频以固定的时间间隔分割成视频片段。然后使用手部检测器和图像分类器来分析每个视频片段的开始和结束帧，以确定是否捕捉到对象(图6)。视频剪辑分为以下几种模式:
第一帧什么都没抓到，最后一帧抓到了什么，说明被抓了。
在第一帧中，有东西被持有，在最后一帧中，什么也没有持有，这意味着释放已经发生。
其他剪辑被分类为包含其他类型动作的剪辑。
通过这种分类，分析器可以确定哪些视频剪辑包含抓取和释放的实例。因此，研究人员开发了基于YOLO的手部检测器和识别器，模型已经开源(https://github . com/ultralytics/ultralytics)。
2)通过注意手与物体的相互作用，可以检测到抓放的时空位置。然后，该模型以抓取视频片段为重点，分析抓取对象的位置和时间。本文使用Detic(一种开放的词汇对象检测器)来搜索视频中的候选对象。正如symbol task planner所认识到的，当识别出多个候选对象时，视频片段中距离手最近的对象将被视为抓取对象。这是通过比较在捕获的视频剪辑的每一帧中由手检测器检测到的每个候选者的手和边界框之间的距离来确定的。图7示出了对象检测的计算过程。在“抓取”视频片段中，手在空间中最接近物体的时间被确定为抓取时间。类似的计算也被应用于发布视频剪辑以确定发布时间。
图8示出了将果汁罐从货架底部移动到顶部的计算过程。
3)本文将抓取和释放的瞬间作为任务序列与视频对齐的锚点。对齐后，视觉分析仪将提取以下信息，包括:
抓取任务的能力:1)接近物体的方向信息，避免与环境发生碰撞。2)抓取类型还包括人类如何有效地进行操作。
手部运动能力:1)手部运动过程中的航点信息，避免环境碰撞。
任务释放能力:1)物体释放后释放手的撤离方向信息，避免环境碰撞。
拾取任务的能力:1)矢量化的偏离方向信息，使物体和平面之间不必要的力最小化。
任务放置能力:1)接近物体方向的信息，避免环境碰撞。
旋转任务的能力:1)旋转轴的方向。2)旋转中心的位置。3)旋转角度。
滑动任务的能力:1)滑动运动的位移。
曲面移动任务的能力:1)垂直于曲面的轴。
除了这些能力之外，上臂和前臂在抓握、释放和每个时刻的姿势也被编码为一对离散的方向向量。这些向量可以作为约束来计算多自由度手臂的逆运动学，确保机器人不会在人类周围意外摆姿势。值得注意的是，虽然这些能力为许多控制器提供了可行的信息，但机器人的实际实现可能需要额外的信息，如力反馈。这些能力信息的具体获取方法可以在研究者之前的论文(https://arxiv . org/ABS/2008.01513)中找到。
实验结果
研究人员封装了模型，并设计了一个web访问接口，如图9所示。
该模型允许用户上传预先录制的教学演示，并让GPT-4V和GPT-4编码任务模型。然后，研究人员通过在各种场景中获得的视频来测试机器人是否可以做出尝试。这里，研究人员介绍几个实现示例。实验中测试了两个机器人:第一个是Nextage机器人(川田机器人公司生产)，有六个自由度；第二个是Fetch移动机械手(Fetch Robot公司生产)，它的手臂有七个自由度。该机器人还配备了一个四指机械手，即Shadow dexter hand lite(Shadow Robotics)。机器人的技能是通过强化学习训练出来的。所有的实验结果都可以在其官方代码库中访问(代码将很快发布)。"

作者：杏鑫娱乐

用GPT-4V训练机器人和人类演示:眼睛学习，手能跟上“机器的心脏报告”

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →