提升机器人的敏捷性和精确度 谷歌通过乒乓球运动强化机器人学习
发布时间:2022-11-01 09:32:43 文章来源:DeepTech深科技
乒乓球运动可大大助推机器人学习研究?在最近的一篇博文中表示,机器人学习现已应用到许多真实世界任务,但将其应用于需要紧密循环的动态、

乒乓球运动可大大助推机器人学习研究?

在最近的一篇博文中表示,机器人学习现已应用到许多真实世界任务,但将其应用于需要紧密循环的动态、高速人机交互任务还并不常见。这方面的任务可体现在乒乓球训练上。

乒乓球任务有两个互补的属性,其不仅需要速度和精度(对算法要求高),还是高度结构化的(环境固定、可预测)。

另外,执行乒乓球任务的机器人可与人和其他机器人分别对战,非常利于有关人机交互和强化学习方面的研究。因此,一些团队已经开发了乒乓球研究平台。

机器人团队同样搭建了一个类似平台,使其能够在多玩家、动态的环境中,研究机器人学习中出现的问题。

视频 | (来源:)

对于该方面的研究,通过两篇论文做了相关阐述,分别题为《i-Sim2Real:紧密人机交互循环中机器人策略的强化学习》()、《GoalsEye: 在一个物理机器人上学习高速精密乒乓球》(),且都已提交到 arXiv 上。

下面对的 i-Sim2Real 和 GoalsEye 两个项目分别做一简单介绍。

在 i-Sim2Real(i-S2R)项目中,机器人的目标本质上是有关合作的。即最大程度与人类玩家连续游戏。

由于在现实中通过人类训练机器人既费时又费力,采用了一种基于仿真(模拟现实)的方法。但该方法较难准确模拟人类行为,尤其是在需要与人类进行紧密、闭环交互的任务上。

因此,开发出一种学习人类行为模型,专门用于人-机器人交互。最终,在与人对战中,机器人能够连续击中乒乓球三百多次。

关于学习人类行为模型,其在官网 表示,该问题似乎是一个悖论。若起 初缺乏优良的机器人策略,便很难获得人机交互方面的优质数据。但人类行为模型的缺失,又会得不到机器人策略。

为解决这个问题,i-S2R 以一般的人类行为模型为起点,并在模拟和真实训练中不断迭代,人类行为模型和策略都逐渐得到了优化。

还通过不同的人类对手重复训练,来评估 i-S2R。并将它与通常的模拟到现实(S2R,sim-to-real)+微调(FT,fine-tuning)进行比较,发现 i-S2R 反弹长度比 S2R + FT 高约 9%。

i-S2R 和 S2R + FT 的反弹长度直方图显示,S2R + FT 的反弹大部分较短(即小于 5),而 i-S2R 实现更长的反弹更频繁。

图 | i-S2R 结果摘要(来源:)

还在博文中表示,i-S2R 专注于模拟到真实学习,但有时需要仅使用真实世界的数据进行学习。在这种情况下,缩小模拟到真实的差距是不必要的。

研究人员还简单分析了模仿学习(Imitation learning,IL)和强化学习(Reinforcement Learning,RL)存在的问题。

其认为,IL 提供了一种简易、稳定的学习方法,但它需要获得演示,并且几乎不会超过被模仿者的表现。而在高速环境下,收集专业人员训练时的精确目标定位非常困难。

RL 虽然十分适合这种高速、高精度任务,但它面临着一个艰难的探索问题(特别是在一开始),并且采样效率很低下。

所以,在另外一个 GoalsEye 项目上,结合行为克隆技术,来塑造精确定位策略。该方法起始于一个结构薄弱的、非目标的小型数据集。其主要考虑乒乓球任务的精度。

标签: 谷歌通过乒乓球运动强化机器人学习 乒乓球运动强化机器人学习 乒乓球运动 机器人学习

热点HOT

  • 笔记本电脑哪个牌子好  笔记本电脑怎么选
    笔记本电脑哪个牌子好 笔记本

    笔记本质量十大排名十大笔记本电脑品牌?笔记本电脑哪个牌子好?国内十大笔记本电脑排名:1、苹果apple(成立于1976年,是一家高端电脑、音视

  • 音乐学院招生选拔特点 11大音乐学院招生选拔特点
    音乐学院招生选拔特点 11大音乐

    对所有音乐艺考生来说,全国11大音乐学院(中央音乐学院、中国音乐学院、上海音乐学院、天津音乐学院、浙江音乐学院、西安音乐学院、武汉音

  • 为什么用文本来生成视频的 AI 工具也正变得越来越多
    为什么用文本来生成视频的 AI

    如同最近一年 DALL-E 2、Stable Diffusion 等文本生成图像模型发展一样,用文本来生成视频的 AI 工具也正变得越来越多。继 Meta 的

  • 保持血液中药物的最佳浓度 仍然是现代医学的主要挑战
    保持血液中药物的最佳浓度 仍然

    成功治疗疾病的关键方法之一,是在整个治疗过程中提供并维持体内药物的适当剂量。过少会降低治疗效率、导致耐药性,而过量则会增加副作用。

  • 卡内基梅隆大学成功开发出一款多功能、可更换、持久耐用的触感皮肤
    卡内基梅隆大学成功开发出一款多

    如今,人工智能逐渐与声音、视觉等人类感官融合,使人们之间的交流更便捷。但是,将人工智能与人类的触觉融合仍具有挑战性。为解决此项难题

  • Rubius采取了一系列节约成本的措施 包括裁员 75%
    Rubius采取了一系列节约成本的措

    今年 9 月 14 日,(NASDAQ: RUBY,以下简称为Rubius)宣布进行重组和调整资源,称接下来将重点集中在下一代红细胞偶联平台上。官方通稿

  • 为什么马斯克要重启短视频应用Vine
    为什么马斯克要重启短视频应用Vi

    短视频平台 (有可能)即将回归。从 2012 年到 2017 年,这款备受喜爱的有趣短视频分享软件在聚光灯下昙花一现,在鼎盛时期被关闭了服务

  • 基于阳离子脂质的高效纳米疫苗递送系统 细胞因子产量增加约100倍!
    基于阳离子脂质的高效纳米疫苗递

    近年来,免疫检查点抑制疗法等作为治疗癌症的新方法备受关注。然而,当前的免疫检查点抑制疗法仅对约 20%~30% 的癌症患者有效。部分原因

  • 打造一棵人类百年“科技树” 腾讯新总部将建永久科技馆
    打造一棵人类百年“科技树” 腾

    11月6日,2022腾讯科学WE大会十周年如期举行。"十年前,马化腾在首届WE大会上种下一颗种子,希望助力基础科学普及。WE大会历经十年,展现了

  • iOS 16又出新Bug:Face ID无法正常工作
    iOS 16又出新Bug:Face ID无法

    在数个版本的更迭之后,iOS 16的稳定性已经有了相当明显的提升,但仍有部分用户遇到了新的Bug。近日,有部分iPhone用户反馈称,自己的手机

新闻LOVE