pp电子(中国游)官方在线平台







咨询热线:021-80392549

pp电子(中国游)官方在线平台 QQ在线 pp电子(中国游)官方在线平台 企业微信
pp电子(中国游)官方在线平台
pp电子(中国游)官方在线平台 资讯 > 智能(néng)机器人 > 正文

谷歌开(kāi)发乒乓球机器人:一回合(hé)可接球340次,探索动态高速(sù)人机互动

2022/10/20澎湃新闻259

机器人学习目前已经被广(guǎng)泛应用于现实世界,并可以完成精密(mì)的手部、腿部动(dòng)作。但在(zài)动(dòng)态且高速的人(rén)机互动(dòng)中,机器人学习并不常(cháng)见。谷(gǔ)歌选(xuǎn)择(zé)开发(fā)乒乓球(qiú)机器人,正是为了探索这(zhè)类情况下人工智能的可能性。

·使用i-Sim2Real这种方式,在模(mó)拟环境下可以让数年的实时训练在几分钟或几小时内(nèi)完成。


谷歌i-Sim2Real项目乒乓球机器人(rén)与(yǔ)人类训练。本文图片来源:谷歌

似乎现存(cún)的每一种桌上(shàng)运动中,人工智(zhì)能都立于不(bú)败之地。乒乓球竞技中,谷歌AI同样难逢敌(dí)手。10月18日,谷歌公布其(qí)正(zhèng)在研究的“乒乓球机(jī)器人”项目,在与人类对打时一回合(hé)可(kě)接球340次。目前,谷歌(gē)强(qiáng)调(diào)这只是人类与AI的“合作”,并非击败人类(lèi),但以AI成长的(de)速度,它将很快成为专业选手。

机(jī)器人学习目前(qián)已经(jīng)被广泛(fàn)应用于(yú)现(xiàn)实(shí)世(shì)界(jiè),并可(kě)以完(wán)成精密的手部、腿部动作。但在动态且高(gāo)速的人机互动中,机器人学习并不常见。谷歌选择开发(fā)乒乓球(qiú)机器(qì)人,正是为了探索这类情况下(xià)人工智能的可能性。

解决“先(xiān)有鸡还是(shì)先有蛋”

在这个名为i-Sim2Real的项(xiàng)目中,谷歌的(de)乒乓球机器(qì)人在模拟环境中(zhōng)不断学(xué)习,并将学习成果运用于现实世界,最终(zhōng)可以在一个与人(rén)类的乒乓球接发回合中,接球超(chāo)过三百次。它还能把球送回不同(tóng)的区域,虽然不能精(jīng)确到数字上(shàng),但已经(jīng)足够精确到让(ràng)机器人规划策略,来控制乒乓球的最终目的地。

乒乓球机器人可以在一个回合中接球(qiú)超过三百次。视频来源:谷歌(00:10)
谷歌之所以选择乒乓球运动,是因为机(jī)器人(rén)可以与快节奏以及相对不(bú)可预测的人类行(háng)为进行交互,同时(shí)乒乓球的规则(zé)相对于篮球、板球(qiú)等(děng)运(yùn)动也较为简单直接。机器人完成乒乓(pāng)球动(dòng)作时,既要求速度又要求精度,这(zhè)对学习(xí)算法提出了(le)很高的要求。同时(shí),这类运动具有固定的、可预测的环境,使其成为研究人机交互和强化学习问题(tí)的理想测试平(píng)台。这些特性使得谷歌开发了i-Sim2Real项目。

i-Sim2Real也不仅(jǐn)仅是关于乒乓球机(jī)器人(rén),更是一(yī)种人工智能创造过程(chéng)的方式,在(zài)这个过程中(zhōng),机器学(xué)习模型被教会在虚拟环境(jìng)或模拟中做什么,然(rán)后再应(yīng)用这(zhè)些知识,目标是尽可能长(zhǎng)时间地与人类进(jìn)行接(jiē)球回合而不失误。在现实世界(jiè)中直接与人类玩家进(jìn)行训练既繁琐又(yòu)耗时(shí),当需(xū)要(yào)数(shù)年的试验和错误才能建立一个工作模型时,使用i-Sim2Real这种方式显得十分有效(xiào),它在模拟(nǐ)环(huán)境下可以让数(shù)年的(de)实时训(xùn)练在几分钟或几小时内完成。

这种方式(shì)听起来简(jiǎn)单高效(xiào),但在模拟中机器人并不是万能的。人(rén)类的活动具有(yǒu)一定(dìng)的不(bú)可预测性,并不容易模拟,需要先有人类的行为(wéi)模型作为支撑。而人类(lèi)的(de)行为模型(xíng),又需要与(yǔ)机器人互动获得(dé)。这就陷入了一个“是先有鸡还是(shì)先有蛋(dàn)”的死循(xún)环。

i-Sim2Real解决这一鸡和蛋问题的方法,是使用一个简单的人类(lèi)行为模型作(zuò)为(wéi)近(jìn)似起点(diǎn),并让机(jī)器人(rén)在模拟训练和(hé)现实训练之间交替学习。在每次迭代中,都会细化人类行为模型和策略。在机器人接(jiē)近(jìn)人类行为(wéi)的过程中,初期(qī)的不理想(xiǎng)是可以(yǐ)接(jiē)受的(de),因为机器人也只是刚刚开始学习(xí),之后每一场(chǎng)比赛都会收集(jí)更(gèng)多真实的人类数据(jù),提高准(zhǔn)确性,让AI学(xué)到更(gèng)多。

i-Sim2Real的训练方法。

GoalsEye:通过自我监(jiān)督来自主(zhǔ)练习

除了i-Sim2Real这种模拟与现实交替进行(háng)的方法,研究人员也在探索只使用现实的数据学习的方法,即GoalsEye项目(mù)。

一开始,模仿学习(IL)为研究(jiū)人员提供了一种简单(dān)而稳定(dìng)的思路,但它需要人类行为进行演示,并且机器人的技术无法超(chāo)过演示者的水平。同(tóng)时,当演示(shì)者拥有在高速(sù)环境下精确接球的能(néng)力(lì)时,收(shōu)集(jí)其(qí)数据具有一定挑战性,而且(qiě)在(zài)刚开始时可能非常低效(xiào)。因此研究人员尝试了一种结合(hé)最近行(háng)为进行重复的方法(fǎ),从一个小(xiǎo)的、结构薄弱的、非目(mù)标数据集开始,不(bú)断学(xué)习(xí)精确定位目(mù)标(biāo)的策略。

这种方(fāng)法使得在训练的过程中,机器(qì)人的(de)自主学习能力显得至关重(chóng)要。研究人员(yuán)设(shè)置了一个(gè)强(qiáng)调(diào)精度的乒乓球任务,要求(qiú)机器人将球返(fǎn)回(huí)到桌子上的任意目标位置。机(jī)器人(rén)可以通过自我监督来(lái)实现(xiàn)自主练(liàn)习。例如,机器(qì)人(rén)可以设置随机目标,“击中左后角”或“将(jiāng)球从右侧过网”,并尝试使用当(dāng)前掌握的策略来实现这些目标,从而不(bú)断改(gǎi)进。所有尝试都会(huì)记录并(bìng)添加(jiā)到不断扩展的数据(jù)集中。这种自主练习是反复进行的,机器人通过不(bú)断的设(shè)置随机目标并(bìng)尝试目(mù)标(biāo),从而(ér)扩(kuò)展训练数(shù)据,调整策略。

GoalsEye策略旨在实现直径20厘米的目标(左)。人类玩家瞄准同一个目(mù)标(右)。

GoalsEye的训(xùn)练方法。

其效果也(yě)是显而易见的,在进行(háng)最初的2480次人类行为演示后,机器人只在9%的情况下(xià)能准确地达到距(jù)离目标30厘米以内的目标。然而,当机器人又自主练习了大约13500次(cì)后,达到(dào)目标(biāo)的准(zhǔn)确率上升到43%。同时(shí),演示(shì)数量的提升(shēng)提(tí)高了后(hòu)续自我练习的(de)效率,这说明,计算(suàn)时间、成本等因素后,演示可以适当替换(huàn)自我练习,从而更(gèng)高效的进行训练(liàn)。

在这两个(gè)使用(yòng)机器人乒乓球(qiú)研究平台的互补项(xiàng)目中,i-Sim2Real可以在模拟与现实中交替学(xué)习策略,而GoalsEye则(zé)证明,从(cóng)现实世界的非结构化数(shù)据中学习,结合自我训练,对于(yú)在精确且动态的要求中(zhōng)学习(xí)目标条件策(cè)略是有效的。

关(guān)键词(cí): 乒乓球机器人(rén)




AI人工(gōng)智能网声明(míng):

凡资讯来(lái)源注明(míng)为其他媒(méi)体来源的信息,均为转载自其他媒(méi)体,并不(bú)代表本网站赞同其观点,也不代表本网站(zhàn)对(duì)其真实(shí)性负责。您(nín)若对该文章内容有任何疑问或质疑,请立(lì)即(jí)与(yǔ)网站(www.longnan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站(zhàn)将迅速给您回应并做处理。


联系电话:021-31666777   新闻(wén)、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

工博士人工(gōng)智能网
pp电子(中国游)官方在线平台
扫(sǎo)描二(èr)维码关注微信
扫码反馈

扫一扫,反馈当前页面

咨询反馈(kuì)
扫(sǎo)码关注

微信(xìn)公众号

返回顶部

pp电子(中国游)官方在线平台

pp电子(中国游)官方在线平台