Mobile ALOHA: 你需不需要一个能做家务的具身智能机器人

相信做机器人的朋友最近一段时间一定被斯坦福华人团队这个Mobile ALOHA的工作深深所震撼,这个工作研究了一个能做饭,收拾衣服,打扫卫生的服务机器人,完成了传统机器人所不能完成的诸多任务,向大家展示了服务机器人的美好愿景,让大家觉得这种机器人进入家庭指日可待。但不同于其他类似工作,该项目的主页上也放出了诸多失败的视频,让大家觉得机器人还处于非常初始阶段,容易犯下非常低端的错误。那承载着美好期望的家庭服务机器人发展到底怎样呢?离走进我们的家庭还有多远呢?还请跟随笔者先来了解这个具有重要意义的工作。
在这里插入图片描述
Mobile ALOHA: 一个低成本的具身智能移动操作机器人软硬件开发系统
背景介绍
机器人利用专家数据进行模仿学习可以学习到很多传统方法(依赖于抓取位姿估计和运动规划)所做不到的任务,比如使用工具、叠抹布、整理家务等,打开了通往通用机器人的希望之门。大多数家庭服务任务都需要双臂操作和底盘移动,如同人类一样,这就需要机器人具有类人架构的硬件和全身协调控制算法,当前在双臂移动机器人领域主要有两大挑战:a) 缺乏适合整体远程操作以便采集数据和训练部署验证的硬件平台; b) 移动和双臂协调自主完成任务。为了解决这些问题,本工作提出了Mobile ALOHA的低成本整体远程操作系统,该系统通过在轮式底座上安装ALOHA,使用户能够通过物理连接来控制移动基座,同时使用双手控制ALOHA。这使得他们能够同时记录基座速度数据和手臂操纵数据,形成一个整体远程操作数据采集系统,本工作开源了完整的软硬件设计图纸和代码,希望可以推进整个领域的发展。

主要贡献
(1) Mobile ALOHA,一个低成本的整体远程操作系统,可用于遥操作数据采集和模仿学习部署验证;
(2) 发现简单的协同训练方法能够实现对复杂移动操作任务的高效学习。
在这里插入图片描述

模仿学习网络方法与训练部署验证

任 务: 倒红酒(Wipe Wine), 烹饪虾(Cook Shrimp), 清洗平底锅(Rinse Pan),使用橱柜(Use Cabinet), 呼叫电梯(Call Elevator), 推动椅子(Push Chairs),击掌(High Five);
任务
训练数据: 825条静态双臂操作数据 + 每个人物20~100条专家示教数据;
方法: ACT, Diffusion Policy, VINN
实验验证问题:
(1) Mobile ALOHA是否可以通过联合训练吸收少量的移动操作数据来获得复杂的移动操作技能 ?
(2)Mobile ALOHA是否可以在不同的模仿学习方法上工作,包括ACT , Diffusion Policy和基于检索的VINN?
实验结果和结论:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 与静态操作数据联合训练能极大地提升准确率
  2. 联合训练的效果对于混合数据的比例不敏感,这个结论可以帮助减少训练新任务时对混合数据比例的调节;
  3. 联合训练效果由于预训练和微调。

个人拙见

本工作在算法研发上并没有任何贡献,使用的三个模仿学习均是前人的成果,实验结论也得不到令人耳目一新的结论,本工作最大的贡献在于开源了模仿学习一整套软硬件方案,使得高校团队也有能力做大规模模仿学习的工作,要知道在此之前这个领域大都有大厂高额投入才能完成的,比如谷歌的RT1、英伟达的VIMA和Meta的RoboAgent等。

同时该工作作者也很务实地放出了诸多失败的视频,在此之前的工作大都只展示其成功的一面,让大家觉得服务机器人马上就要走进千家万户了,作者公开这些视频展示了机器人的潜能,同时也显示了这种机器人离走进我们家庭还需要一段时间,但这个方向绝对是值得我们为之探索和奋斗的,这个工作也为这个领域作出了巨大的贡献。

笔者研究模仿学习也由来已久,模仿学习就是将深度学习中的自监督学习用到机器人领域,学习的是一个机器人观测到动作的映射网络,监督学习所有的问题模仿学习都有,同时还带来了机器人领域的更多问题,最大的问题就是泛化性,作者自己也承认这个工作纯属research,不具备任何泛化性,也难以落地,现在学术界正在通过搜集大规模不同机器人真实数据集(Open-X-Embodiment dataset),希望像训练大语言模型那样先用大规模数据集来做预训练,然后在真实场景中采集少量数据进行微调,提高方法的适用性,但这有一个问题,不同机器人数据对实际部署机器人的用处难以保证是正向的,特别是两者的传感器执行器布局类型差异较大时;笔者预测工业界会有不同的解决方案,同一场景下的机器人形态会日渐趋于大一统,比如将来进入我们生活中的人形机器人,没必要多种身高的机器人,而那些不愿意走向统一的机器人形态,终将因为自身数据量太少丧失竞争而被淘汰出局。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/780533.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

建投数据入选“2024年中国最佳信创企业管理软件厂商”

近日,建投数据凭借国产化自主知识产权、完备的信创资质及信创软硬件环境全栈适配能力,入选第一新声联合天眼查发布的“2024年中国最佳信创厂商系列榜单”细分行业榜之“最佳信创企业管理软件厂商”。 本次最佳信创厂商系列榜单评选,包括综合榜…

阶段三:项目开发---搭建项目前后端系统基础架构:QA:可能遇到的问题及解决方案

任务实现 常见问题1:文件监视程序的系统限制。 1、错误提示:如果在Vue项目中,使用【 npm run serve】运行kongguan_web项目时报以下错误: 2、产生原因:文件监视程序的系统产生了限制,达到了默认的上限&am…

spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter

第1坑:配置第三方仓库不生效, 提示在阿里云仓库没有找到 spring-ai-openai-spring-boot-starter 第2坑:升级jdk17后,springboot项目启动报错 Internal error (java.lang.reflect.InaccessibleObjectException): Unable to make pr…

1.Python学习笔记

一、环境配置 1.Python解释器 把程序员用编程语言编写的程序,翻译成计算机可以执行的机器语言 安装: 双击Python3.7.0-选择自定义安装【Customize installation】-勾选配置环境变量 如果没有勾选配置环境变量,输入python就会提示找不到命令…

Codeforces Round 955 E. Number of k-good subarrays【分治、记忆化】

E. Number of k-good subarrays 题意 定义 b i t ( x ) bit(x) bit(x) 为 x x x 的二进制表示下 1 1 1 的数量 一个数组的子段被称为 k − g o o d k-good k−good 的当且仅当:对于这个子段内的每个数 x x x,都有 b i t ( x ) ≤ k bit(x) \leq k…

阿里通义音频生成大模型 FunAudioLLM 开源!

01 导读 人类对自身的研究和模仿由来已久,在我国2000多年前的《列子汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界…

【Docker系列】Docker 命令行输出格式化指南

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

《昇思25天学习打卡营第12天|onereal》

CycleGAN图像风格迁移互换 模型简介 CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络,来自论文 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 。该模型实现了一种在没有配对示例的情况下学习将图像从源域…

Ubuntu 安装CGAL

一、什么是CGAL CGAL(Computational Geometry Algorithms Library)是一个广泛使用的开源库,主要用于计算几何算法的实现。该库提供了一系列高效、可靠和易于使用的几何算法和数据结构,适用于各种应用领域。以下是 CGAL 的主要功能…

汽车报价资讯app小程序模板源码

蓝色实用的汽车报价,汽车新闻资讯,最新上市汽车资讯类小程序前端模板。包含:选车、资讯列表、榜单、我的主页、报价详情、资讯详情、询底价、登录、注册、车贷,油耗、意见反馈、关于我们等等。这是一款非常全的汽车报价小程序模板…

VMware CentOS7 Linux 网络配置

本文主要描述VMware虚拟机的网络配置。 如上所示,在CentOS Linux虚拟机中设置网络连接使用桥接模式,该模式对接主机物理网络,直接由主机的物理网络的DHCP服务器动态分配IP地址,或者在CentOS Linux的操作系统的网络配置中设置静态的…

Stowaway搭建隧道打CFS内网靶场

目录 渗透带出主机阶段 先把我们的服务端上传到kali ​先把我们的客户端上传到目标机 客户端去连接我们的kali机端口去上线 出现admin,上线成功 detail相当于msf的sessions​ 和msf差不多功能,但是我们用它主要是搞隧道代理 抓发的 ​开启socks…

SQL之delete、truncate和drop区别

MySQL删除数据的方式都有哪些? 常用的三种删除方式:通过 delete、truncate、drop 关键字进行删除;这三种都可以用来删除数据,但场景不同。 一、从执行速度上来说 drop > truncate >> DELETE;二、从原理上讲 1、DELET…

多模态MLLM都是怎么实现的(11)--从SadTalker到快手LivePortait

我之前出差带休假差不多两个礼拜吧,今天回北京更新一篇 我确实找到了一个有意思的东西,LivePortrait 这东西开源了,你可以认为是目前做得最好的"Sadtalker",国内也有dream-talker,EMO之类的。 我之前看EMO的…

一文详解多层感知机(MLP)

文章目录 What(是什么)Where(用在哪)How(怎么用)多层感知机解决分类问题(以minist分类为例)多层感知机解决回归问题多层感知机解决噪声处理的问题 What(是什么) 多层感知机(Multilayer Perceptr…

A Threat Actors 出售 18 万名 Shopify 用户信息

BreachForums 论坛成员最近发布了涉及 Shopify 的重大数据泄露事件。 据报道,属于近 180,000 名用户的敏感数据遭到泄露。 Shopify Inc. 是一家总部位于安大略省渥太华的加拿大公司。 开发和营销同名电子商务平台、Shopify POS 销售点系统以及专用于企业的营销工…

Vue3+.NET6前后端分离式管理后台实战(二十九)

1,Vue3.NET6前后端分离式管理后台实战(二十九)

Idea新增Module报错:sdk ‘1.8‘ type ‘JavaSDK‘ is not registered in ProjectJdkTable

文章目录 一,创建Module报错二,原因分析三,解决方案1,点击上图的加号,把JDK8添加进来即可2,点击左侧[Project],直接设置SDK为JDK8 四,配置检查与验证 一,创建Module报错 …

网络基础:IS-IS协议

IS-IS(Intermediate System to Intermediate System)是一种链路状态路由协议,最初由 ISO(International Organization for Standardization)为 CLNS(Connectionless Network Service)网络设计。…

数据统计与数据分组18-25题(30 天 Pandas 挑战)

数据统计与数据分组 1. 知识点1.18 分箱与统计个数1.19 分组与求和统计1.20 分组获取最小值1.21 分组获取值个数1.22 分组与条件查询1.23 分组与条件查询及获取最大值1.24 分组及自定义函数1.25 分组lambda函数统计 2. 题目2.18 按分类统计薪水(数据统计&#xff09…