新闻中心

fun88.com具身智能最佳形态是什么？它是通往AGI必由之路？八

2024-05-19 07:28:50 | 来源：fun88入口作者：fun88地址

　　ChatGPT-4 被认为是人工智能技术发展的重要节点，语言大模型之后的多模态大模型初步显现了世界模型的影子。大模型最终将通过硬件与物理世界产生交互。人工智能的应用实现从数字世界到物理世界的扩展，具身智能是非常关键的技术方向。

　　那么，具身智能应该依循何种发展路径，当前的技术水平处在什么阶段，发展过程中遇到了哪些瓶颈和难题，在应用场景上如何切入，离未来规模应用还有多远，身处在技术变革浪潮中的我们又该何去何从？

　　4 月 27 日，北京智源人工智能研究院院长王仲远在中关村论坛年会未来「人工智能先锋论坛」上，和七位具身智能领域的企业创始人、技术负责人和专家展开了一场关于具身智能的深度对话。

　　这七位嘉宾分别是星动创始人陈建宇，傅利叶智能创始人兼 CEO 顾捷，智元机器人联合创始人、上海人工智能研究院院长宋海涛，银河通用机器人创始人、智源具身智能研究中心负责人王鹤，宇树科技创始人兼 CEO 王兴兴，小米机器人团队负责人许多，ACM 会士李航。他们打造了目前中国具身智能领域最具有代表性的技术和产品。

　　王仲远：过去一年大模型技术的发展让我相信 AGI 很可能会到来，有观点认为，当然也包括我，AGI 很可能在未来 5-20 年实现。那么，AGI 必须通过具身智能才能实现吗？

　　李航：我们定义 AGI 的通用能力，往往是功能角度。通用人工智能一定会实现是有前提的，也就是要有任务和相应的评测标准。在这样的条件下我们一定能开发出，无论是软件还是硬件，达到或者超过人的能力的人工智能。

　　具身智能，硬件、软件结合，未来的发展空间非常大。能够瞄准 AGI 方向，完成更多的不仅是数字空间，还有物理世界的任务，相信未来能够达到或超过人的能力。

　　具身智能有三个重要的特点。第一，机器人或者智能体有自主性；第二，能够根据环境的交互积累经验，每个机器人、智能体，基于不同数据构建不同的模型，产生不同的智能，在完成任务上更加智能。第三，进入物理世界一定是多模态的，人有五观有五感，未来具身智能机器人应该能够结合多模态技术不断演进、完成智能性任务。

　　陈建宇：我认为通过具身智能实现 AGI 非常可能。AGI 具身智能不光具备语言能力，还有图像处理能力，控制身体的能力。人类身体，本身对促进智能发育有重要的意义。基于身体与社会的各种交互实现对世界的探索和认知。

　　王鹤：具身智能与非具身智能非常互补，他们的全集才是 AGI。中国老话说「读万卷书、行万里路」。现在，互联网海量的图文信息，本质是读万卷书的过程。但读万卷书无法替代行万里路，人在真实世界劳作不可能通过读书、看图、看视频而替代。具身智能赋予与物理世界的交互能力，这个能力是通过看书、看图数字世界的典型数据模态和经验无法获得的。

　　宋海涛：我认为通往 AGI 的道路非常漫长，因为人类文明史记载五千年，这需要全社会进行大模型语料库的建设，进行千亿、万亿级训练。建立各行各业的大模型以后，逐步迈向具身智能，这是漫长的过程。

　　顾捷：在硅谷已有共识，具身智能的最终形态就是人形，但是高矮胖瘦，用什么驱动很难统一，人的形态已开始做收敛，在朝这个方向努力。

　　王兴兴：对于具身智能或者 AGI，机器人的形态不是特别重要，但是人形机器人是社会公认比较理想的形态。如果做数据采集，它可以去人生活的各种地方，跟人做一样的动作，比如开车、散步、跟人交互，采集更多数据，这样跟机器人对话、交互，更加接近真实人类交流的水平。当下做具身智能人形机器人是相对最适合的路径，但不是唯一路径。最适合的路径可能是效率比较高的方法。

　　许多：机器人最终可用，要做到四个可达。第一，移动可达，想让它去哪里就去哪里，包括避障；第二，操作可达，能抓什么就可以抓什么，或者把一个物品放在指定位置。第三，语义可达，比如拿苹果是为了榨汁。第四，价值和智慧可达。当我们把四个目标摆到一起，就会发现人形机器人是我们可以想象到的不多的选择。我个人坚信 AGI 可以实现，其本质是能量的转移、储存、发散，而人类生命也一套是能量系统，能量系统是可以实现的，只是多久的问题。

　　王仲远：具身智能是系统的工程，既涉及硬件也涉及软件，目前硬件和软件发展速度上显然有一些不匹配。大模型能思考，但是指挥不动本体，指挥不动硬件。这是先有鸡还是先有蛋的问题，我们到底是先让硬件达到一定水平才能迎来具身智能的蓬勃发展，还是脱离本体独立分开发展具身智能？

　　顾捷：这好比先有 APP 还是先有智能手机。先让智能手机打电话，有开放平台、开放接口，收集数据，再做 AI。对具身智能来说，本身身体还不够结实，能完成的任务很少，在这个基础上做具身智能开发相对难度比较大。当然本体和大脑是互相制约的，本体开发很好，大脑没有达到水准，应用场景也会受到制约。先从本体迭代切入点，再加入基本应用，达到一定程度后，本体做比较大的收敛，然后应用才会开始蓬勃发展。

　　王兴兴：我认为有实体的具身智能是实现 AGI 的唯一途径，目前脱离实体的大语言模型对物理世界的理解是不够的，这也是为什么很多顶尖 AI 学者提出要做世界模型。特斯拉无人驾驶也是采集真实数据训练，而不是使用虚拟数据，因为虚拟数据中实时与物理世界交互的数据太少。我觉得本体反而是实现 AGI 非常重要的渠道，AGI 很可能诞生在机器人公司。

　　王仲远：现在大模型技术路线还是依靠海量的数据，像 ChatGPT3.5、ChatGPT4，基本把人类所有数据读了一遍，数据在具身智能里毋庸置疑非常关键的，是数据先行，还是先有本体，有能力完成具体工作？

　　李航：需要迭代，先有硬件，然后有数据，建模型形成闭环，促进智能体机器人的发展。从行业来说，某一个阶段应该软件硬件一起往前推进优化，PC、手机发展的历史也是这样。从研究层面，团队有不同的侧重，可能聚焦软件方面，也可能聚焦硬件方面，也可能两方面都做，是未来若干年能够看到的一个趋势。

　　王仲远：具身智能和无人驾驶不同之处在于无人驾驶整体上是特定的场景，但是具身智能尤其具身机器人要解决的场景数特别多，比如有家庭的场景、流水线的场景，场景的数量多到一定程度之后，数据采集是否容易成为现实，现在研究上有很多基于仿真数据进行模型训练、机器人训练。怎么看真实数据和仿真数据两条技术路线？

　　王鹤：当今数据是智能的重要推动力，具身智能最大的瓶颈就是缺乏数据。自动驾驶以特斯拉 FSD 为代表的技术，充分利用特斯拉百万车主上亿小时的驾驶数据进行模仿学习。人形机器人是否存在这样的数据呢？非常可惜不存在。因为不可能有上百万群众自发愿意买一个没有什么功能的机器人到家里，用摇控器指挥机器人干事情。所以，在这个阶段具身智能数据需要零到一的突破，这个零到一的突破靠我们遥控显然有点远水解不了近渴。

　　现在最实际的方式通过物理仿真，把现实世界物理规律通过图形学的引擎，真实仿真摩擦力、接触力、还有光线追踪渲染等，制造一个模拟真实世界训练的数字训练世界，这也是英伟达系列工作背后的初衷。

　　我的看法是，具身智能从零到一，很有可能完全靠仿真数据驱动。今天很多人形机器人的强化学习，也是主要在仿真世界进行的，但是未来当这样机器人充分在我们世界中存在，有车这样的存量的时候，形成了在真实世界交互的数据闭环，最终将成为具身智能的源头活水，真正释放出更多能力。

　　陈建宇：仿真的优势是非常快，靠英伟达的 GPU，如果做得好，一天的时间采集的数据可能相当于真实世界的上百万年的数据。但仿真难以非常准确地搭建很复杂的场景。在真实的世界采集数据，可以比较方便搭出复杂的场景，但是受限于采集数据的速率，无法倍速。在前期智能性还不足以解决非常复杂场景的时候，可以先通过仿真做简单的场景，快速地获取数据，让机器人具备一些能力。当机器人的能力逐步增进能够做复杂场景时，就需要更多地往线短期高估与长期低估

　　王仲远：过去这一段时间，具身智能这个话题确实特别热，产业界也逐步进入到具身智能更大的领域。我们有时候会高估一年达到技术的突破，但是又低估 10 年技术达到的高度。怎么看具身智能在短期和长期的一些可能性？

　　宋海涛：我们一直推崇前端研发过程中的三个真实：一是基于真实的场景；二是基于真实的重大工程问题；三是基于真实的数据。

　　在具身智能这个方向，我们认为未来 3-5 年是一个逐步的渗透期。但是大规模的商业上量取决于几个核心因素：一是数据，无论是家居、生产、装备制造，还是智元探索的汽车工厂、3C、生物试验室，这些高质量的数据集和语料库是大量缺失的，当然我们大量一线的科研人员已经带着传感器在很多的整车厂积累真实场景和数据，但是需要一定的周期和时间；二是数字基座，在整个构建过程当中，需要一个新兴的数字基础底座，尤其是算力 + 基础的训练框架。未来 5-8 年之后会有一个快速的上量的过程。

　　许多：有一个观点我非常赞同，就是今天真正存在的问题是硬件的问题。今天机器人在移动空间的可达精度大概是 10 厘米，小车好一点，可达精度大概在 5 厘米。10 厘米的精度会导致移动抓取物体的时候，相对位置关系定位不准。5 厘米和 10 厘米，对上肢的要求完全不一样。上肢的精度现在大概在厘米级，而工业臂处在 0.01 毫米级别，两者差距还是非常大。

　　硬件在移动空间可达怎么做到 1 厘米？手眼协调的空间可达怎么做到 0.1 毫米级别？这个精度实现以后，上层的大模型或者具身智能就能在移动机械臂上大规模收集数据了。现在数据闭环收集的效率太低。短期需要看硬件的突破，远期看是整个数据闭环工程效率的提升。

　　相信随着大家批量性、集中性在硬件上的投入和改进，短期的发展或许会超过预期。我们在自动驾驶领域也看到了，数据闭环工程的发展周期比我们想得要长。自动驾驶投入这么多年，今年才在 SFD 上看到一些突破性的进展。我认为硬件的进步会超出想象，但是数据闭环、工程的进步速度或许会比想得要慢。

　　王仲远：我在过去一段时间的调研发现，不少做具身智能的专家学者是从自动驾驶这个领域转过来的，从现有的功能模块来看，确实两者有非常相似的地方，都包含环境的感知、规划决策以及最终的控制几个模块。但是我们也看到，特斯拉通过电动车收集的海量驾驶数据之后，开始训练了端到端的自动驾驶大模型，使得它很有可能实现线，甚至更高层级的无人驾驶水平。对这个问题怎么看？

　　陈建宇：我从 2015 年开始做自动驾驶，当时最主要的是两个问题。第一，直接开始做 L4，认为 2-3 年能解决，但实际远比想象的要困难。第二，当时的 AI 还没发展到一个阶段，大模型都没出现，关于决策、执行和控制也都是用相对传统的方法。这导致自动驾驶的发展经历了一段时间的曲折。现在自动驾驶领域，特斯拉应该是最好的一个标杆。特斯拉成功避开了这两个问题，采取的是 L2、L3、L4 渐进式发展。

　　具身智能也一样，不要一上来就做家用机器人走进千家万户，而是考虑先从工厂这种容易的场景任务开始。另外，要坚定地拥抱 AI，拥抱具身智能的方法。

　　许多：大家的起点都是一样的，没有谁有所谓的优势，取决于目标选择。比如，小米做硬件比较多，所以我们的目标选择本质上是偏底层，解决移动空间可达和操作空间的可达。我们的目标是移动空间可达 1 厘米，操作的空间可达 0.1 毫米级别。我们在上层的目标会稍微放慢一点。加上上层目标之后，会瞄准复杂长序列任务的处置闭环，包括数据流格式、训练和模型管理方法，会把这一整套都建立起来，这是我们的路径。大家站的起点一样，就看目标和方式选择，能坚持多久，这最终决定了能走多远。

　　王兴兴：大家的起点差不。

fun88.com

上一篇：2023年报直击｜迈瑞医疗：质量回报双优异引领中国下一篇：第十三届智慧医疗论坛在上海成功举办

fun88地址

联系人：希莱恒

手机：0755 - 26855736

邮箱：info@dssjsg.com

公司：fun88.com(中国)fun88入口地址

地址：广东省深圳市光明新区双明大道315号易方大厦10层