作者 | 许丽思编辑 | 漠影
“AI教母”李飞飞的学生回国创业了,想联合打造一双更灵活的“手”,来回答具身智能商业化的终极命题。
灵初智能,由在黑莓、Sonos、云迹科技等全球知名企业有过20多年的产品成功操盘经验的王启斌创办。他坚定认为,人形机器人在落地过程中,操作能力远比移动能力重要,存在着巨大的尚未被满足的需求。
而00后陈源培,是灵初智能的联合创始人之一,也是斯坦福大学访问学者、师从李飞飞。在李飞飞的实验室里,他研究怎么让灵巧手完成复杂长程任务和类人操作,曾在全球首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作。
这是一个跨越了70后、80后、90后和00后多个年龄梯度的核心团队,他们想要教会机器人能把多个技能串联起来、执行长程任务,还要学会自主探索、自主进阶。
灵初智能是当前最年轻的具身智能创企之一,今年9月刚刚成立,上个月宣布完成由高瓴、蓝驰领投的天使轮融资,已发布首个基于强化学习的端到端具身模型,能支持机器人双灵巧手协同做复杂操作、掌握推理能力。
值得一提的是,稚晖君创办的人形机器人独角兽智元机器人,也是灵初智能的股东之一。
智东西获悉,灵初智能不久前还加入了英伟达Inception计划,双方会在具身智能的仿真训练层面展开深度合作。“英伟达预判,具身智能是未来加速计算最重要的落地场景,对它的整个生态包括硬件布局、服务器端芯片、端测芯片到仿真环境应用等都有很大影响,所以英伟达也一直在寻找具身智能赛道里非常有价值的公司。我们在国内搭建完团队后,一些研究成果就被英伟达关注到了。”王启斌说。
最近,智东西来到灵初智能位于北京的办公室,与创始人兼CEO王启斌、联合创始人陈源培进行了一场面对面的独家深度对话,这是创始团队首次接受外界专访。在与智东西的对话中,王启斌反复提及“闭环”。他笃信,操作能力的提升,正是实现具身智能商业闭环的关键。
目前,该公司已初步完成核心硬件研发,将于明年3月公布机器人整机解决方案,且只聚焦在双手双臂轮式机器人的操作能力上,不会涉及双足机器人。
一、20年产品老兵联手李飞飞学生,挑战灵巧操作难题
在过去20年,王启斌在多个领域积累了深厚的操盘经验,多次实现了产品从定义、开发、上市再到全球“0-1-N”的产业闭环。
他在黑莓手机担任过产品经理、投身Sonos开展当时新兴的智能音箱业务,还曾去到了负责研发商用服务机器人的云迹科技,负责配送机器人相关的工作。云迹科技当时还是一家初创企业,配送机器人在酒店的部署量不到500家且使用频次也不高。
如何拓展配送机器人的市场、提升配送效率是一大难题。一般的配送机器人可能需要有专人放置货物,王启斌便带着团队开始探索无人货柜和集成对接,打造一套无人的闭环系统,之后还成功在成都、西安、上海等地部署,让机器人渗透到更多的酒店中。
过往的丰富经历让他看到,在机器人真正的商业化落地中,仍存在巨大的需求没有被满足,尤其是操作能力提升方面。
王启斌用坐标轴形容机器人的两种范式:横向是移动能力,纵向是操作能力。上一代机器人,主要都是在做移动能力,移动能力在技术上已经出现了轮式、双足等,移动范围不断扩展、移动速度加快,但是操作能力是更复杂、更具有挑战性的。
不管机器人移动能力有多强,如果做不到操作能力的闭环的话,仍然是难以长久生存下去的。
去年年底,他决定入局具身智能创业。从市场未被满足的巨大需求出发,王启斌强调要做到技术、产品与市场的契合。“有时候大家容易更关注产品和市场匹配,但我觉得更重要的是技术和产品,只有技术的潜力才能支撑得起产品的势能。”
▲灵初智能创始人兼CEO 王启斌
王启斌开始组建灵初智能的创始团队。他觉得,在这一轮具身智能热潮中,硬件本体、算法和数据就是推动具身智能前进的“三个轮子”,这“三个轮子”耦合程度至关重要,而对团队来说,每一个“轮子”都需要有足够优秀的技术人才储备。
对具身智能赛道前景的信心,让王启斌找到了同样满怀创业*的几位联合创始人,其中,有一位00后陈源培。
极客少年、斯坦福访问学者、师从李飞飞、痴迷机器人……陈源培身上有诸多标签,还曾在全球首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作。
大二时,陈源培就投身机器人制造,和团队一起从底层机械机构、中层电控到上层AI算法,全程自研搭建完整机器人。
他尤其专注于灵巧手操作研究,还以斯坦福访问学者身份跟随李飞飞进行研究,主要负责使灵巧手串联多个操作以完成搭积木等长程任务,以及研究双臂机器人的类人操作,如拿取物体、制作咖啡等精细化动作。
与王启斌一同创业后,陈源培也依旧保持着与李飞飞研究室的沟通联络,一同交流技术上的研发进展。
▲灵初智能联合创始人 陈源培
另外,灵初智能还有联合创始人柴晓杰博士,他是王启斌在京东工作时认识的朋友,在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技术,有L4产品落地的数据闭环经验。
灵初智能也与北京大学成立了北大-灵初智能具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任联合实验室项目负责人开展横向课题合作,该实验室首席科学家梁一韬博士则主要负责研究具身智能体长程任务规划。
至此,灵初智能不仅具有深谙产品操盘的业界资深人士,也搭建起了一个被称为“科学家密度最高”的技术队伍,努力实现团队在技术创新与商业落地上的平衡。
二、从搭积木到商品打包,教机器人串联多技能
目前,灵初智能已初步构建起一套较为完整的产品体系:在硬件维度,打造双手双臂轮式机器人,部分核心硬件系自主研发成果;在软件层面,持续迭代机器人的技能级(指通过机器人能做多少种任务、完成任务的复杂程度和完成任务的质量来划分的一种技能等级),使其具备对上千种物体进行泛化长程操作的能力,能广泛适配于柔性生产等多元场景。
特别是在机器人长程操作方面,陈源培提出了Psi-C0模型,能够让机器人把多个技能串联起来,这是世界首次利用强化学习在现实中控制双臂双手多技能操作。
例如,向机器人下达完成任意形状乐高积木搭建任务,机器人可以把翻找、抓取、重定向和插入积木4个技能串联起来,最后完成该形状的搭建。
▲机器人正在完成翻找、抓取、重定向、插入的积木搭建流程
Psi-C0模型依托金字塔状数据结构,以人类操作及动作捕捉数据为底层数据,于仿真环境进行强化学习训练,其中仿真数据构成关键中层。
待在仿真环境中训练出良好基础后,便迁移至真实世界,此时仅需补充少量真实世界数据进行微调,就能助力机器人跨越sim2real gap,从而提升机器人的操作能力与适应性。
另外,还有梁一韬博士开发的Psi-P0模型,可以实现开放环境中复杂任务的任务拆解和规划,借自身经验实现自我进阶,所支持的任务复杂度和准确度都超越同期OpenAI的VPT和英伟达的Minedojo。
▲Psi-P0模型能够根据自身经历进行自我提升
最近,灵初智能又发布了首个基于强化学习的端到端具身模型Psi R0,该模型支持双灵巧手将多个技能串联进行复杂操作,还可以实现跨物品、跨场景级别的泛化。
以电商场景为例,商品打包是典型的长程任务作业,需对上万件商品进行抓取,扫码,放置,塑料袋打结等多个操作。Psi R0能够让双灵巧手流畅地完成这一系列动作,可以取代一个完整的现场工位,成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。
▲基于Psi R0模型,机器人能够自主完成将桌面商品打包的全部操作
王启斌透露,灵初智能目前已初步完成硬件研发,将于明年3月公布含数据采集设备、软件算法等的整机解决方案;而技能级上,团队正在打磨样本,预计明年年中会正式上线。
在落地场景方面,灵初智能预计率先在物流领域实现应用落地,后续逐步向生产制造领域探索拓展,重点针对传统非标自动化设备及集成设备因技能单一而难以应对的复杂生产环节,充分发挥机器人执行多技能组合长程任务的优势。
这一轮具身智能热潮中,双足的人形机器人备受关注。不过对王启斌来说,基于对目前行业生态的判断,自己只聚焦在双手双臂轮式机器人的操作能力上,不会去涉及双足机器人。
在他的预判里,人形机器*概会有三个发展阶段,第一阶段是3到5年里,面向TO B场景的轮式机器人;第二阶段是5到10年里,双足机器人可能应用场景会变得广泛;第三阶段是8到10年及以上,机器人形态会变得更多样化,人形机器人不会是最终答案。
所以就目前阶段而言,他认为操作能力的迭代及实现产品闭环是最重要的,这种重要性远超过移动能力的迭代发展。
三、强化学习,突破具身智能“不可达三角”
一直以来,高泛化性、高鲁棒性和高泛化性都是具身智能领域的“不可达三角”。
高泛化性要求机器人在变化环境对不同物体执行复杂任务,高鲁棒性意味着机器人受干扰时稳定正确执行任务,高灵巧性指机器人能够灵活精准地执行任务,同时兼顾这三者极有挑战性的。
陈源培解释,灵初智能采用强化学习的复合路线,是实现接近或者是超越人类灵巧操作的必经之路,也是攻克“不可达三角”的关键。“在模仿学习下,人类操作着机器人示教一遍,机器人的操作水平提升是有上限的;但是强化学习让机器人进行自主探索、通过自我纠错来提升能力,会具有非常高的动态响应能力。”
具体来说,在灵巧性上,机器人通过强化学习能够超越过去人类预先编程的局限,能很好地完成如弹钢琴、转笔、转魔方等甚至其他人类无法实现的灵活操作。
在泛化性上,灵初智能方案是让机器人在仿真环境中学习训练,仿真环境可对物体的光照、纹理、大小等进行随机化处理,使训练数据的多样性远超真实数据,从而让机器人拥有高泛化能力。
而鲁棒性方面,传统的模仿学习仅基于专家数据,未涉及次优数据及失败后如何恢复等情况,而强化学习从无知识智能体起步,历经多次失败及恢复过程,所以能够实现较高的鲁棒性。
王启斌谈道,具身智能的“不可达三角”要关注技术起点和发展路径。从起点看,基于强化学习,其机器人不仅能在在泛化性上有显著优势,且在灵巧性上,不同于简单抓取,强调的是多技能COT(Chain-of-Thought)概念,也就是将多个单个技能串联起来,团队在这方面时国内最领先的。
在路径上,先是在单个技能上实现物体和环境的泛化,接着利用操作上的多技能串联实现灵巧性,最后通过征集强化数据提升成功率。灵初智能的整体技术架构使得其在“不可达三角”上起点更高,以及通过合理路径发展,最终有望实现更高水平的综合性能表现。
四、世界模型与机器人行动的耦合,仍是巨大挑战
今年12月初,李飞飞创办的空间智能创业公司World Labs宣布在空间智能领域取得重大进展,发布了一个利用单张图像就能生成逼真三维世界的模型。另外,谷歌也在差不多的时间发布了新一代世界模型Genie 2,同样能够根据一张图生成可供人类或AI智能体游玩的无限3D世界。
“不管是李飞飞还是我们现在做的,有个底层逻辑,那就是都在解决要在什么样的数据中进行训练的问题,以及仿真是必不可少的。”陈源培说。以计算机视觉领域为例,尽管该领域的数据量相比机器人领域多可能几万倍,且像图像生成的难度低于机器人控制,但生成的视频在细节等方面仍不够理想。
而在机器人领域,仅依靠真实性数据大概率无法实现良好的控制效果。因此,需要借助无穷无尽的仿真数据。比如,可以通过将一张真实世界场景的照片,放到模型中进行随机化增强,生成比图片原本包含信息更多的数据,然后让机器人进行训练。
对于世界模型与具身智能模型之间的关联,陈源培谈道:“具身智能领域同样需要世界模型,就像人类在行动时依靠大脑中的世界模型进行决策一样,只不过其数据模型的构建难度远超想象。”尽管当前世界模型在视觉方面的预测已取得较大进展,能生成比较符合物理世界的视频,但对具身智能来说,直接采用的话可解释性太低,里面也不存在对“行动”的认知,所以要与机器人行动层面实现耦合还是很困难。
而王启斌觉得,李飞飞的模型可能会先在虚拟游戏之类的领域进行应用,也会借此来提升训练机器人的仿真环境。不过,怎么把这种仿真的三维时间空间关系结合到机器人的行动上,依旧有漫长的路要走,物体所具有的复杂物理属性仍然会给机器人训练带来很大挑战。
“世界模型在未来当然会对具身智能模型的发展产生重大影响,特别是在环境这一层面”王启斌说,“不过,Agent(智能体)的本身的能力是从哪里来的呢?像人一样,人是一种Super Agent,有时候一些能力可能是遗传的先验知识积累、是潜意识且不可解释的。所以,我们现在还是很难简单快速地直接从世界模型过渡到复杂的物理世界交互,这还是一个需要慢慢探索的过程。”
结语:具身智能跨越现阶段的浮躁是必然
回顾创业以来的这一年,王启斌坦言,还没有遇到过让自己觉得很有成就感的瞬间。
“具身智能是一个长线赛道,团队每个人都很拼,就像源培经常晚上不回家就住在公司,就为了尽快把demo做出来,”王启斌说道,“但是面对取得的成果,我们通常看起来很高兴,不过也明白这其实只是在这个长线赛道上的沧海一粟,并不是真正的significance,还需要跟着节奏一步一步走下去。”
面对现在火热的这波具身智能浪潮,大众对此或许有过高的期待、行业发展会存在一部分泡沫,但他相信,就算热潮回落,具身智能进入低谷期,低谷也会远高于今天的发展起点。
长远来看,随着技术瓶颈的突破和应用场景的拓展,具身智能跨越现阶段的浮躁是必然,会逐渐走向更成熟更具价值的发展方向、走向千家万户,只是,还需要多给它一些时间。