首页 > 读书写作 > 读书写作 > VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂画外音

VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂画外音

发布时间:2025-11-11 16:31:56来源: 18811119908
复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

 

在⽇常⽣活中,⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候,我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。

「这果汁好酸啊」,其实意味着想换别的饮料;听到雷声骤起,就知道该去关窗收⾐;从声音辨出是爷爷在说话,会主动问他是否想喝最爱的热茶⽽不是可乐;在多⼈同时说话的场景中,还要分清谁才是发出指令的⼈。

现在,机器⼈终于能听懂这些「潜台词」了!复旦⼤学与新加坡国立⼤学联合发布RoboOmni,不仅重新定义了机器⼈交互的「情境指令」新范式,更通过全模态端到端的统⼀架构,让机器⼈⾸次具备了「察⾔观⾊」的认知能力。



 

  • 论文标题:RoboOmni: Proactive Robot Manipulation in Omni-modal Context
  • 论⽂地址:https://arxiv.org/pdf/2510.23763
  • 代码地址:https://github.com/OpenMOSS/RoboOmni
  • 模型 & 数据地址: https://huggingface.co/collections/fnlp/roboomni
  • 项⽬主⻚:https://OpenMOSS.github.io/RoboOmni

 

具身交互范式革命:从「显式指令」到「情境指令」



图 1:根据指令类型与输⼊对机器⼈操控模型的分类。RoboOmni 通过整合跨模态情境指令,实现了端到端多模态交互与动作执行的⼀体化。

当前主流的 VLA 模型存在两⼤局限:(1)现有模型⼤多依赖于精确、显式的指令(如「拿起苹果」),⽆法理解隐含的意图。(2)现有⽅法的指令输⼊严重依赖于⽂本,即便使⽤语音,也需要先通过 ASR (Automatic Speech Recognition)技术转成⽂字,这丢失了语调、情感、说话⼈身份等副语⾔关键信息,更⽆法感知⻔铃、雷声等环境声音的语义。

这意味着,过去的机器⼈是⼀个需要「精确编程」的迟钝执⾏者,⽽⾮⼀个能「察⾔观⾊」的智能伙伴。

复旦联合新国立提出的「跨模态情境指令」 (contextual instrcution) 新范式,旨在彻底改变这⼀现状。它要求机器⼈能像⼈⼀样,主动融合语音对话、环境声音和视觉观察,从多模态上下⽂中推断出⽤户的真实意图。

 

  • 从被动到主动:不再是等待明确的「关窗」指令,⽽是在听到雷声、看到阳台⻔开着时,主动询问:「需要我关窗吗?」
  • 从单模态到全模态:同时理解语音中的情感倾向(如不满的语⽓)、说话⼈身份(是妈妈的需求还是⼥⼉的?)、环境声音(⻔铃、警报、厨房噪音)以及视觉观察(画⾯中的物体状态和⼈物关系)的语义。

 

这不再是简单的指令执⾏,⽽是让机器⼈具备了真正的情境理解能力。它就像⼀个贴⼼的私⼈助理,能够从⼀句嘀咕、⼀段对话和周围的环境中读懂潜台词,让服务变得⾃然、主动且精准。

读书写作更多>>

JAPANNEXT推出18.5\"大型便携显示器,FHD 60Hz规格 酷比魔方iWork GT Ultra上架:U5-125H + 16G + 1T售4949元 iQOO 15 Ultra手机双配色首发亮相,2月初见 小米澎湃OS 3 Beta第二期招募开启:小米17系列等8款机型抢先适配 真我realme手机今年4月全面接入OPPO售后服务 美团:2025年快乐生活相关订单增36%,95后消费者占近6成 天猫超市启动闪购年货节 杭州将率先实现闪购4小时送达 马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万 基础研究进入“从0到1”突破期 Intel纯大核Bartlett Lake最新消息:最高12个P核5.9GHz! 手机周报份额再次出炉:苹果险胜华为,小米陷入苦战! 美团高调入局汽车销售 只剩5年?诺奖得主Hassabis放出AGI时间表:还差一两个技术突破 爆款刚诞生,德邦基金为何急下“谢客令”? 最赚钱对冲基金,要来A股了 新能源车的“硬核”战事,2026年卷向何处? AYANEO首款手机Pocket PLAY跳票 苹果iPhone 18系列、Air2屏幕配置曝光,部分Face ID屏下化 华为智选新品WIKO Hi畅享80 Plus上架,内置6620mAh电池 河声丨推动优化电商“长辈模式”,激发银发消费活力 自变量:具身模型不是把DeepSeek塞进机器人 荣耀Power2发布:10080mAh大电池+2699元起,户外党狂喜 iQOO新机炸场,ROG退场,游戏手机只剩一家? 折叠屏手机领衔 摩托罗拉2026年全系手机型号遭曝光! 2026年了,iPhone se3使用体验分享 苹果上新马年手机壳,售价449元 刷新纪录!智己汽车2025全盘点:销量口碑双丰收,领跑新势力 ​卢放:岚图L3级有条件自动驾驶进入实车测试 沃尔沃汽车12月销量达16063辆,全新XC70蝉联品牌销冠 比亚迪狂销460万完胜!日产破60万,理想意外大跌