复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。
在⽇常⽣活中,⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候,我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。
「这果汁好酸啊」,其实意味着想换别的饮料;听到雷声骤起,就知道该去关窗收⾐;从声音辨出是爷爷在说话,会主动问他是否想喝最爱的热茶⽽不是可乐;在多⼈同时说话的场景中,还要分清谁才是发出指令的⼈。
现在,机器⼈终于能听懂这些「潜台词」了!复旦⼤学与新加坡国立⼤学联合发布RoboOmni,不仅重新定义了机器⼈交互的「情境指令」新范式,更通过全模态端到端的统⼀架构,让机器⼈⾸次具备了「察⾔观⾊」的认知能力。

- 论文标题:RoboOmni: Proactive Robot Manipulation in Omni-modal Context
- 论⽂地址:https://arxiv.org/pdf/2510.23763
- 代码地址:https://github.com/OpenMOSS/RoboOmni
- 模型 & 数据地址: https://huggingface.co/collections/fnlp/roboomni
- 项⽬主⻚:https://OpenMOSS.github.io/RoboOmni
具身交互范式革命:从「显式指令」到「情境指令」

图 1:根据指令类型与输⼊对机器⼈操控模型的分类。RoboOmni 通过整合跨模态情境指令,实现了端到端多模态交互与动作执行的⼀体化。
当前主流的 VLA 模型存在两⼤局限:(1)现有模型⼤多依赖于精确、显式的指令(如「拿起苹果」),⽆法理解隐含的意图。(2)现有⽅法的指令输⼊严重依赖于⽂本,即便使⽤语音,也需要先通过 ASR (Automatic Speech Recognition)技术转成⽂字,这丢失了语调、情感、说话⼈身份等副语⾔关键信息,更⽆法感知⻔铃、雷声等环境声音的语义。
这意味着,过去的机器⼈是⼀个需要「精确编程」的迟钝执⾏者,⽽⾮⼀个能「察⾔观⾊」的智能伙伴。
复旦联合新国立提出的「跨模态情境指令」 (contextual instrcution) 新范式,旨在彻底改变这⼀现状。它要求机器⼈能像⼈⼀样,主动融合语音对话、环境声音和视觉观察,从多模态上下⽂中推断出⽤户的真实意图。
- 从被动到主动:不再是等待明确的「关窗」指令,⽽是在听到雷声、看到阳台⻔开着时,主动询问:「需要我关窗吗?」
- 从单模态到全模态:同时理解语音中的情感倾向(如不满的语⽓)、说话⼈身份(是妈妈的需求还是⼥⼉的?)、环境声音(⻔铃、警报、厨房噪音)以及视觉观察(画⾯中的物体状态和⼈物关系)的语义。
这不再是简单的指令执⾏,⽽是让机器⼈具备了真正的情境理解能力。它就像⼀个贴⼼的私⼈助理,能够从⼀句嘀咕、⼀段对话和周围的环境中读懂潜台词,让服务变得⾃然、主动且精准。