VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂画外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

在⽇常⽣活中，⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候，我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。

「这果汁好酸啊」，其实意味着想换别的饮料；听到雷声骤起，就知道该去关窗收⾐；从声音辨出是爷爷在说话，会主动问他是否想喝最爱的热茶⽽不是可乐；在多⼈同时说话的场景中，还要分清谁才是发出指令的⼈。

现在，机器⼈终于能听懂这些「潜台词」了！复旦⼤学与新加坡国立⼤学联合发布RoboOmni，不仅重新定义了机器⼈交互的「情境指令」新范式，更通过全模态端到端的统⼀架构，让机器⼈⾸次具备了「察⾔观⾊」的认知能力。

论文标题：RoboOmni: Proactive Robot Manipulation in Omni-modal Context
论⽂地址：https://arxiv.org/pdf/2510.23763
代码地址：https://github.com/OpenMOSS/RoboOmni
模型 & 数据地址： https://huggingface.co/collections/fnlp/roboomni
项⽬主⻚：https://OpenMOSS.github.io/RoboOmni

具身交互范式革命：从「显式指令」到「情境指令」

VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂画外音

图 1：根据指令类型与输⼊对机器⼈操控模型的分类。RoboOmni 通过整合跨模态情境指令，实现了端到端多模态交互与动作执行的⼀体化。

当前主流的 VLA 模型存在两⼤局限：（1）现有模型⼤多依赖于精确、显式的指令（如「拿起苹果」），⽆法理解隐含的意图。（2）现有⽅法的指令输⼊严重依赖于⽂本，即便使⽤语音，也需要先通过 ASR （Automatic Speech Recognition）技术转成⽂字，这丢失了语调、情感、说话⼈身份等副语⾔关键信息，更⽆法感知⻔铃、雷声等环境声音的语义。

这意味着，过去的机器⼈是⼀个需要「精确编程」的迟钝执⾏者，⽽⾮⼀个能「察⾔观⾊」的智能伙伴。

复旦联合新国立提出的「跨模态情境指令」 (contextual instrcution) 新范式，旨在彻底改变这⼀现状。它要求机器⼈能像⼈⼀样，主动融合语音对话、环境声音和视觉观察，从多模态上下⽂中推断出⽤户的真实意图。

从被动到主动：不再是等待明确的「关窗」指令，⽽是在听到雷声、看到阳台⻔开着时，主动询问：「需要我关窗吗？」
从单模态到全模态：同时理解语音中的情感倾向（如不满的语⽓）、说话⼈身份（是妈妈的需求还是⼥⼉的？）、环境声音（⻔铃、警报、厨房噪音）以及视觉观察（画⾯中的物体状态和⼈物关系）的语义。

这不再是简单的指令执⾏，⽽是让机器⼈具备了真正的情境理解能力。它就像⼀个贴⼼的私⼈助理，能够从⼀句嘀咕、⼀段对话和周围的环境中读懂潜台词，让服务变得⾃然、主动且精准。

VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂画外音

读书写作更多>>