多模态模型 · 语音识别 · 序列建模

Audio Interaction Model:会自己决定何时开口的流式音频大模型

Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。

Audio Interaction Model:会自己决定何时开口的流式音频大模型

快速答案

Audio Interaction Model 把大型音频语言模型重新定义为一个流式智能体,持续跑「感知-决策-响应」循环:实时接收声音、环境与指令,先判断该不该回、什么时候回,再即时作答,而不是等整段音频结束才开口。为支撑这一设计,作者构建了端到端的 SoundFlow 流程——流式原生数据构建、理解感知式训练、异步低延迟推理——并发布 StreamAudio-2M 语料,约 260 万条,覆盖 7 项核心能力与 28 个子任务。模型在 8 个基准上保持有竞争力的表现,涵盖实时 ASR 与流式音频指令跟随。

音频助手的「轮次」难题

多数音频大模型是为干净的离线交易设计的:用户说话,音频结束,模型把整段转写,再生成回复。这套路在实时交互中崩掉。真实对话没有整齐的轮次边界——人会说到一半停顿,背景声音也有意义,而好用的助手有时需要提前插话、有时需要保持沉默。把音频当成一份完成的文件,既制造延迟(必须等结束),又抹掉了时机与主动性的概念。论文的判断是:缺的不是更好的转写,而是一个决策:每一刻,模型该继续听,还是现在就回?

感知-决策-响应循环如何运作

这个循环在感知与生成之间插入了一个显式的决策阶段。音频流式进来时,模型持续感知声学场景与口头指令,然后对响应时机做语义判断——信息够不够动手、现在是不是好时机——再决定是否进入生成。正因如此,同一个模型既能处理主动行为(当环境中出现值得回应的事件时主动介入),也能处理普通语音聊天,而不只是被点名才答。关键在于,这个决策由语义内容驱动,而非固定的静音计时器——后者正是语音界面里常见的粗糙触发方式。

SoundFlow 提供了什么

SoundFlow 是让循环可训练、可部署的工程骨架,分为三根支柱:

  • 流式原生数据构建——数据被做成实时流的样子,而非预先切好的片段,让模型在训练时看到的输入形态与推理时一致。
  • 理解感知式训练——训练让模型足够理解正在展开的场景,从而让「决策」这一步可靠,而不只是把音频映射成文字。
  • 异步低延迟推理——感知与回复生成异步进行,模型能边说边继续听,这正是让实时交互稳定、而不在每一轮卡住的关键。

StreamAudio-2M 里有什么

StreamAudio-2M 是数据底座:约 260 万条,横跨 7 项基础能力与 28 个子任务。覆盖面才是重点——把对话、语音聊天、实时转写、指令跟随、环境声反应都装进一个语料里,才让「单一统一模型」变得可行,而不必堆一摞按任务定制的系统。作者还专门构建了 Proactive-Sound-Bench 来衡量主动音频介入能力,这恰恰是轮次式基准压根不测的部分。

关键结果

  • StreamAudio-2M: 约 260 万条,横跨 7 项核心能力与 28 个子任务——语料是按广度而非单一技能来设计的。
  • 基准: 作为统一流式模型,在 8 个基准上保持有竞争力的表现,而非靠专才模型在单项夺冠。
  • 新能力: 实时 ASR(边来边转写)与流式音频指令跟随,从流式原生设置中长出来,而非每个任务单配一个模型。
  • 新评测: Proactive-Sound-Bench 针对主动介入——是否决定回应某个声音事件——这是现有轮次式套件不测的。

为什么重要

语音正成为助手与智能体的主要入口,而瓶颈已从识别准确率转向交互手感——延迟、知道何时开口、对世界而非仅对用户作出反应。把「时机」做成一等的可学习决策,并把训练它所需的数据与推理管线一并放出,这项工作指向了下一代音频大模型:像现场场景中的一个参与者,而非一个转写盒子。诚实地说,贡献既在某个模型分数,也同样在 StreamAudio-2M 语料与 SoundFlow 配方本身。

局限与存疑

论文自己把模型定位为面向下一代大型音频语言模型的「进行中工作」,所以这更像一个方向而非成品。摘要报告的是「有竞争力」而非 state-of-the-art 的表现,且没有公布延迟数字或逐基准分数,让人无法判断流式设计相对离线模型究竟付出了多少代价、又拿回了多少收益。主动介入很强,但是双刃剑:一个会不请自答的模型也可能在错误时机打断;而 Proactive-Sound-Bench 又是同一批作者的新基准,主动性结论的外部验证仍是开放问题。想在此基础上开发的人,应等到数据、权重或代码放出,再假设这个循环能迁移到自己的场景。

常见问题

Audio Interaction Model 是什么?

它是一个统一的流式大型音频语言模型,运行「感知-决策-响应」循环:实时听取声音与指令,基于语义内容判断要不要回、何时回,并即时生成回复,而不是等音频结束才答。

Audio Interaction Model 和普通音频大模型有什么不同?

普通音频大模型离线处理一整段完成的音频后再回复。Audio Interaction Model 多了一个关于响应时机的显式决策步骤,并让感知与生成异步运行,因此能在实时流中作出反应,甚至主动介入。

Audio Interaction Model 里的 SoundFlow 是什么?

SoundFlow 是模型背后的端到端框架,由三根支柱构成:流式原生数据构建、理解感知式训练,以及面向稳定实时交互的异步低延迟推理。

StreamAudio-2M 是什么?

StreamAudio-2M 是随论文发布的流式语料,约 260 万条,横跨 7 项核心能力与 28 个子任务,用于训练覆盖对话、实时 ASR 与指令跟随的统一模型。

一句话:把「现在该不该开口」做成可学习的决策,音频大模型就从转写盒子变成了现场的参与者。阅读 arXiv 原文