长语音生成的综合基准论文详细解读
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
主题
用于转写、翻译和理解语音音频的模型。
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
Brain2Qwerty 用 EEG/MEG 解码短暂记忆后打字的句子:MEG 平均 CER 32%,EEG 为 67%,最佳受试者达 19%。
Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。
Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B,把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。
OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型,零样本即可匹敌全监督系统,无需微调,并兼做翻译与语言识别。