主题

语音识别

用于转写、翻译和理解语音音频的模型。

长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

Brain2Qwerty 用 EEG/MEG 解码短暂记忆后打字的句子:MEG 平均 CER 32%,EEG 为 67%,最佳受试者达 19%。

Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。

Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B，把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。

OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型，零样本即可匹敌全监督系统，无需微调，并兼做翻译与语言识别。