When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

基本信息

摘要

English

Automatic speech recognition (ASR) systems remain brittle on dysarthric and other atypical speech. Recent audio-language models raise the possibility of improving performance by conditioning on additional clinical context at inference time, but it is unclear whether these models can make use of such information. We introduce a benchmark built on the Speech Accessibility Project (SAP) dataset that tests whether diagnosis labels, clinician-derived speech ratings, and progressively richer clinical descriptions improve transcription accuracy for dysarthric speech. Across matched comparisons on nine models, we find that current models do not meaningfully use this context: diagnosis-informed and clinically detailed prompts yield negligible improvements and often degrade word error rate. We complement the prompting analysis with context-dependent fine-tuning, showing that LoRA adaptation with a mixture of clinical prompt formats achieves a WER of 0.066, a 52% relative reduction over the frozen baseline, while preserving performance when context is unavailable. Subgroup analyses reveal significant gains for Down syndrome and mild-severity speakers. These results clarify where current models fall short and provide a testbed for measuring progress toward more inclusive ASR.

中文

自动语音识别系统对构音障碍和其他非典型语音仍很脆弱。最近的音频语言模型提供了通过在推理时附加临床上下文来提高性能的可能性,但这些模型能否利用此类信息尚不明确。我们基于语音无障碍项目(SAP)数据集构建了一个基准,测试诊断标签、临床医生评定的语音评分以及渐进丰富的临床描述是否能提高构音障碍语音的转录准确性。在 9 个模型的匹配比较中,我们发现当前模型没有有意义地利用这些上下文:诊断信息和临床详细提示带来的改进微乎其微,且经常降低词错误率。我们通过上下文相关微调补充了提示分析,表明使用混合临床提示格式的 LoRA 微调实现了 0.066 的 WER,相对冻结基线降低了 52%,同时在上下文不可用时保持性能。亚组分析显示唐氏综合征和轻度严重程度说话者获得了显著收益。这些结果阐明了当前模型的不足,并为衡量更具包容性的 ASR 进展提供了测试平台。

核心贡献

  1. 首次系统评估音频语言模型的临床上下文利用能力:对 9 个音频语言模型(包括 Qwen3-Omni、Gemma-4、Whisper、Voxtral 等)在构音障碍语音上进行系统评估,发现冻结模型无一能有效利用临床上下文。
  2. 三种失败模式识别:归纳出鲁棒型(WER 不随上下文变化)、退化型(WER 随上下文增加而上升)和格式依赖型(仅特定上下文格式有用)。
  3. 上下文相关微调的有效性证明:尽管冻结模型无法利用上下文,但 LoRA 微调可让模型学会利用临床信息,实现 WER 0.066(SOTA),表明模型失败源于训练数据缺乏而非根本性限制。
  4. 亚组分析:揭示了唐氏综合征和轻度构音障碍说话者的显著改善,为针对性系统优化提供了方向。

方法概述

实验分为两个主要部分:

提示评估(Prompting Evaluation):设计 11 种逐渐增加临床信息的提示条件——从零上下文控制、仅有诊断标签、语音评分、简洁临床描述、完整临床描述到跟进修正。在 9 个模型上对 SAP 数据集的 11,218 个匹配样本进行评估。评估指标为 WER(词错误率)、CER(字符错误率)和 SemScore。

上下文相关微调(Context-Dependent Fine-Tuning):选择在提示评估中表现良好的 Qwen3-ASR-1.7B 作为基座,使用 LoRA 对混合临床提示格式(随机化提示以强制模型学习上下文利用)进行微调,随后在 5 种上下文条件下评估(零上下文到完整临床描述)。

实验结果

局限性与注意点

相关概念(详细)

相关概念


导入时间: 2026-05-05 06:01 来源: arXiv Daily Wiki Update 2026-05-05