微软推出全球最精准转录 AI 模型 MAI-Transcribe-1，平均字错误率 3.9%

IT之家4月3日消息，微软（MSFT）昨日(4月2日)发布公告，持续扩充自研AI模型版图，继MAI-Voice-1和MAI-Image-2之后，推出第三款自研模型MAI-Transcribe-1，以3.9%的字错误率号称全球最精准转录模型。

在行业公认的FLEURS基准测试(涵盖中文、英文、法语等全球25种主要语言)中，MAI-Transcribe-1模型平均字错误率仅为3.9%，宣称这是目前全球最精准的转录模型。

在 11种核心语言上，该模型直接登顶榜首；在其余14种语言对比中，它击败了OpenAI的Whisper-large-v3，并在其中11种语言上超越了谷歌最新发布的Gemini3.1Flash。微软（MSFT）强调该模型能在所有支持语言间保持一致的高准确度，适用于多样化的语音转文字场景。

除了精准外，微软（MSFT）MAI-Transcribe-1模型的另外两大优势是速度与成本。在转录速度上，该模型批量转录速度达到现有Microsoft Azure Fast服务的2.5倍；在成本定价方面，该模型每小时仅需0.36美元，微软（MSFT）称在大型云厂商中，该模型性价比最优。

该模型目前已在Microsoft Foundry平台开放使用。值得注意的是，首发版本暂不支持实时转录、说话人分离和偏见调整功能，但微软（MSFT）计划在后续更新中提供这些能力。