IT之家4月3日消息,微软(MSFT)昨日(4月2日)发布公告,持续扩充自研AI模型版图,继MAI-Voice-1和MAI-Image-2之后,推出第三款自研模型MAI-Transcribe-1,以3.9%的字错误率号称全球最精准转录模型。
在行业公认的FLEURS基准测试(涵盖中文、英文、法语等全球25种主要语言)中,MAI-Transcribe-1模型平均字错误率仅为3.9%,宣称这是目前全球最精准的转录模型。
在 11种核心语言上,该模型直接登顶榜首;在其余14种语言对比中,它击败了OpenAI的Whisper-large-v3,并在其中11种语言上超越了谷歌最新发布的Gemini3.1Flash。微软(MSFT)强调该模型能在所有支持语言间保持一致的高准确度,适用于多样化的语音转文字场景。
除了精准外,微软(MSFT)MAI-Transcribe-1模型的另外两大优势是速度与成本。在转录速度上,该模型批量转录速度达到现有Microsoft Azure Fast服务的2.5倍;在成本定价方面,该模型每小时仅需0.36美元,微软(MSFT)称在大型云厂商中,该模型性价比最优。
该模型目前已在Microsoft Foundry平台开放使用。值得注意的是,首发版本暂不支持实时转录、说话人分离和偏见调整功能,但微软(MSFT)计划在后续更新中提供这些能力。
