微软刚刚开源了一款前沿语音AI,可在单次处理中处理90分钟音频,根据上传的录音文件,它可以识别每个说话人,为每个词添加时间戳,输出完整结构化文本,标注谁说了什么以及什么时间说的,支持实时TTS,首音频延迟仅300毫秒,支持多达50多种语言,100%开源。项目地址https://github.com/microsoft/VibeVoice