VibeVoice微软的开源语音AI

Captain 杂类 2026-03-31

微软刚刚开源了一款前沿语音AI，可在单次处理中处理90分钟音频，根据上传的录音文件,它可以识别每个说话人，为每个词添加时间戳，输出完整结构化文本，标注谁说了什么以及什么时间说的，支持实时TTS，首音频延迟仅300毫秒，支持多达50多种语言，100%开源。