AI新闻资讯 2026-03-11 10:33:34
Fish Audio 正式发布新一代文本转语音(TTS)模型 S2,标志着开源TTS技术在表现力和可控性上迎来重大突破。
这款名为 Fish Audio S2的模型主打超强情感可控性,用户可通过自然语言指令实现精细化的韵律与情绪调节,例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心)等标签,甚至支持自由描述如 [professional broadcast tone](专业播音腔)或 [pitch up](升高音调),在词级或短语级实现精准控制,生成极富表现力、自然生动的语音。
核心亮点包括:
Fish Audio 表示,S2基于约1000万小时、覆盖近50种语言的音频数据训练,结合强化学习对齐与双自回归架构,在多项基准测试中展现出领先的自然度与表现力,被誉为当前开源与闭源TTS中最具情感智能的系统之一。“真正的语言自由,从现在开始。” Fish Audio 以这句话宣告:从机械朗读走向真正富有情感与个性的AI语音时代已来。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/