AI新闻资讯 2026-05-11 09:38:50
在最新发布的全球权威TTS(语音合成)评测榜单Artificial Analysis Speech Arena Leaderboard中,来自中国的阶跃星辰(StepFun)展现出强劲实力。其语音生成模型StepAudio2.5TTS凭借出色的听感表现跻身全球前三,成为目前该榜单中排名最高的中国大模型产品。
与传统的实验室数据指标不同,该榜单采用了更为严苛的“盲测Elo评分机制”。在这种模式下,用户在完全不知道模型身份的情况下,对两段由同一文本生成的音频进行主观听感评判。测试场景涵盖了在线客服、知识分享、数字助手以及娱乐互动等真实生活片段。阶跃星辰的胜出,意味着其生成的语音在真实用户反馈中更具“人情味”,在语调自然度与表达感染力上已具备国际顶尖的竞争力。

目前,阶跃星辰已密集发布了StepAudio2.5系列的全链路模型,包括负责语音生成的TTS、主打高精度识别的ASR,以及最新上线的Realtime实时交互模型。其中,Realtime模型特别强调了“活人感”的营造,通过顶级的副语言能力和千万人设的自定义功能,试图为用户打造一个有温度、有灵魂的AI聊天伙伴。
事实上,这家公司在语音AI领域的布局早已铺开。其开源原生推理模型Step Audio R1.1已在另一项全球语音推理榜单中连续四个月位居榜首;而另一款开源的情绪风格编辑模型Step Audio EditX,仅需3秒素材即可完成高质量的音色复刻,展现了极高的技术效率。
在技术落地的商业化路径上,阶跃语音模型也走在了前列。目前,该技术已成功搭载于吉利银河M9等多款车型,实现了端到端语音大模型的量产上车。同时,在极氪8X等车型的智能交互系统中,该模型也作为核心驱动力,为整车智能体提供了更自然、流畅的交互体验。