StepFun
StepAudio
StepAudio 覆盖阶跃星辰的音频模型。英文文档将 StepAudio 2.5 TTS 定位为上下文语音合成模型,支持自然语言控制、情绪弧线和约 3 秒参考音频的零样本声音克隆;同时列出 step-tts-2、step-tts-mini、用于流式/近实时转写的 stepaudio-2.5-asr,以及 32B ASR Pro 模型 stepaudio-2-asr-pro。
快速问答
一眼看懂
- 概览
- 阶跃星辰语音模型家族,覆盖上下文 TTS、声音克隆、流式 ASR 和近实时转写。
- 适合谁
- 适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。
- 可信度
- 2/2 个来源已核验,且最近核验 · 2026-05-17
- 覆盖度
- 100/100 · 待补:时效
编辑结论
适合
适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。
谨慎使用
如果没有测试注册、授权处理和限流,就需要完全验证的国际音频工作流,不应直接采用。
核心原因
StepAudio 是独立能力线,应在 AI Audio 分类中可见,而不是埋在通用 StepFun 档案里。
价格
stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice
Payment
Open Platform balance, Step Plan quota for supported audio models
Commercial use
商用应遵守阶跃星辰音频 API 条款和声音克隆授权要求。
Privacy
声音克隆和转写可能涉及生物特征或敏感音频;需核验授权、留存和数据处理条款。
适用场景
表现力配音
强可用上下文 TTS 做有声书、短剧配音、广告旁白和情绪叙事。
流式转写
强可用 stepaudio-2.5-asr 做字幕、语音输入、会议转写和后端批处理。
游戏 NPC 声音
中音频文档明确提到游戏 NPC 作为音频驱动体验用例。
全球用户决策清单
Pros
- - 上下文 TTS 支持全局和行内自然语言控制
- - 已记录零样本声音克隆
- - 流式 ASR 支持 HTTP + SSE 增量输出
Cons
- - TTS 每次请求最多 1000 字符
- - 声音克隆上线前需严格审核授权
决策路径
minimax-audio
qwen-audio
zhipu-glm-audio
seeduplex-audio