StepFun

StepAudio

StepAudio 覆盖阶跃星辰的音频模型。英文文档将 StepAudio 2.5 TTS 定位为上下文语音合成模型,支持自然语言控制、情绪弧线和约 3 秒参考音频的零样本声音克隆;同时列出 step-tts-2、step-tts-mini、用于流式/近实时转写的 stepaudio-2.5-asr,以及 32B ASR Pro 模型 stepaudio-2-asr-pro。

部分地区可用完整英文界面公开 API付费可信

快速问答

一眼看懂

概览
阶跃星辰语音模型家族,覆盖上下文 TTS、声音克隆、流式 ASR 和近实时转写。
适合谁
适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。
可信度
2/2 个来源已核验,且最近核验 · 2026-05-17
覆盖度
100/100 · 待补:时效

编辑结论

适合

适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

谨慎使用

如果没有测试注册、授权处理和限流,就需要完全验证的国际音频工作流,不应直接采用。

核心原因

StepAudio 是独立能力线,应在 AI Audio 分类中可见,而不是埋在通用 StepFun 档案里。

价格

stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice

Payment

Open Platform balance, Step Plan quota for supported audio models

Commercial use

商用应遵守阶跃星辰音频 API 条款和声音克隆授权要求。

Privacy

声音克隆和转写可能涉及生物特征或敏感音频;需核验授权、留存和数据处理条款。

适用场景

表现力配音

可用上下文 TTS 做有声书、短剧配音、广告旁白和情绪叙事。

流式转写

可用 stepaudio-2.5-asr 做字幕、语音输入、会议转写和后端批处理。

游戏 NPC 声音

音频文档明确提到游戏 NPC 作为音频驱动体验用例。

全球用户决策清单

注册部分音频 API 需要平台账号和 API Key。
英文界面已确认英文音频模型和 API 文档可用。
API 与文档已确认文档覆盖 TTS、流式 TTS、ASR、声音克隆和声音列表 API。
商用部分声音克隆授权和生产数据条款需做策略审查。
覆盖度 · 100/100 · 待补:时效

Pros

  • - 上下文 TTS 支持全局和行内自然语言控制
  • - 已记录零样本声音克隆
  • - 流式 ASR 支持 HTTP + SSE 增量输出

Cons

  • - TTS 每次请求最多 1000 字符
  • - 声音克隆上线前需严格审核授权

决策路径

minimax-audio

qwen-audio

zhipu-glm-audio

seeduplex-audio

Sources

StepFun audio models

docs · en · verified 2026-05-17

记录 StepAudio 2.5 TTS、step-tts 和 ASR 模型。

StepFun pricing and rate limits

pricing · en · verified 2026-05-17

记录语音价格。

评论