阶跃星辰语音模型家族，覆盖上下文 TTS、声音克隆、流式 ASR 和近实时转写。

StepAudio 英文界面与 API

英文界面: full · API: available

StepFun

StepAudio

Name: StepAudio
Price: stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice
Availability: LimitedAvailability
Rating: 4.1 (3 reviews)

StepAudio 覆盖阶跃星辰的音频模型。英文文档将 StepAudio 2.5 TTS 定位为上下文语音合成模型，支持自然语言控制、情绪弧线和约 3 秒参考音频的零样本声音克隆；同时列出 step-tts-2、step-tts-mini、用于流式/近实时转写的 stepaudio-2.5-asr，以及 32B ASR Pro 模型 stepaudio-2-asr-pro。

部分地区可用完整英文界面公开 API付费可信

快速问答

一眼看懂

概览: 阶跃星辰语音模型家族，覆盖上下文 TTS、声音克隆、流式 ASR 和近实时转写。
适合谁: 适合评估中国语音 API 的团队，尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。
可信度: 2/2 个来源已核验，且最近核验 · 2026-05-17
覆盖度: 100/100 · 待补：时效

编辑结论

适合

适合评估中国语音 API 的团队，尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

谨慎使用

如果没有测试注册、授权处理和限流，就需要完全验证的国际音频工作流，不应直接采用。

核心原因

StepAudio 是独立能力线，应在 AI Audio 分类中可见，而不是埋在通用 StepFun 档案里。

价格

stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice

Payment

Open Platform balance, Step Plan quota for supported audio models

Commercial use

商用应遵守阶跃星辰音频 API 条款和声音克隆授权要求。

Privacy

声音克隆和转写可能涉及生物特征或敏感音频；需核验授权、留存和数据处理条款。

适用场景

表现力配音

强

可用上下文 TTS 做有声书、短剧配音、广告旁白和情绪叙事。

流式转写

强

可用 stepaudio-2.5-asr 做字幕、语音输入、会议转写和后端批处理。

游戏 NPC 声音

中

音频文档明确提到游戏 NPC 作为音频驱动体验用例。

全球用户决策清单

注册部分音频 API 需要平台账号和 API Key。

英文界面已确认英文音频模型和 API 文档可用。

API 与文档已确认文档覆盖 TTS、流式 TTS、ASR、声音克隆和声音列表 API。

商用部分声音克隆授权和生产数据条款需做策略审查。

覆盖度 · 100/100 · 待补：时效

Pros

- 上下文 TTS 支持全局和行内自然语言控制
- 已记录零样本声音克隆
- 流式 ASR 支持 HTTP + SSE 增量输出

Cons

- TTS 每次请求最多 1000 字符
- 声音克隆上线前需严格审核授权

决策路径

minimax-audio

qwen-audio

zhipu-glm-audio

seeduplex-audio

Sources

StepFun audio models

docs · en · verified 2026-05-17

记录 StepAudio 2.5 TTS、step-tts 和 ASR 模型。

StepFun pricing and rate limits

pricing · en · verified 2026-05-17

记录语音价格。