AI 音频

中国 AI 团队的语音合成、声音克隆、音乐生成和音频生产工具。

Alibaba Cloud

Qwen Audio / CosyVoice

4.2

Qwen Cloud 已有足够官方音频证据，值得单独放入音频分类。

最适合 · 适合通过英文平台评估中国语音合成、声音克隆、ASR 和实时语音 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Qwen Cloud billing / Token Plan where supported
核验: 5月17日
来源: 高可信
起价: Free tier and pay-as-you-go speech API billing vary by model

查看产品

Zhipu AI

GLM Audio

3.9

音频已经是文档化的 GLM 能力家族，应在音频分类中可见。

最适合 · 适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信公开 API免费增值

支付: Free model where available / Platform billing
核验: 5月17日
来源: 高可信
起价: Usage-based audio API pricing varies by model

查看产品

MiniMax

MiniMax Audio / Speech

4.3

MiniMax Audio 值得单独成档，因为官方 API 文档覆盖了聊天模型之外较完整的语音产品线。

最适合 · 适合评估中国语音合成、声音克隆和多语言音频生成 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Audio Subscription / Token Plan
核验: 5月17日
来源: 高可信
起价: Audio Subscription, Token Plan quotas, Credits and pay-as-you-go billing vary by model

查看产品

Meituan LongCat

LongCat-AudioDiT

4.2

LongCat-AudioDiT 应归入 AI 音频，因为它是公开代码和权重的 TTS / 语音克隆模型，而不只是普通论文。

最适合 · 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。

覆盖度 · 100/100 · 待补：时效

全球可用完整英文界面可信受限 API免费

支付: GitHub repository / Model weights download
核验: 5月18日
来源: 高可信
起价: Open-source MIT repository and released model weights; inference runs locally or through a Hugging Face-compatible workflow

查看产品

MiniMax

MiniMax Music

4.2

MiniMax Music 是官方文档中独立的国际产品线，不应只隐藏在通用 API 档案里。

最适合 · 适合评估中国音乐生成 API，用于歌曲、翻唱和应用配乐的创作者与开发者。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Token Plan / Credits
核验: 5月17日
来源: 高可信
起价: Token Plan music quotas, Credits and pay-as-you-go billing vary by model

查看产品

ByteDance / Volcano Engine

Seeduplex

3.9

Seeduplex 为 ByteDance Seed 补上独立语音交互档案，而不只是文本、图像和视频模型。

最适合 · 适合跟踪中国全双工语音模型、实时语音 Agent 和多模态交互研究的团队。

覆盖度 · 100/100 · 待补：价格和支付

部分地区可用完整英文界面可信受限 API未知

支付: BytePlus billing / Volcano Engine billing
核验: 5月17日
来源: 高可信
起价: Voice model access and pricing should be verified through BytePlus or Volcano Engine

查看产品

StepFun

StepAudio

4.1

StepAudio 是独立能力线，应在 AI Audio 分类中可见，而不是埋在通用 StepFun 档案里。

最适合 · 适合评估中国语音 API 的团队，尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

覆盖度 · 100/100 · 待补：时效

部分地区可用完整英文界面可信公开 API付费

支付: Open Platform balance / Step Plan quota for supported audio models
核验: 5月17日
来源: 高可信
起价: stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice

查看产品

Xiaomi MiMo

MiMo Speech Models

4.0

MiMo 已有足够英文语音产品信号，适合拆出独立音频档案。

最适合 · 适合关注小米语音栈，用于 ASR、TTS 和语音 Agent 实验的团队。

覆盖度 · 100/100 · 待补：价格和支付

部分地区可用完整英文界面可信受限 API未知

支付: API Platform billing / AI Studio
核验: 5月17日
来源: 高可信
起价: Speech-model pricing not publicly visible on the English homepage; verify inside MiMo API Platform

查看产品