AI 音频

中国 AI 团队的语音合成、声音克隆、音乐生成和音频生产工具。

Alibaba Cloud

Qwen Audio / CosyVoice

4.2

Qwen Cloud 已有足够官方音频证据,值得单独放入音频分类。

最适合 · 适合通过英文平台评估中国语音合成、声音克隆、ASR 和实时语音 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信

Zhipu AI

GLM Audio

3.9

音频已经是文档化的 GLM 能力家族,应在音频分类中可见。

最适合 · 适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信

MiniMax

MiniMax Audio / Speech

4.3

MiniMax Audio 值得单独成档,因为官方 API 文档覆盖了聊天模型之外较完整的语音产品线。

最适合 · 适合评估中国语音合成、声音克隆和多语言音频生成 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信

Meituan LongCat

LongCat-AudioDiT

4.2

LongCat-AudioDiT 应归入 AI 音频,因为它是公开代码和权重的 TTS / 语音克隆模型,而不只是普通论文。

最适合 · 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。

覆盖度 · 100/100 · 待补:时效

全球可用完整英文界面可信

MiniMax

MiniMax Music

4.2

MiniMax Music 是官方文档中独立的国际产品线,不应只隐藏在通用 API 档案里。

最适合 · 适合评估中国音乐生成 API,用于歌曲、翻唱和应用配乐的创作者与开发者。

覆盖度 · 100/100

全球可用完整英文界面可信

ByteDance / Volcano Engine

Seeduplex

3.9

Seeduplex 为 ByteDance Seed 补上独立语音交互档案,而不只是文本、图像和视频模型。

最适合 · 适合跟踪中国全双工语音模型、实时语音 Agent 和多模态交互研究的团队。

覆盖度 · 100/100 · 待补:价格和支付

部分地区可用完整英文界面可信

StepFun

StepAudio

4.1

StepAudio 是独立能力线,应在 AI Audio 分类中可见,而不是埋在通用 StepFun 档案里。

最适合 · 适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

覆盖度 · 100/100 · 待补:时效

部分地区可用完整英文界面可信

Xiaomi MiMo

MiMo Speech Models

4.0

MiMo 已有足够英文语音产品信号,适合拆出独立音频档案。

最适合 · 适合关注小米语音栈,用于 ASR、TTS 和语音 Agent 实验的团队。

覆盖度 · 100/100 · 待补:价格和支付

部分地区可用完整英文界面可信