适合语音和音频的中国 AI 工具

中国 ASR、TTS、声音、音乐和实时音频产品,适合语音 Agent、配音、本地化和媒体工作流。

快速问答

一眼看懂

覆盖范围
中国 ASR、TTS、声音、音乐和实时音频产品,适合语音 Agent、配音、本地化和媒体工作流。
匹配工具
当前有 24 个工具匹配这个场景。
阅读方式
优先选择有明确 ASR、TTS、声音克隆、音乐生成、实时音频或语音模型证据的产品。

判断标准

优先选择有明确 ASR、TTS、声音克隆、音乐生成、实时音频或语音模型证据的产品。

24 个匹配工具

Kuaishou

Kling AI

4.7

Kling 提供英文站和更完整的创意与 API 平台,不只限于文生视频生成。

最适合 · 适合希望使用全球可访问中国创意工作室的创作者、工作室和增长团队,覆盖视频、图像、声音、特效和 API 生成。

覆盖度 · 100/100

全球可用完整英文界面可信

Alibaba Cloud

Qwen

4.6

Qwen Cloud 提供英文模型市场、文档、价格和兼容 API 路径,让 Qwen 的全球评估更清晰。

最适合 · 适合从英文国际平台评估 Qwen3.6、Qwen Cloud API、代码智能体和中国多模态模型覆盖的开发者。

覆盖度 · 100/100

全球可用部分英文界面可信

Alibaba Cloud

Qwen Audio / CosyVoice

4.2

Qwen Cloud 已有足够官方音频证据,值得单独放入音频分类。

最适合 · 适合通过英文平台评估中国语音合成、声音克隆、ASR 和实时语音 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信

Alibaba Cloud

Qwen Cloud Token Plan

4.0

Token Plan 是 Qwen Cloud 独立商业路径,会影响海外开发者实际消费模型的方式。

最适合 · 适合希望用订阅方式把 Qwen Cloud 接入代码工具和兼容智能体的开发者。

覆盖度 · 96/100 · 待补:来源

全球可用完整英文界面证据部分

Zhipu AI

Z.ai BigModel / GLM

4.4

Z.ai 现在有英文产品界面,而 BigModel 仍是完整 GLM 产品线的 API 证据来源。

最适合 · 适合对比中国多模态模型 API、智能体服务和 OpenAI 兼容迁移路径的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信

Zhipu AI

GLM Audio

3.9

音频已经是文档化的 GLM 能力家族,应在音频分类中可见。

最适合 · 适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信

Ant Group

Ant Ling

4.2

Ant Ling 已有足够英文产品、文档、价格和集成证据,应与 Qwen、DeepSeek、Kimi、GLM 一起跟踪。

最适合 · 适合评估中国模型 API 的开发者,尤其是长上下文、编程 Agent、推理模型和 OpenAI/Anthropic 兼容迁移场景。

覆盖度 · 100/100

部分地区可用完整英文界面可信

Ant Group

Ming

4.0

Ming 是 Ant Ling 的多模态分支,应与文本 Ling 和推理 Ring 分开跟踪。

最适合 · 适合跟踪中国开放全模态模型的团队,覆盖图文理解、视频分析、语音合成和图像生成。

覆盖度 · 100/100 · 待补:价格和支付

部分地区可用完整英文界面可信

MiniMax

MiniMax API Platform

4.4

国际文档显示 MiniMax 是完整多模态 API 平台,而不只是 Hailuo 视频产品。

最适合 · 适合希望在一个中国来源平台评估代码模型、语音、视频、图像、音乐和多模态智能体工具的开发者。

覆盖度 · 100/100

全球可用完整英文界面可信

MiniMax

MiniMax Audio / Speech

4.3

MiniMax Audio 值得单独成档,因为官方 API 文档覆盖了聊天模型之外较完整的语音产品线。

最适合 · 适合评估中国语音合成、声音克隆和多语言音频生成 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信

Meituan LongCat

LongCat-AudioDiT

4.2

LongCat-AudioDiT 应归入 AI 音频,因为它是公开代码和权重的 TTS / 语音克隆模型,而不只是普通论文。

最适合 · 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。

覆盖度 · 100/100 · 待补:时效

全球可用完整英文界面可信

MiniMax

MiniMax Music

4.2

MiniMax Music 是官方文档中独立的国际产品线,不应只隐藏在通用 API 档案里。

最适合 · 适合评估中国音乐生成 API,用于歌曲、翻唱和应用配乐的创作者与开发者。

覆盖度 · 100/100

全球可用完整英文界面可信

MiniMax

Talkie

4.0

Talkie 应纳入 MiniMax 国际产品图谱,因为官网将其列为产品,但它是消费者应用而不是 API 能力。

最适合 · 适合比较 MiniMax 消费者角色与陪伴式 AI 分发的用户。

覆盖度 · 100/100

部分地区可用完整英文界面可信

Baidu AI Cloud

ERNIE / Baidu Qianfan

4.1

百度已通过英文 ERNIE Blog 提供模型信息;当企业平台、Agent 编排和中国云部署重要时,千帆仍是主要平台。

最适合 · 适合已在评估百度智能云、中国本地部署、Agent 平台或文心多模态模型的企业和开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信

ByteDance / Volcano Engine

ByteDance Seed / Doubao Ark

4.2

ByteDance Seed 现在是完整模型组合,而不只是单一豆包 API 入口,因此应作为基础模型和模型平台家族跟踪。

最适合 · 适合对比字节 Seed 英文模型路线图与豆包/方舟商业 API 接入的开发者和团队。

覆盖度 · 100/100

部分地区可用完整英文界面可信

ByteDance / Volcano Engine

Seedance 2.0

4.4

Seedance 2.0 是 ByteDance Seed 的具名视频模型,提供了直接跟踪视频能力的方式,而不只依赖即梦或通用豆包/方舟。

最适合 · 适合对比具备多模态输入、音视频生成和 API 接入的中国视频模型的创作者与开发者。

覆盖度 · 100/100

部分地区可用完整英文界面可信

ByteDance / Volcano Engine

Seeduplex

3.9

Seeduplex 为 ByteDance Seed 补上独立语音交互档案,而不只是文本、图像和视频模型。

最适合 · 适合跟踪中国全双工语音模型、实时语音 Agent 和多模态交互研究的团队。

覆盖度 · 100/100 · 待补:价格和支付

部分地区可用完整英文界面可信

Skywork AI

Skywork

4.2

Skywork 应作为工作台平台跟踪,因为其公开界面围绕任务型 Agent 和输出格式组织,而不是单一通用聊天流程。

最适合 · 适合需要一个云端工作台来处理研究、写作、幻灯片、表格、网站和短内容输出的知识工作者。

覆盖度 · 100/100 · 待补:可用性信号

全球可用完整英文界面可信

iFlytek

SparkDesk / iFlytek Spark

4.0

星火在语音和垂直应用上很重要,但海外消费者就绪度仍有限。

最适合 · 适合评估中国语音 AI、教育、医疗或语音密集型助手工作流的团队。

覆盖度 · 98/100 · 待补:来源

部分地区可用部分英文界面证据部分

StepFun

StepFun / Step

4.3

阶跃星辰重要之处在于同时具备多模态模型深度、开源发布和终端商业化能力,但海外可用性仍需实测。

最适合 · 适合评估中国多模态模型、开源智能体模型、视频/语音生成或端侧 AI 合作的团队。

覆盖度 · 100/100

部分地区可用完整英文界面可信

StepFun

StepFun Open Platform

4.2

英文开放平台让阶跃星辰对海外开发者更可操作,而不只是公司档案。

最适合 · 适合对比中国模型 API 的开发者,尤其是文本、推理、工具调用、多模态生成和 OpenAI 兼容迁移。

覆盖度 · 100/100

部分地区可用完整英文界面可信

StepFun

StepAudio

4.1

StepAudio 是独立能力线,应在 AI Audio 分类中可见,而不是埋在通用 StepFun 档案里。

最适合 · 适合评估中国语音 API 的团队,尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

覆盖度 · 100/100 · 待补:时效

部分地区可用完整英文界面可信

Xiaomi MiMo

Xiaomi MiMo

4.5

MiMo 的意义在于小米正在通过 Web、API、AI Studio 和开源渠道提供英文模型平台。

最适合 · 适合对比中国智能体模型、多模态模型家族、语音模型、英文 Web Demo 和开源部署选项的开发者。

覆盖度 · 100/100

全球可用完整英文界面可信

Xiaomi MiMo

MiMo Speech Models

4.0

MiMo 已有足够英文语音产品信号,适合拆出独立音频档案。

最适合 · 适合关注小米语音栈,用于 ASR、TTS 和语音 Agent 实验的团队。

覆盖度 · 100/100 · 待补:价格和支付

部分地区可用完整英文界面可信

为什么这些工具匹配

Kling AI: Kling AI 相关,因为档案包含语音、音频、声音或音乐生成证据。

Qwen: Qwen 相关,因为档案包含语音、音频、声音或音乐生成证据。

Qwen Audio / CosyVoice: Qwen Audio / CosyVoice 相关,因为档案包含语音、音频、声音或音乐生成证据。

Qwen Cloud Token Plan: Qwen Cloud Token Plan 相关,因为档案包含语音、音频、声音或音乐生成证据。

Z.ai BigModel / GLM: Z.ai BigModel / GLM 相关,因为档案包含语音、音频、声音或音乐生成证据。

GLM Audio: GLM Audio 相关,因为档案包含语音、音频、声音或音乐生成证据。

Ant Ling: Ant Ling 相关,因为档案包含语音、音频、声音或音乐生成证据。

Ming: Ming 相关,因为档案包含语音、音频、声音或音乐生成证据。

MiniMax API Platform: MiniMax API Platform 相关,因为档案包含语音、音频、声音或音乐生成证据。

MiniMax Audio / Speech: MiniMax Audio / Speech 相关,因为档案包含语音、音频、声音或音乐生成证据。

LongCat-AudioDiT: LongCat-AudioDiT 相关,因为档案包含语音、音频、声音或音乐生成证据。

MiniMax Music: MiniMax Music 相关,因为档案包含语音、音频、声音或音乐生成证据。

Talkie: Talkie 相关,因为档案包含语音、音频、声音或音乐生成证据。

ERNIE / Baidu Qianfan: ERNIE / Baidu Qianfan 相关,因为档案包含语音、音频、声音或音乐生成证据。

ByteDance Seed / Doubao Ark: ByteDance Seed / Doubao Ark 相关,因为档案包含语音、音频、声音或音乐生成证据。

Seedance 2.0: Seedance 2.0 相关,因为档案包含语音、音频、声音或音乐生成证据。

Seeduplex: Seeduplex 相关,因为档案包含语音、音频、声音或音乐生成证据。

Skywork: Skywork 相关,因为档案包含语音、音频、声音或音乐生成证据。

SparkDesk / iFlytek Spark: SparkDesk / iFlytek Spark 相关,因为档案包含语音、音频、声音或音乐生成证据。

StepFun / Step: StepFun / Step 相关,因为档案包含语音、音频、声音或音乐生成证据。

StepFun Open Platform: StepFun Open Platform 相关,因为档案包含语音、音频、声音或音乐生成证据。

StepAudio: StepAudio 相关,因为档案包含语音、音频、声音或音乐生成证据。

Xiaomi MiMo: Xiaomi MiMo 相关,因为档案包含语音、音频、声音或音乐生成证据。

MiMo Speech Models: MiMo Speech Models 相关,因为档案包含语音、音频、声音或音乐生成证据。

所有使用场景