有多少工具匹配这个场景？

当前有 24 个工具匹配这个场景。

适合语音和音频的中国 AI 工具

Q: 有多少工具匹配这个场景？

当前有 24 个工具匹配这个场景。

中国 ASR、TTS、声音、音乐和实时音频产品，适合语音 Agent、配音、本地化和媒体工作流。

快速问答

一眼看懂

覆盖范围: 中国 ASR、TTS、声音、音乐和实时音频产品，适合语音 Agent、配音、本地化和媒体工作流。
匹配工具: 当前有 24 个工具匹配这个场景。
阅读方式: 优先选择有明确 ASR、TTS、声音克隆、音乐生成、实时音频或语音模型证据的产品。

判断标准

优先选择有明确 ASR、TTS、声音克隆、音乐生成、实时音频或语音模型证据的产品。

24 个匹配工具

Kuaishou

Kling AI

4.7

Kling 提供英文站和更完整的创意与 API 平台，不只限于文生视频生成。

最适合 · 适合希望使用全球可访问中国创意工作室的创作者、工作室和增长团队，覆盖视频、图像、声音、特效和 API 生成。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Card / Credits
核验: 5月19日
来源: 高可信
起价: Free tier, paid credits vary by region

查看产品

Alibaba Cloud

Qwen

4.6

Qwen Cloud 提供英文模型市场、文档、价格和兼容 API 路径，让 Qwen 的全球评估更清晰。

最适合 · 适合从英文国际平台评估 Qwen3.6、Qwen Cloud API、代码智能体和中国多模态模型覆盖的开发者。

覆盖度 · 100/100

全球可用部分英文界面可信公开 API免费增值

支付: Free web access / Qwen Cloud billing
核验: 5月20日
来源: 高可信
起价: Free tier, pay-as-you-go API usage and Token Plan subscriptions vary by model

查看产品

Alibaba Cloud

Qwen Audio / CosyVoice

4.2

Qwen Cloud 已有足够官方音频证据，值得单独放入音频分类。

最适合 · 适合通过英文平台评估中国语音合成、声音克隆、ASR 和实时语音 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Qwen Cloud billing / Token Plan where supported
核验: 5月17日
来源: 高可信
起价: Free tier and pay-as-you-go speech API billing vary by model

查看产品

Alibaba Cloud

Qwen Cloud Token Plan

4.0

Token Plan 是 Qwen Cloud 独立商业路径，会影响海外开发者实际消费模型的方式。

最适合 · 适合希望用订阅方式把 Qwen Cloud 接入代码工具和兼容智能体的开发者。

覆盖度 · 96/100 · 待补：来源

全球可用完整英文界面证据部分公开 API付费

支付: Token Plan subscription / Qwen Cloud billing
核验: 5月17日
来源: 中等可信
起价: Standard, Pro and Max Token Plan tiers; plan prices and quotas should be checked live

查看产品

Zhipu AI

Z.ai BigModel / GLM

4.4

Z.ai 现在有英文产品界面，而 BigModel 仍是完整 GLM 产品线的 API 证据来源。

最适合 · 适合对比中国多模态模型 API、智能体服务和 OpenAI 兼容迁移路径的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信公开 API免费增值

支付: Free trial tokens / Platform billing
核验: 5月17日
来源: 高可信
起价: 20 million free tokens are promoted on the English site; model pricing varies by API

查看产品

Zhipu AI

GLM Audio

3.9

音频已经是文档化的 GLM 能力家族，应在音频分类中可见。

最适合 · 适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信公开 API免费增值

支付: Free model where available / Platform billing
核验: 5月17日
来源: 高可信
起价: Usage-based audio API pricing varies by model

查看产品

Ant Group

Ant Ling

4.2

Ant Ling 已有足够英文产品、文档、价格和集成证据，应与 Qwen、DeepSeek、Kimi、GLM 一起跟踪。

最适合 · 适合评估中国模型 API 的开发者，尤其是长上下文、编程 Agent、推理模型和 OpenAI/Anthropic 兼容迁移场景。

覆盖度 · 100/100

部分地区可用完整英文界面可信公开 API免费增值

支付: Free daily quota / Pay-as-you-go API billing
核验: 5月17日
来源: 高可信
起价: 500,000 free tokens daily per account; Ling-2.6-flash starts at ¥0.60 input / ¥1.80 output per 1M tokens; Ling-2.6-1T starts at ¥2.00 input / ¥16.00 output per 1M tokens

查看产品

Ant Group

Ming

4.0

Ming 是 Ant Ling 的多模态分支，应与文本 Ling 和推理 Ring 分开跟踪。

最适合 · 适合跟踪中国开放全模态模型的团队，覆盖图文理解、视频分析、语音合成和图像生成。

覆盖度 · 100/100 · 待补：价格和支付

部分地区可用完整英文界面可信受限 API未知

支付: Ant Ling API billing where available / Open-source model access where available
核验: 5月17日
来源: 高可信
起价: Ming pricing and API availability should be verified from current Ant Ling console and model docs

查看产品

MiniMax

MiniMax API Platform

4.4

国际文档显示 MiniMax 是完整多模态 API 平台，而不只是 Hailuo 视频产品。

最适合 · 适合希望在一个中国来源平台评估代码模型、语音、视频、图像、音乐和多模态智能体工具的开发者。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Token Plan / Credits
核验: 5月17日
来源: 高可信
起价: Token Plan, Credits and pay-as-you-go API billing vary by modality and model

查看产品

MiniMax

MiniMax Audio / Speech

4.3

MiniMax Audio 值得单独成档，因为官方 API 文档覆盖了聊天模型之外较完整的语音产品线。

最适合 · 适合评估中国语音合成、声音克隆和多语言音频生成 API 的团队。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Audio Subscription / Token Plan
核验: 5月17日
来源: 高可信
起价: Audio Subscription, Token Plan quotas, Credits and pay-as-you-go billing vary by model

查看产品

Meituan LongCat

LongCat-AudioDiT

4.2

LongCat-AudioDiT 应归入 AI 音频，因为它是公开代码和权重的 TTS / 语音克隆模型，而不只是普通论文。

最适合 · 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。

覆盖度 · 100/100 · 待补：时效

全球可用完整英文界面可信受限 API免费

支付: GitHub repository / Model weights download
核验: 5月18日
来源: 高可信
起价: Open-source MIT repository and released model weights; inference runs locally or through a Hugging Face-compatible workflow

查看产品

MiniMax

MiniMax Music

4.2

MiniMax Music 是官方文档中独立的国际产品线，不应只隐藏在通用 API 档案里。

最适合 · 适合评估中国音乐生成 API，用于歌曲、翻唱和应用配乐的创作者与开发者。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Token Plan / Credits
核验: 5月17日
来源: 高可信
起价: Token Plan music quotas, Credits and pay-as-you-go billing vary by model

查看产品

MiniMax

Talkie

4.0

Talkie 应纳入 MiniMax 国际产品图谱，因为官网将其列为产品，但它是消费者应用而不是 API 能力。

最适合 · 适合比较 MiniMax 消费者角色与陪伴式 AI 分发的用户。

覆盖度 · 100/100

部分地区可用完整英文界面可信暂无 API免费增值

支付: App billing / Free access where available
核验: 5月17日
来源: 高可信
起价: Consumer app pricing may vary by region

查看产品

Baidu AI Cloud

ERNIE / Baidu Qianfan

4.1

百度已通过英文 ERNIE Blog 提供模型信息；当企业平台、Agent 编排和中国云部署重要时，千帆仍是主要平台。

最适合 · 适合已在评估百度智能云、中国本地部署、Agent 平台或文心多模态模型的企业和开发者。

覆盖度 · 100/100

部分地区可用部分英文界面可信公开 API付费

支付: Baidu Cloud billing
核验: 5月17日
来源: 高可信
起价: Baidu Cloud usage-based pricing

查看产品

ByteDance / Volcano Engine

ByteDance Seed / Doubao Ark

4.2

ByteDance Seed 现在是完整模型组合，而不只是单一豆包 API 入口，因此应作为基础模型和模型平台家族跟踪。

最适合 · 适合对比字节 Seed 英文模型路线图与豆包/方舟商业 API 接入的开发者和团队。

覆盖度 · 100/100

部分地区可用完整英文界面可信公开 API付费

支付: Volcano Engine billing
核验: 5月17日
来源: 高可信
起价: Volcano Engine usage-based pricing

查看产品

ByteDance / Volcano Engine

Seedance 2.0

4.4

Seedance 2.0 是 ByteDance Seed 的具名视频模型，提供了直接跟踪视频能力的方式，而不只依赖即梦或通用豆包/方舟。

最适合 · 适合对比具备多模态输入、音视频生成和 API 接入的中国视频模型的创作者与开发者。

覆盖度 · 100/100

部分地区可用完整英文界面可信公开 API付费

支付: BytePlus billing / Volcano Engine billing
核验: 5月17日
来源: 高可信
起价: API and Try Now access are linked from the official page; pricing should be checked in BytePlus or Volcano Engine

查看产品

ByteDance / Volcano Engine

Seeduplex

3.9

Seeduplex 为 ByteDance Seed 补上独立语音交互档案，而不只是文本、图像和视频模型。

最适合 · 适合跟踪中国全双工语音模型、实时语音 Agent 和多模态交互研究的团队。

覆盖度 · 100/100 · 待补：价格和支付

部分地区可用完整英文界面可信受限 API未知

支付: BytePlus billing / Volcano Engine billing
核验: 5月17日
来源: 高可信
起价: Voice model access and pricing should be verified through BytePlus or Volcano Engine

查看产品

Skywork AI

Skywork

4.2

Skywork 应作为工作台平台跟踪，因为其公开界面围绕任务型 Agent 和输出格式组织，而不是单一通用聊天流程。

最适合 · 适合需要一个云端工作台来处理研究、写作、幻灯片、表格、网站和短内容输出的知识工作者。

覆盖度 · 100/100 · 待补：可用性信号

全球可用完整英文界面可信未知免费增值

支付: Free plan / Paid tiers
核验: 5月22日
来源: 高可信
起价: Free plan available; paid tiers vary by product

查看产品

iFlytek

SparkDesk / iFlytek Spark

4.0

星火在语音和垂直应用上很重要，但海外消费者就绪度仍有限。

最适合 · 适合评估中国语音 AI、教育、医疗或语音密集型助手工作流的团队。

覆盖度 · 98/100 · 待补：来源

部分地区可用部分英文界面证据部分公开 API免费增值

支付: Alipay / WeChat Pay
核验: 5月14日
来源: 中等可信
起价: Spark Lite free, paid token pricing varies by model

查看产品

StepFun

StepFun / Step

4.3

阶跃星辰重要之处在于同时具备多模态模型深度、开源发布和终端商业化能力，但海外可用性仍需实测。

最适合 · 适合评估中国多模态模型、开源智能体模型、视频/语音生成或端侧 AI 合作的团队。

覆盖度 · 100/100

部分地区可用完整英文界面可信公开 API付费

支付: Platform billing / Step Plan
核验: 5月29日
来源: 高可信
起价: Usage-based API and Step Plan subscription paths

查看产品

StepFun

StepFun Open Platform

4.2

英文开放平台让阶跃星辰对海外开发者更可操作，而不只是公司档案。

最适合 · 适合对比中国模型 API 的开发者，尤其是文本、推理、工具调用、多模态生成和 OpenAI 兼容迁移。

覆盖度 · 100/100

部分地区可用完整英文界面可信公开 API付费

支付: Account balance / Free credit first
核验: 5月29日
来源: 高可信
起价: Reasoning models start at $0.10 input cache miss / $0.02 cache hit / $0.30 output per 1M tokens; image editing is $0.003 per image

查看产品

StepFun

StepAudio

4.1

StepAudio 是独立能力线，应在 AI Audio 分类中可见，而不是埋在通用 StepFun 档案里。

最适合 · 适合评估中国语音 API 的团队，尤其是表现力 TTS、声音克隆、配音、客服、NPC 对话和转写。

覆盖度 · 100/100 · 待补：时效

部分地区可用完整英文界面可信公开 API付费

支付: Open Platform balance / Step Plan quota for supported audio models
核验: 5月17日
来源: 高可信
起价: stepaudio-2.5-tts $0.85 / 10,000 characters; step-tts-2 $0.40 / 10,000 characters; ASR $0.022 / hour; voice cloning $1.50 / voice

查看产品

Xiaomi MiMo

4.5

MiMo 的意义在于小米正在通过 Web、API、AI Studio 和开源渠道提供英文模型平台。

最适合 · 适合对比中国智能体模型、多模态模型家族、语音模型、英文 Web Demo 和开源部署选项的开发者。

覆盖度 · 100/100

全球可用完整英文界面可信公开 API免费增值

支付: Card / Web Demo
核验: 5月17日
来源: 高可信
起价: MiMo-V2-Flash blog lists $0.1 input / $0.3 output per 1M tokens; V2.5 model pricing should be checked inside the API platform

查看产品

Xiaomi MiMo

MiMo Speech Models

4.0

MiMo 已有足够英文语音产品信号，适合拆出独立音频档案。

最适合 · 适合关注小米语音栈，用于 ASR、TTS 和语音 Agent 实验的团队。

覆盖度 · 100/100 · 待补：价格和支付

部分地区可用完整英文界面可信受限 API未知

支付: API Platform billing / AI Studio
核验: 5月17日
来源: 高可信
起价: Speech-model pricing not publicly visible on the English homepage; verify inside MiMo API Platform

查看产品

为什么这些工具匹配

Kling AI: Kling AI 相关，因为档案包含语音、音频、声音或音乐生成证据。

Qwen: Qwen 相关，因为档案包含语音、音频、声音或音乐生成证据。

Qwen Audio / CosyVoice: Qwen Audio / CosyVoice 相关，因为档案包含语音、音频、声音或音乐生成证据。

Qwen Cloud Token Plan: Qwen Cloud Token Plan 相关，因为档案包含语音、音频、声音或音乐生成证据。

Z.ai BigModel / GLM: Z.ai BigModel / GLM 相关，因为档案包含语音、音频、声音或音乐生成证据。

GLM Audio: GLM Audio 相关，因为档案包含语音、音频、声音或音乐生成证据。

Ant Ling: Ant Ling 相关，因为档案包含语音、音频、声音或音乐生成证据。

Ming: Ming 相关，因为档案包含语音、音频、声音或音乐生成证据。

MiniMax API Platform: MiniMax API Platform 相关，因为档案包含语音、音频、声音或音乐生成证据。

MiniMax Audio / Speech: MiniMax Audio / Speech 相关，因为档案包含语音、音频、声音或音乐生成证据。

LongCat-AudioDiT: LongCat-AudioDiT 相关，因为档案包含语音、音频、声音或音乐生成证据。

MiniMax Music: MiniMax Music 相关，因为档案包含语音、音频、声音或音乐生成证据。

Talkie: Talkie 相关，因为档案包含语音、音频、声音或音乐生成证据。

ERNIE / Baidu Qianfan: ERNIE / Baidu Qianfan 相关，因为档案包含语音、音频、声音或音乐生成证据。

ByteDance Seed / Doubao Ark: ByteDance Seed / Doubao Ark 相关，因为档案包含语音、音频、声音或音乐生成证据。

Seedance 2.0: Seedance 2.0 相关，因为档案包含语音、音频、声音或音乐生成证据。

Seeduplex: Seeduplex 相关，因为档案包含语音、音频、声音或音乐生成证据。

Skywork: Skywork 相关，因为档案包含语音、音频、声音或音乐生成证据。

SparkDesk / iFlytek Spark: SparkDesk / iFlytek Spark 相关，因为档案包含语音、音频、声音或音乐生成证据。

StepFun / Step: StepFun / Step 相关，因为档案包含语音、音频、声音或音乐生成证据。

StepFun Open Platform: StepFun Open Platform 相关，因为档案包含语音、音频、声音或音乐生成证据。

StepAudio: StepAudio 相关，因为档案包含语音、音频、声音或音乐生成证据。

Xiaomi MiMo: Xiaomi MiMo 相关，因为档案包含语音、音频、声音或音乐生成证据。

MiMo Speech Models: MiMo Speech Models 相关，因为档案包含语音、音频、声音或音乐生成证据。

所有使用场景