Z.ai 的音频与实时多模态 API 家族，包含 GLM-TTS、音色克隆、ASR、Realtime 和 GLM-4-Voice。

GLM Audio 英文界面与 API

英文界面: partial · API: available

Zhipu AI

GLM Audio

Name: GLM Audio
Price: Usage-based audio API pricing varies by model
Availability: LimitedAvailability
Rating: 3.9 (0 reviews)

BigModel 模型概览在音视频模型下列出 GLM-TTS、GLM-TTS-Clone、GLM-ASR、GLM-Realtime 和 GLM-4-Voice，覆盖语音合成、音色克隆、语音识别和实时音视频交互。

部分地区可用部分英文界面公开 API免费增值可信

快速问答

一眼看懂

概览: Z.ai 的音频与实时多模态 API 家族，包含 GLM-TTS、音色克隆、ASR、Realtime 和 GLM-4-Voice。
适合谁: 适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。
可信度: 2/2 个来源已核验，且最近核验 · 2026-05-17
覆盖度: 100/100

编辑结论

适合

适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

谨慎使用

未完成授权和数据保留审查前，不应生产使用音色克隆。

核心原因

音频已经是文档化的 GLM 能力家族，应在音频分类中可见。

价格

Usage-based audio API pricing varies by model

Payment

Free model where available, Platform billing

Commercial use

商用应遵守当前产品、API、模型许可证和计费条款。

Privacy

处理敏感负载前，请核验提示词、文件、媒体上传、保留和训练使用条款。

适用场景

语音与实时 API 评估

强

用于测试 TTS、音色克隆、ASR 和实时音视频调用。

全球用户决策清单

注册部分接入取决于 BigModel 账号与地区。

英文界面部分详细音频文档面向中文。

API 与文档已确认文档索引列出文本转语音、音色克隆、ASR 和实时 API。

商用需核验真人声音使用需要声音权利和授权。

覆盖度 · 100/100

模型名称、额度、发布状态、区域接入和商用条款变化较快，采购或生产使用前请重新核验官方来源。

Pros

- 语音合成、克隆、ASR 和实时模型均有文档
- 可补足 GLM 聊天和视觉 API

Cons

- 声音授权和区域接入需明确核验

决策路径

minimax-audio

sparkdesk

zhipu-glm

Sources

BigModel model overview

docs · zh · verified 2026-05-17

列出 GLM-TTS、GLM-TTS-Clone、GLM-ASR、GLM-Realtime 和 GLM-4-Voice。

BigModel docs index