Zhipu AI

GLM Audio

BigModel 模型概览在音视频模型下列出 GLM-TTS、GLM-TTS-Clone、GLM-ASR、GLM-Realtime 和 GLM-4-Voice,覆盖语音合成、音色克隆、语音识别和实时音视频交互。

部分地区可用部分英文界面公开 API免费增值可信

快速问答

一眼看懂

概览
Z.ai 的音频与实时多模态 API 家族,包含 GLM-TTS、音色克隆、ASR、Realtime 和 GLM-4-Voice。
适合谁
适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。
可信度
2/2 个来源已核验,且最近核验 · 2026-05-17
覆盖度
100/100

编辑结论

适合

适合评估中国语音、音色克隆、ASR 和实时多模态 API 的开发者。

谨慎使用

未完成授权和数据保留审查前,不应生产使用音色克隆。

核心原因

音频已经是文档化的 GLM 能力家族,应在音频分类中可见。

价格

Usage-based audio API pricing varies by model

Payment

Free model where available, Platform billing

Commercial use

商用应遵守当前产品、API、模型许可证和计费条款。

Privacy

处理敏感负载前,请核验提示词、文件、媒体上传、保留和训练使用条款。

适用场景

语音与实时 API 评估

用于测试 TTS、音色克隆、ASR 和实时音视频调用。

全球用户决策清单

注册部分接入取决于 BigModel 账号与地区。
英文界面部分详细音频文档面向中文。
API 与文档已确认文档索引列出文本转语音、音色克隆、ASR 和实时 API。
商用需核验真人声音使用需要声音权利和授权。
覆盖度 · 100/100

模型名称、额度、发布状态、区域接入和商用条款变化较快,采购或生产使用前请重新核验官方来源。

Pros

  • - 语音合成、克隆、ASR 和实时模型均有文档
  • - 可补足 GLM 聊天和视觉 API

Cons

  • - 声音授权和区域接入需明确核验

决策路径

minimax-audio

sparkdesk

zhipu-glm

Sources

BigModel model overview

docs · zh · verified 2026-05-17

列出 GLM-TTS、GLM-TTS-Clone、GLM-ASR、GLM-Realtime 和 GLM-4-Voice。

BigModel docs index

docs · zh · verified 2026-05-17

列出语音、音色克隆、ASR 和实时 API 文档入口。

评论