LongCat-AudioDiT 概览

美团 LongCat 开源权重的扩散式 TTS 模型，直接在 waveform latent space 中工作，用于高保真语音克隆。

LongCat-AudioDiT 英文界面与 API

英文界面: full · API: limited

Meituan LongCat

LongCat-AudioDiT

Name: LongCat-AudioDiT
Price: Open-source MIT repository and released model weights; inference runs locally or through a Hugging Face-compatible workflow
Availability: InStock
Rating: 4.2 (0 reviews)

LongCat-AudioDiT 是美团 LongCat 团队发布的开源权重扩散式文本转语音模型。仓库和论文将其描述为非自回归 TTS 系统，直接在 waveform latent space 上工作，而不是使用 mel-spectrogram，从而减少流水线复杂度和误差累积。推理路径结合 waveform VAE 和 diffusion backbone，修正训练-推理不一致，并使用 adaptive projection guidance 替代传统 classifier-free guidance。仓库公开代码和模型权重供研究使用，提供 Hugging Face 兼容实现和推理脚本，并在 Seed benchmark 上报告了零样本文本语音克隆的 SOTA 结果。最大的 LongCat-AudioDiT-3.5B 模型据称在 Seed-ZH 和 Seed-Hard 上的 speaker similarity 优于此前的 Seed-TTS 基线。

全球可用完整英文界面受限 API免费可信

快速问答

一眼看懂

概览: 美团 LongCat 开源权重的扩散式 TTS 模型，直接在 waveform latent space 中工作，用于高保真语音克隆。
适合谁: 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。
可信度: 2/2 个来源已核验，且最近核验 · 2026-05-18
覆盖度: 100/100 · 待补：时效

编辑结论

适合

适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。

谨慎使用

在验证运行时、权利和部署约束前，不应把它当成开箱即用的生产语音平台。

核心原因

LongCat-AudioDiT 应归入 AI 音频，因为它是公开代码和权重的 TTS / 语音克隆模型，而不只是普通论文。

价格

Open-source MIT repository and released model weights; inference runs locally or through a Hugging Face-compatible workflow

Payment

GitHub repository, Model weights download, Local inference, Hugging Face-compatible workflow

Commercial use

仓库采用 MIT，但声音克隆权利、模型权重和生成音频使用仍需明确审查。

Privacy

生产使用前应核验提示音频处理、保留的声音样本和生成音频存储。

适用场景

零样本语音克隆

强

当需要用提示音频加文本复现说话人风格和相似度时评估。

研究型 TTS 评测

强

适合对比 Seed-TTS、CosyVoice、Qwen3-TTS 和 MiniMax 语音基线。

开源语音栈实验

中

可利用模型和脚本研究 waveform-latent diffusion 推理和 guidance 方法。

全球用户决策清单

注册已确认GitHub 仓库和已发布权重公开。

英文界面已确认仓库 README 和论文材料面向英文用户。

API 与文档部分有推理脚本和 HF 兼容用法，但没有托管 API。

商用需核验仓库采用 MIT，但模型权重、声音权利和部署使用仍需单独审查。

数据与隐私条款需核验声音克隆和提示音频处理需要授权和保留审查。

覆盖度 · 100/100 · 待补：时效

Pros

- 直接 waveform latent diffusion TTS 流程更简化
- 在 Seed benchmark 上报告零样本语音克隆 SOTA
- 代码、模型权重和推理脚本公开

Cons

- 它是研究模型，不是托管语音 API
- 生产使用仍依赖本地 GPU 容量、推理调参和许可证审查
- 声音克隆和生成音频使用仍需授权审查

决策路径

minimax-audio

stepaudio

qwen-audio

zhipu-glm-audio

Sources

LongCat-AudioDiT GitHub repository

official · en · verified 2026-05-18

确认仓库名称、MIT 许可证、模型描述、Seed benchmark 结果、代码与权重发布和推理用法。

LongCat-AudioDiT paper PDF

docs · en · verified 2026-05-18

用于 waveform-latent diffusion、APG guidance 和测试声明的论文来源。