Meituan LongCat
LongCat-AudioDiT
LongCat-AudioDiT 是美团 LongCat 团队发布的开源权重扩散式文本转语音模型。仓库和论文将其描述为非自回归 TTS 系统,直接在 waveform latent space 上工作,而不是使用 mel-spectrogram,从而减少流水线复杂度和误差累积。推理路径结合 waveform VAE 和 diffusion backbone,修正训练-推理不一致,并使用 adaptive projection guidance 替代传统 classifier-free guidance。仓库公开代码和模型权重供研究使用,提供 Hugging Face 兼容实现和推理脚本,并在 Seed benchmark 上报告了零样本文本语音克隆的 SOTA 结果。最大的 LongCat-AudioDiT-3.5B 模型据称在 Seed-ZH 和 Seed-Hard 上的 speaker similarity 优于此前的 Seed-TTS 基线。
快速问答
一眼看懂
- 概览
- 美团 LongCat 开源权重的扩散式 TTS 模型,直接在 waveform latent space 中工作,用于高保真语音克隆。
- 适合谁
- 适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。
- 可信度
- 2/2 个来源已核验,且最近核验 · 2026-05-18
- 覆盖度
- 100/100 · 待补:时效
编辑结论
适合
适合评估开源 TTS、waveform-latent diffusion 和零样本语音克隆的研究者与语音团队。
谨慎使用
在验证运行时、权利和部署约束前,不应把它当成开箱即用的生产语音平台。
核心原因
LongCat-AudioDiT 应归入 AI 音频,因为它是公开代码和权重的 TTS / 语音克隆模型,而不只是普通论文。
价格
Open-source MIT repository and released model weights; inference runs locally or through a Hugging Face-compatible workflow
Payment
GitHub repository, Model weights download, Local inference, Hugging Face-compatible workflow
Commercial use
仓库采用 MIT,但声音克隆权利、模型权重和生成音频使用仍需明确审查。
Privacy
生产使用前应核验提示音频处理、保留的声音样本和生成音频存储。
适用场景
零样本语音克隆
强当需要用提示音频加文本复现说话人风格和相似度时评估。
研究型 TTS 评测
强适合对比 Seed-TTS、CosyVoice、Qwen3-TTS 和 MiniMax 语音基线。
开源语音栈实验
中可利用模型和脚本研究 waveform-latent diffusion 推理和 guidance 方法。
全球用户决策清单
Pros
- - 直接 waveform latent diffusion TTS 流程更简化
- - 在 Seed benchmark 上报告零样本语音克隆 SOTA
- - 代码、模型权重和推理脚本公开
Cons
- - 它是研究模型,不是托管语音 API
- - 生产使用仍依赖本地 GPU 容量、推理调参和许可证审查
- - 声音克隆和生成音频使用仍需授权审查
决策路径
minimax-audio
stepaudio
qwen-audio
zhipu-glm-audio
Sources
official · en · verified 2026-05-18
确认仓库名称、MIT 许可证、模型描述、Seed benchmark 结果、代码与权重发布和推理用法。
docs · en · verified 2026-05-18
用于 waveform-latent diffusion、APG guidance 和测试声明的论文来源。