A Conversational Speech Generation Model | 𝖲𝗈𝗆𝖾𝗍𝗁𝗂𝗇𝗀𝗔𝗜

💬A Conversational Speech Generation Model

type

status

slug

summary

category

icon

password

Date

2025/03/13 - 我们发布 1B CSM 变体。检查点托管在 Hugging Face 上。

CSM（对话语音模型）是Sesame推出的语音生成模型，可根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干和可生成 Mimi音频代码的小型音频解码器。

经过微调的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。

托管的Hugging Face 空间也可用于测试音频生成。

要求

可能需要

设置

Windows 安装程序

该triton包无法安装在 Windows 中。请改用pip install triton-windows。

用法

生成句子

Segment提供语境时，CSM 听起来效果最佳。您可以使用每个说话者的话语提示或为模型提供语境。

常问问题

这个型号有声音吗？

此处开源的模型是一个基础生成模型，可以生成多种声音，但并未针对某一特定声音进行微调。

我可以和模特交谈吗？

CSM 被训练为音频生成模型，而不是通用的多模态 LLM。它无法生成文本。我们建议使用单独的 LLM 进行文本生成。

它支持其他语言吗？

由于训练数据中的数据污染，该模型对非英语语言具有一定的能力，但效果可能不会很好。

误用和滥用⚠️

该项目为研究和教育目的提供了高质量的语音生成模型。虽然我们鼓励负责任和合乎道德的使用，但我们明确禁止以下行为：

：未经本人明确同意，请勿使用此模型生成模仿真实个人的语音。

：请勿使用此模型创建欺骗性或误导性内容，例如虚假新闻或欺诈电话。

：请勿将此模型用于任何非法、有害或恶意的目的。

使用此模型即表示您同意遵守所有适用法律和道德准则。我们对任何滥用行为概不负责，并强烈谴责不道德地应用此技术的行为。

作者

Johan Schalkwyk、Ankit Kumar、Dan Lyth、Sefik Emre Eskimez、Zack Hodari、Cinjon Resnick、Ramon Sanabria、Raven Jiang 和芝麻团队。