情绪模拟
LLM
Avatar
硬件
多模态
视频
RAG
音频
音乐
Infra
图像
机器人
💬A Conversational Speech Generation Model
type
status
slug
summary
tags
category
icon
password
Date
2025/03/13 - 我们发布 1B CSM 变体。检查点托管在 Hugging Face 上。
托管的Hugging Face 空间也可用于测试音频生成。
要求
- 兼容 CUDA 的 GPU
- 该代码已在 CUDA 12.4 和 12.6 上测试过,但也可能适用于其他版本
- 同样,建议使用 Python 3.10,但较新版本也可以
- 对于某些音频操作,
ffmpeg
可能需要
设置
Windows 安装程序
该
triton
包无法安装在 Windows 中。请改用pip install triton-windows
。用法
生成句子
Segment
提供语境时,CSM 听起来效果最佳。您可以使用每个说话者的话语提示或为模型提供语境。常问问题
这个型号有声音吗?
此处开源的模型是一个基础生成模型,可以生成多种声音,但并未针对某一特定声音进行微调。
我可以和模特交谈吗?
CSM 被训练为音频生成模型,而不是通用的多模态 LLM。它无法生成文本。我们建议使用单独的 LLM 进行文本生成。
它支持其他语言吗?
由于训练数据中的数据污染,该模型对非英语语言具有一定的能力,但效果可能不会很好。
误用和滥用⚠️
该项目为研究和教育目的提供了高质量的语音生成模型。虽然我们鼓励负责任和合乎道德的使用,但我们明确禁止以下行为:
- 冒充或欺诈
:未经本人明确同意,请勿使用此模型生成模仿真实个人的语音。
- 错误信息或欺骗
:请勿使用此模型创建欺骗性或误导性内容,例如虚假新闻或欺诈电话。
- 非法或有害活动
:请勿将此模型用于任何非法、有害或恶意的目的。
使用此模型即表示您同意遵守所有适用法律和道德准则。我们对任何滥用行为概不负责,并强烈谴责不道德地应用此技术的行为。
作者
Johan Schalkwyk、Ankit Kumar、Dan Lyth、Sefik Emre Eskimez、Zack Hodari、Cinjon Resnick、Ramon Sanabria、Raven Jiang 和芝麻团队。
csm
SesameAILabs • Updated Mar 18, 2025