4B参数，开源，追平ElevenLabs：TTS的ChatGPT时刻来了

詹叔 · 2026年06月06日

输入同一句话：「我没料到会这样。」

加上emotion_elation，它听起来像中了大奖。加上emotion_sadness，像在葬礼上说话。加上emotion_anger，像刚被踩了脚。加上se_sigh，它先叹一口气，再缓缓开口。

同一句话，四种灵魂。

这不是TTS。这是一个4B参数的”声音演员”。

2026年6月5日，Boson AI在HuggingFace上发布了Higgs Audio v3。模型卡挂上去当天就冲上了Hacker News热榜。朋友圈里做语音的人都在转，但大部分人还没意识到这件事的重量。

让我说清楚。

4B参数，102种语言

先看硬件账面。

Higgs v3的架构并不复杂：约4B参数的自回归解码器，总参数量5B，BF16精度，36层Transformer，隐藏维度2560，GQA 32/8。音频编码用的是8个codebook，每个1026词表大小，delay pattern，24kHz采样率，25fps帧率，上下文8192 tokens。

这些数字单独看没什么意思。但把它们放在一起，你会发现一件诡异的事——它只用了4B参数，就覆盖了102种语言。

具体分两个梯队：Tier 1有85种语言，WER/CER低于5，达到生产级可用；Tier 2有17种语言，WER/CER在5到10之间，基本可用。也就是说，地球上绝大多数主流语言，它都能说，而且说得不错。

零样本语音克隆也保留了。不需要微调，给一段参考音频，直接克隆音色。

但真正让这件事变得震撼的，是和v2的对比。

Higgs v2是2025年7月发布的。训练数据上千万小时语音，已经支持多语言、情感表达、零样本克隆、多人对话、背景音乐同步生成。当时业内评价很高。但它的硬伤也很明显：语言覆盖太窄，主要就中英韩等几种。

这个短板有多致命？在Higgs团队自己构建的Higgs-Multilingual benchmark（覆盖111种语言）上，v2的CER是52.24。这意味着一半以上的字符都是错的——根本没法用。

v3呢？同一个benchmark，CER降到了3.61。

从52.24到3.61。这不是迭代，这是一代人的跨度。

v2已经很好，但语言覆盖是硬伤。v3直接把这个短板补成了长板。

21种情绪，9种音效，一句台词演四场戏

但Higgs v3真正重要的创新，不是”更多语言”。

而是一个叫inline control token的系统。

简单说，它定义了一套完整的”表演语言”——21种情绪token、3种风格token、9种音效token，加上韵律控制参数。你可以把它们像标记语言一样，直接插在文本里任意位置。

21种情绪包括：elation（狂喜）、amusement（愉悦）、enthusiasm（热情）、determination（坚定）、anger（愤怒）、fear（恐惧）、sadness（悲伤）、contentment（满足）、affection（柔情）、contemplation（沉思）、surprise（惊讶）、disgust（厌恶）、shame（羞耻）、helplessness（无助）、pride（骄傲）、relief（释然）、confusion（困惑）、awe（敬畏）、longing（渴望）、arousal（激动）、bitterness（苦涩）。

3种风格：singing（唱歌）、shouting（喊叫）、whispering（耳语）。

9种音效：cough（咳嗽）、laughter（笑）、crying（哭）、screaming（尖叫）、burping（打嗝）、humming（哼唱）、sigh（叹气）、sniff（抽鼻）、sneeze（打喷嚏）。

韵律控制更细：速度分4档（极慢约0.65倍、慢约0.85倍、快约1.2倍、极快约1.4倍），音高2档（低约-3半音、高约+2.5半音），暂停2档（短停400-700ms、长停700-1500ms），表现力2档。

关键来了：所有这些token，都可以在句子中间插入。

这意味着什么？

意味着你可以写这样一段文本——

[emotion_calm] 我一直觉得这件事没什么大不了的。 [pause] [emotion_anger] 但你刚才说的那句话， [speed_fast] 真的太过分了。 [long_pause] [emotion_sadness] [se_sigh] 我没料到会这样。

一句话的情绪从平静到愤怒再到悲伤，中间还有叹气。这不是文本转语音，这是文本转表演。

对比一下目前的市场。OpenAI的gpt-4o内置TTS确实有情绪，但它的情绪是模型”自己判断”的——你无法精确控制某个词用哪种情绪说。ElevenLabs有情绪控制，但语言覆盖窄，而且是闭源付费。Fish Audio的S2 Pro半开源，情绪控制有限。

Higgs v3做的事情，是把”情绪”从黑盒变成了白盒。你写什么，它演什么。像导演给演员讲戏一样精确。

开源正在瓦解闭源的护城河

把视线拉远一点，看看TTS赛道的竞争格局。

闭源阵营的旗帜是ElevenLabs——付费API，声音质量极高，情绪控制有但有限，语言覆盖是短板。半开源阵营有Fish Audio的S2 Pro，可自部署但核心模型不完全开放。开源阵营有阿里的Qwen3-TTS，但多语言能力差距明显。

Higgs v3把格局搅乱了。

看benchmark数据（WER/CER×100，越低越好）：

英语基准SeedTTS上，Higgs v3得分1.11，Qwen3-TTS 1.30，Fish S2 Pro 1.31。领先幅度不算大，但确实是最优。

多语言才是碾压局。Higgs-Multilingual benchmark（111种语言），Higgs v3得分3.61，Fish S2 Pro 8.68，MOSS-TTS 21.28，IndexTTS-2 57.71。而Qwen3-TTS？97.09。差了将近27倍。

这不是竞争对手。这是不同时代的产品。

更值得注意的是，SGLang-Omni团队在6月4日就宣布完成了Higgs v3的端到端Serving支持。SGLang是目前广泛采用的开源推理框架，这意味着Higgs v3发布第一天，就已经可以跑在成熟的推理服务上，直接用于实时语音助手场景。

站在这个模型背后的Boson AI也值得关注。2023年，李沐和Alex Smola共同创立了这家公司。两位都来自亚马逊——李沐是深度学习框架MXNet的作者、《动手学深度学习》的合著者，在亚马逊任资深首席科学家；Smola是李沐的博士导师，机器学习领域的学术大牛，曾任亚马逊机器学习总监。他们选择的方向很明确：大模型时代的系统与基础设施创新。

这让我想起了一件事。

大语言模型的发展史，正在TTS领域重演。

2022年底ChatGPT发布的时候，开源阵营一片恐慌。GPT-4、Claude、Gemini这些闭源模型似乎遥不可及。但Llama来了，Mistral来了，Qwen来了。开源模型用更小的参数量、更快的迭代速度，一步步逼近甚至超越闭源产品的水平。今天，开源7B模型在日常任务上的表现已经不输闭源旗舰。

TTS正在走同样的路。

ElevenLabs们的护城河，正在从技术变成品牌和生态。当开源模型在声音质量、情绪控制、语言覆盖三个维度同时追平甚至超越闭源产品，付费API的竞争力就只剩下了”省事”——对不想自己部署的企业来说，这当然有价值。但对整个行业而言，技术民主化的车轮已经转起来了。

语音AI的GPT时刻

让我们再往深处想一步。

回顾大语言模型的突破，GPT之所以重要，不是因为它的参数最大。参数最大的模型从来不是最成功的。GPT的突破在于它”涌现”了理解能力——当模型大到一定程度，它开始能理解指令、做推理、甚至展现出某种”智能”。这种涌现能力改变了所有人对AI的认知。

Higgs v3的突破，也不是因为它的声音最像真人。声音像真人这件事，WaveNet在2016年就做到了。

Higgs v3的突破在于它”涌现”了表演能力。

从拼接合成的规则时代，到WaveNet、Tacotron代表的深度学习时代，TTS一直在解决同一个问题：让机器发出像人的声音。但”像人”和”像人在说话”是两件事。前者是声学问题，后者是表演问题。

大模型时代之前的TTS，解决的是声学问题。Higgs v3开始解决表演问题。

当一个4B参数的模型可以精确控制21种情绪、在句子中间切换表演状态、覆盖102种语言——它做的事情已经不再是”把文字读出来”，而是”把文字演出来”。

这会改变什么？

语音助手不再像个机器人。有声书不再是一个声音念到底。播客可以用同一个AI声音切换不同角色的语气。游戏配音不再需要录音棚。虚拟主播可以真正”表演”而不是”朗读”。

我们正在见证TTS的ChatGPT时刻。

回到开头那句话。

「我没料到会这样。」

同一个句子，四种灵魂。

4B参数做到了什么？它让机器的声音，有了灵魂。

关注 SomethingAI 公众号

每日 AI 趋势日报，深度选题分析，独立开发思考

微信搜索「SomethingAI」关注