← 返回

4B参数,开源,追平ElevenLabs:TTS的ChatGPT时刻来了

詹叔 · 2026年06月06日

输入同一句话:「我没料到会这样。」

加上emotion_elation,它听起来像中了大奖。加上emotion_sadness,像在葬礼上说话。加上emotion_anger,像刚被踩了脚。加上se_sigh,它先叹一口气,再缓缓开口。

同一句话,四种灵魂。

这不是TTS。这是一个4B参数的”声音演员”。

2026年6月5日,Boson AI在HuggingFace上发布了Higgs Audio v3。模型卡挂上去当天就冲上了Hacker News热榜。朋友圈里做语音的人都在转,但大部分人还没意识到这件事的重量。

让我说清楚。

4B参数,102种语言

先看硬件账面。

Higgs v3的架构并不复杂:约4B参数的自回归解码器,总参数量5B,BF16精度,36层Transformer,隐藏维度2560,GQA 32/8。音频编码用的是8个codebook,每个1026词表大小,delay pattern,24kHz采样率,25fps帧率,上下文8192 tokens。

这些数字单独看没什么意思。但把它们放在一起,你会发现一件诡异的事——它只用了4B参数,就覆盖了102种语言。

具体分两个梯队:Tier 1有85种语言,WER/CER低于5,达到生产级可用;Tier 2有17种语言,WER/CER在5到10之间,基本可用。也就是说,地球上绝大多数主流语言,它都能说,而且说得不错。

零样本语音克隆也保留了。不需要微调,给一段参考音频,直接克隆音色。

但真正让这件事变得震撼的,是和v2的对比。

Higgs v2是2025年7月发布的。训练数据上千万小时语音,已经支持多语言、情感表达、零样本克隆、多人对话、背景音乐同步生成。当时业内评价很高。但它的硬伤也很明显:语言覆盖太窄,主要就中英韩等几种。

这个短板有多致命?在Higgs团队自己构建的Higgs-Multilingual benchmark(覆盖111种语言)上,v2的CER是52.24。这意味着一半以上的字符都是错的——根本没法用。

v3呢?同一个benchmark,CER降到了3.61。

从52.24到3.61。这不是迭代,这是一代人的跨度。

v2已经很好,但语言覆盖是硬伤。v3直接把这个短板补成了长板。

21种情绪,9种音效,一句台词演四场戏

但Higgs v3真正重要的创新,不是”更多语言”。

而是一个叫inline control token的系统。

简单说,它定义了一套完整的”表演语言”——21种情绪token、3种风格token、9种音效token,加上韵律控制参数。你可以把它们像标记语言一样,直接插在文本里任意位置。

21种情绪包括:elation(狂喜)、amusement(愉悦)、enthusiasm(热情)、determination(坚定)、anger(愤怒)、fear(恐惧)、sadness(悲伤)、contentment(满足)、affection(柔情)、contemplation(沉思)、surprise(惊讶)、disgust(厌恶)、shame(羞耻)、helplessness(无助)、pride(骄傲)、relief(释然)、confusion(困惑)、awe(敬畏)、longing(渴望)、arousal(激动)、bitterness(苦涩)。

3种风格:singing(唱歌)、shouting(喊叫)、whispering(耳语)。

9种音效:cough(咳嗽)、laughter(笑)、crying(哭)、screaming(尖叫)、burping(打嗝)、humming(哼唱)、sigh(叹气)、sniff(抽鼻)、sneeze(打喷嚏)。

韵律控制更细:速度分4档(极慢约0.65倍、慢约0.85倍、快约1.2倍、极快约1.4倍),音高2档(低约-3半音、高约+2.5半音),暂停2档(短停400-700ms、长停700-1500ms),表现力2档。

关键来了:所有这些token,都可以在句子中间插入。

这意味着什么?

意味着你可以写这样一段文本——

[emotion_calm] 我一直觉得这件事没什么大不了的。 [pause] [emotion_anger] 但你刚才说的那句话, [speed_fast] 真的太过分了。 [long_pause] [emotion_sadness] [se_sigh] 我没料到会这样。

一句话的情绪从平静到愤怒再到悲伤,中间还有叹气。这不是文本转语音,这是文本转表演。

对比一下目前的市场。OpenAI的gpt-4o内置TTS确实有情绪,但它的情绪是模型”自己判断”的——你无法精确控制某个词用哪种情绪说。ElevenLabs有情绪控制,但语言覆盖窄,而且是闭源付费。Fish Audio的S2 Pro半开源,情绪控制有限。

Higgs v3做的事情,是把”情绪”从黑盒变成了白盒。你写什么,它演什么。像导演给演员讲戏一样精确。

开源正在瓦解闭源的护城河

把视线拉远一点,看看TTS赛道的竞争格局。

闭源阵营的旗帜是ElevenLabs——付费API,声音质量极高,情绪控制有但有限,语言覆盖是短板。半开源阵营有Fish Audio的S2 Pro,可自部署但核心模型不完全开放。开源阵营有阿里的Qwen3-TTS,但多语言能力差距明显。

Higgs v3把格局搅乱了。

看benchmark数据(WER/CER×100,越低越好):

英语基准SeedTTS上,Higgs v3得分1.11,Qwen3-TTS 1.30,Fish S2 Pro 1.31。领先幅度不算大,但确实是最优。

多语言才是碾压局。Higgs-Multilingual benchmark(111种语言),Higgs v3得分3.61,Fish S2 Pro 8.68,MOSS-TTS 21.28,IndexTTS-2 57.71。而Qwen3-TTS?97.09。差了将近27倍。

这不是竞争对手。这是不同时代的产品。

更值得注意的是,SGLang-Omni团队在6月4日就宣布完成了Higgs v3的端到端Serving支持。SGLang是目前广泛采用的开源推理框架,这意味着Higgs v3发布第一天,就已经可以跑在成熟的推理服务上,直接用于实时语音助手场景。

站在这个模型背后的Boson AI也值得关注。2023年,李沐和Alex Smola共同创立了这家公司。两位都来自亚马逊——李沐是深度学习框架MXNet的作者、《动手学深度学习》的合著者,在亚马逊任资深首席科学家;Smola是李沐的博士导师,机器学习领域的学术大牛,曾任亚马逊机器学习总监。他们选择的方向很明确:大模型时代的系统与基础设施创新。

这让我想起了一件事。

大语言模型的发展史,正在TTS领域重演。

2022年底ChatGPT发布的时候,开源阵营一片恐慌。GPT-4、Claude、Gemini这些闭源模型似乎遥不可及。但Llama来了,Mistral来了,Qwen来了。开源模型用更小的参数量、更快的迭代速度,一步步逼近甚至超越闭源产品的水平。今天,开源7B模型在日常任务上的表现已经不输闭源旗舰。

TTS正在走同样的路。

ElevenLabs们的护城河,正在从技术变成品牌和生态。当开源模型在声音质量、情绪控制、语言覆盖三个维度同时追平甚至超越闭源产品,付费API的竞争力就只剩下了”省事”——对不想自己部署的企业来说,这当然有价值。但对整个行业而言,技术民主化的车轮已经转起来了。

语音AI的GPT时刻

让我们再往深处想一步。

回顾大语言模型的突破,GPT之所以重要,不是因为它的参数最大。参数最大的模型从来不是最成功的。GPT的突破在于它”涌现”了理解能力——当模型大到一定程度,它开始能理解指令、做推理、甚至展现出某种”智能”。这种涌现能力改变了所有人 对AI的认知。

Higgs v3的突破,也不是因为它的声音最像真人。声音像真人这件事,WaveNet在2016年就做到了。

Higgs v3的突破在于它”涌现”了表演能力。

从拼接合成的规则时代,到WaveNet、Tacotron代表的深度学习时代,TTS一直在解决同一个问题:让机器发出像人的声音。但”像人”和”像人在说话”是两件事。前者是声学问题,后者是表演问题。

大模型时代之前的TTS,解决的是声学问题。Higgs v3开始解决表演问题。

当一个4B参数的模型可以精确控制21种情绪、在句子中间切换表演状态、覆盖102种语言——它做的事情已经不再是”把文字读出来”,而是”把文字演出来”。

这会改变什么?

语音助手不再像个机器人。有声书不再是一个声音念到底。播客可以用同一个AI声音切换不同角色的语气。游戏配音不再需要录音棚。虚拟主播可以真正”表演”而不是”朗读”。

我们正在见证TTS的ChatGPT时刻。

回到开头那句话。

「我没料到会这样。」

加上emotion_elation,它听起来像中了大奖。加上emotion_sadness,像在葬礼上说话。加上emotion_anger,像刚被踩了脚。加上se_sigh,它先叹一口气,再缓缓开口。

同一个句子,四种灵魂。

4B参数做到了什么?它让机器的声音,有了灵魂。

关注 SomethingAI 公众号

每日 AI 趋势日报,深度选题分析,独立开发思考

微信搜索「SomethingAI」关注