Fish Speech 在 12月初发布了 1.5 版本,该版本可以说是一个巨大的升级,针对1.4 版本,1.5版本主要有以下几点改进:
多语言和跨语言支持
1.5 版本扩展了对多种语言的支持,包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。用户只需将多语言文本复制并粘贴到输入框中,系统即可自动识别并处理,无需担心语言障碍。
无音素依赖
该模型具有强大的泛化能力,不依赖音素进行文本到语音的转换。它可以处理任何语言脚本中的文本,确保了更高的灵活性和适用性。
高度准确
在处理 5 分钟的英文文本时,该模型的字符错误率(CER)和单词错误率(WER)均保持在约 2% 的低水平,确保了高度的准确性。
完全端到端
该模型集成了自动语音识别(ASR)和文本到语音(TTS)功能,无需额外插件或模型,实现了真正的端到端处理,而非传统的三阶段(ASR + LLM + TTS)流程。
情感化
该模型能够生成带有强烈情感的语音,使合成的语音更加自然和生动。
现状
事实上,开源 TTS 虽然一直在发展,但目前仍然存在一些问题。例如,在处理长文本时,生成的语音质量仍然不够好,并且无法处理一些复杂的文本。同时,对于一些特殊场景,如数字、日期等,生成的语音效果并不理想。总体的合成能力根本打不过闭源TTS。
在作者的实际过往的开源TTS测试中,阿里云的 CosyVoice 和 上海交大的 F5 TTS 是相对比较表现比较好的模型。这里就拿 CosyVoice 进行对比。
CosyVoice 用的模型版本:CosyVoice-300M
实际测试
测试显卡:RTX 4060Ti 16G
先放上测试文本:
中文长文本,长度:456 个汉字
观音听了这话,立刻和木吒撞到了南天门里。早有丘、张两位天师上前询问:“你要去哪里?”菩萨回答:“我想见玉帝一面。”两位天师立刻向宫中禀报,玉帝于是降下龙颜迎接她。菩萨行礼完毕说:“多谢佛祖旨意,我要去东土寻找取经人,途中遇到孽龙,被他吊在半空中,幸亏我请求饶命,佛祖赐我代龙驮载取经人。”五位天帝听后立即传旨赦免那天将,并让他将小龙释放,交给菩萨。菩萨谢恩后离开。那小龙磕头感谢活命之恩,并听从菩萨安排。菩萨将其放入深不见底的峡谷中,等取经人到来时,他便化作一匹白马,助取经人西行立功。小龙领命,潜身不见。
菩萨带着木吒徒弟越过这座山,继续向东土进发。没走多久,忽然看见万道金光和千条瑞气。木吒说道:“师父,那发光的地方应该是五行山了,上面有如来的‘压帖’。”菩萨说:“这是那搅乱蟠桃会、大闹天宫的齐天大圣如今被压在这里。”木吒道:“正是,正是。”师徒二人一起上山去看,发现“唵嘛呢叭[口迷]吽”六字真言上有着如来的“压帖”。菩萨看完感叹不已,并作诗一首。
师徒们正说话时,被大圣听见了。大圣在山根下游泳,高声喊道:
“原来是那个在山上吟诗揭我的短?”菩萨听了便立刻下山来找他。只见土地神、山神以及监管大圣的天将都前来迎接菩萨,并带她来到大圣面前。大圣被压在石匣之下,只能用眼睛说话,但不能动弹。菩萨问道:“孙大圣,你认得我吗?”大圣用火眼金睛点着头,高声喊道:“我怎么会不认识你?你是从南海普陀落伽山救苦救难的大慈大悲观世音菩萨。承蒙你来看我一眼,承蒙你来看我一眼!我现在这里度日如年,没有一个人来看我,你从哪里来呢?”菩萨说:“我奉佛旨东土寻取经人路过这里,特意留下我的残余法力来帮助你。”大圣说:“如来骗了我,把我在这里压了五百多年,我现在动弹不得。我希望能得到菩萨的方便,救我一救!”菩萨说:“你这东西罪孽深重,如果救你出来恐怕你又要造孽。反而不是好事。”大圣说:“我已经后悔了,只愿菩萨开恩,给我一条生路。”这真是:罪人终有报,今日得见菩萨。
英文长文本
Hercule Poirot shivered. The thought of the Christmas countryside at this season of the year didnot attract him.
"A good old-fashioned Christmas!" Mr Jesmond stressed it.
"Me - I am not an Englishman," said Hercule Poirot. "In my country, Christmas, it is for thechildren. The New Year, that is what we celebrate.""Ah," said Mr Jesmond, "but Christmas in England is a great institution and I assure you at KingsLacey you would see it at its best. It's a wonderful old house, you know. Why, one wing of it datesfrom the fourteenth century."
Again Poirot shivered. The thought of a fourteenth-century English manor6 house filled him withapprehension. He had suffered too often in the historic country houses of England. He lookedround appreciatively at his comfortable modern flat with its radiators7 and the latest patent devicesfor excluding any kind of draught8.
"In the winter," he said firmly, "I do not leave London.""I don't think you quite appreciate, Mr Poirot, what a very serious matter this is." Mr Jesmondglanced at his companion and then back at Poirot.
Poirot's second visitor had up to now said nothing but a polite and formal "How do you do." He satnow, gazing down at his well-polished shoes, with an air of the utmost dejection on his coffee-coloured face. He was a young man, not more than twenty-three, and he was clearly in a state ofcomplete misery9.
"Yes, yes," said Hercule Poirot. "Of course the matter is serious. I do appreciate that. His Highnesshas my heartfelt sympathy."
为了避免重复,以下以中文长文本 和英文长文本 代替。
推理速度
实现测试下来,
| 模型 | 文本类型 | 生成时间 | 音频长度 |
|---|---|---|---|
| Fish Speech | 中文长文本 | 23秒 | 2分03秒 |
| Fish Speech | 英文长文本 | 24秒 | 1分47秒 |
| CosyVoice | 中文长文本 | 55秒 | 3分07秒 |
| CosyVoice | 英文长文本 | 35秒 | 1分50秒 |
默认效果
在不设置任何参数的情况下,fish speech 生成的语音效果如下:
中文长文本:
英文长文本:
cosyvoice 生成的语音效果如下:
中文长文本:
英文长文本:
- fish speech 默认中文语速偏快。cosyvoice 中文语速要正常得多。
- 英文语速基本差不多,生成质量上,都比较优秀。
- 情感化上,默认的生成的效果都差不多,好,但也没有太好。
- 断句朗读上,fish speech 要比cosyvoice 差一些。不过可能和他的生成默认语速有一定的关系。
跨语言,数字,日期朗读对比
测试文本:
在一个晴朗的早晨,2023年10月15日,李华和他的朋友 Tom 决定去公园 Cosplay。他们计划在公园里度过一个轻松的周末。
cosyvoice 生成的语音效果如下:
fish speech 生成的语音效果如下:
结论
- fish speech 能正确地对跨语言,数字,日期朗读
- cosyvoice 在中英文夹混合的情况下,效果比较差。日期朗读效果正常。
零样本复制
测试文本:
突然,李华的手机响了,是一条来自公司的紧急邮件。邮件中提到,一个重要的项目需要在 2023 年 6 月 1 日前完成。
测试样本音频:
测试结果:
fish speech :
CosyVoice:
结论: 2个在复制音色上都表现得良好。CosyVoice 在断句朗读上不如 fish speech 。
最后
Fish Speech 的最大优势在于生成速度和显存占用。其显存占用非常低,这不仅因为模型本身较小,还与其端到端的设计密切相关。
存在的问题
- 停顿处理不佳:Fish Speech 和 CosyVoice-300M 在生成长文本时,处理停顿的效果都不理想。Fish Speech 默认语速较快,这一问题更为严重,导致听众容易感到疲劳。
- 情感化控制不足:Fish Speech 目前没有提供情感化的控制选项。虽然自然生成的情感化效果尚可,但并未达到特别突出的水平。相比之下,CosyVoice 提供了一个特别的情感化微调版本(CosyVoice-Instruct),在这方面表现更佳。
- 零样本复制问题:无论是 Fish Speech 还是 CosyVoice,在零样本复制时都会丢失原有的情感表达,这可能是由于样本影响较大所致。
由于 Fish Speech 刚刚发布不久,目前更详细的测试还在进行中。
相比 1.4 版本
Fish Speech 1.4 版本存在较为严重的模型幻觉问题,并且频繁出现吞字现象。相比之下,1.5 版本的泛化效果确实如官方所述有了显著提升。