始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
F5-TTS是一种新颖的文本转语音(TTS)系统,它是基于NAR模型的一个新突破,由上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出。
与众不同之处在于它使用非自回归方法,将流量匹配与扩散变压器 (DiT) 相结合,成功简化了TTS模型传统上涉及的复杂步骤。
我们知道,大多数语音合成技术(TTS)可以分为两大类:自回归(AR)模型和非自回归(NAR)模型。AR模型在零样本任务上表现出色,但存在推理延迟和暴露偏差的问题。NAR模型推理速度快,但面临文本和语音对齐鲁棒性不足的问题。F5-TTS旨在克服NAR的这一缺陷,同时提升其推理效率并保持系统设计的简洁性。
目前F5-TTS已经开源,并发布到始智AI wisemodel开源社区,欢迎大家前往使用。
模型及github地址:
https://wisemodel.cn/models/SJTU_X-LANCE/F5-TTS_Emilia-ZH-EN
https://wisemodel.cn/codes/SWivid/F5-TTS
01
主要架构
研究结果显示,F5-TTS在合成质量和推理速度方面均优于当前许多 TTS系统。在 LibriSpeech-PC数据集上,该模型在推理过程中取得了2.42的字错误率(WER)和0.15的实时因子(RTF),明显优于之前在处理速度和鲁棒性方面存在缺陷的扩散模型 E2TTS 。
通过简化流程并消除对时长预测、音素对齐和显式文本编码的需求,F5-TTS 提高了对齐和合成质量的鲁棒性。研究人员同时强调了伦理考虑,提出需要建立水印和检测系统以防止模型被滥用。系统的主要亮点在于:
位置嵌入:
采用正弦位置嵌入和旋转位置嵌入(RoPE)来增强模型对序列位置信息的理解能力,从而提升对齐精度。
模型输入与处理:
◦ 文本输入:将文本转换为字符序列,并用填充符填充至与输入语音相同长度,简化模型输入。
◦ ConvNeXt处理:通过ConvNeXt块对输入文本进行精炼,对齐语音模态,增强文本表示。
模型架构:
◦ 主干网络:采用Diffusion Transformer(DiT),利用流匹配技术实现从文本到语音的高效转换。
◦ 架构特点:避免复杂的持续时间模型、文本编码器和音素对齐等组件,简化系统设计,加快训练速度。
推理采样策略:
◦ Sway Sampling:非均匀采样策略,通过调整采样流步骤的密度,优化模型性能,减少推理时间。显著增强了生成语音的自然度和清晰度,使模型无需训练即可实现平滑且富有表现力的生成。
◦ ODE求解器:推理阶段使用ODE求解器(Euler/midpoint)处理采样的噪声x0和条件信息,实现从噪声到清晰语音的快速转换。
F5-TTS的训练和推理流程
02
使用方法
自定义本地部署服务
本地部署,需要保证GPU资源(算力)充足及Python环境。
克隆项目
/p>
p>
安装项目依赖包
/p>
pre>
/pre>
br/>
ul>
安装合适的CUDA包(英伟达显卡必须)
/ul>
br/>
li id="3583QVUC">
/p>
p id="3583QVRK">准备数据集并训练、推理、运行项目
/p>
p>
/li>
wisemodel上提供了直接使用的镜像
点击F5-TTS模型详情页-“训练或微调”按钮,创建一个开发环境,选择“F5-E2-TTS”的镜像,使用1张A5000的配置,然后直接点击下一步:
然后确认一下计费方式,如果是简单体验可以选择按量计费的模型,如果需要使用更长的时间,也可以选择包周或包月的模式,相比于按量有一些折扣。确定计费方式之后,可以直接点击提交订单:
等待1分钟左右,开发环境就启动成功,进入运行中的状态。
通过SSH或notebook登录到开发环境上,然后到/home/F5-TTS/src/f5_tts/infer/目录下面,把 模型服务启动起来python infer_gradio.py,然后再启动 web 服务。
服务启动成功之后,在开发环境申请一个服务端口和访问域名。
将申请好的域名复制到浏览器里就可以开始在线体验了。
使用镜像直接创建在线体验
wisemodel社区支持直接通过模型镜像创建在线体验,在 模型 详情面点击“在线部署-部署在线体验”按 钮。
然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。
提交订单之后,应用已经进入启动中的状态,正常情况下大概等待1分钟左右就正常运营,进行在线体验了。
在线使用
通过官网直接体验其多语言语音生成和速度、情感控制功能。
上传原始音色音频,最好是说话的音频,也可以录制自己的声音上传。
然后输入需要转成语音的文本。
同步生成,最后就可生成带预期音色的音频了。
----- END -----
wisemodel相关:
系统升级:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/12178.html