一个把文本内容,根据素材音色,合成成一段语音的程序
根据文本内容自动合成音频,技术上称为:TTS(Text to Speech),顾名思义,文本语音生成。
目前最新版本牛哥已经集成了目前质量最高的开源模型,同时对推理工作流代码做了调整,使其可以适配各种需求环境
唇形同步部分提供三个参数进行设置:
tts-samples
目录下,重启软件,就会看到你自己的素材。素材为
mp3
或者wav
格式。
点击素材选择框后面的播放
按钮可以预览素材效果。
输出语速:这个参数决定了输出的语速,1 为默认。
推理步数:又称为迭代步数,也就是每合成一次图像需要AI工作多少次,一般这个参数要在20以上效果比较好。
淡化时间:由于程序是批量输出,一段文字会被拆分为多段,这个参数决定了多段拼接在一起的时候,之间的衔接淡化时间长度。
自动生成参考文本:勾选这个复选框后,会忽略素材提供的参考文本内容,改由AI内部自动识别参考文本,但这会略微增加处理时长。
以上,参数调整会对输出的速度和质量产生影响,速度越快,效果越差,反之亦然,各自看自己的实际效果,进行合理设置。
点击 批量打开文件
会弹出系统打开文件对话框,选择需要合成的文本文件(也就是txt文件,文件内部为要输出的文本),可以一次性多选文件,每个文件最终生成一个音频文件。
点击 批量处理
按钮,开始处理,软件会依次对导入的文件进行处理,全部完成后,会弹出对话框提示。
点击 打开输出目录
按钮,会打开程序的输出目录,内部分两个文件夹,与 引擎选择
下拉框内名称一致的文件夹即为对应的输出。
点击 打开日志
按钮,会打开程序的输出日志,当程序未能正确工作,联系牛哥反馈问题时,请附带对应的日志文件。
在 TTS(Text-to-Speech,文本转语音)系统中,使用自定义音色可以让合成的语音更加个性化,甚至模仿特定的说话风格或语气。以下是具体的操作步骤,帮助你成功添加自定义音色。
为了让 TTS 系统能够识别并学习自定义音色,需要提供一个高质量的音频样本:
mp3
或者 wav
格式,确保兼容 TTS 处理系统。tts-samples
目录中,以便系统可以正确读取。小王.mp3
每个音频文件有一个相应的文本文件,提供该音频对应的文字内容,帮助 TTS 系统进行语音与文本的匹配。
文本文件不是必须选项,当文件不存在或者界面选择
自动生成参考文本
时,软件会根据音频自动识别文字,但会略微增加程序原先时间。
.txt
扩展名。例如:
小王.mp3
,创建 小王.mp3.txt
小王.mp3
的内容是“你好,我是小王”,则 小王.mp3.txt
文件应当包含:你好,我是小王
如果希望 TTS 生成更自然的音色,可以录制多个音频样本,每个样本对应一个文本文件。确保样本内容多样化,包括不同语速、音调的句子,以提高 TTS 训练效果。例如:
音频文件 | 文本文件 | 内容示例 |
---|---|---|
xiaowang1.mp3 | xiaowang1.mp3.txt | 你好,我是小王 |
xiaowang2.mp3 | xiaowang2.mp3.txt | 今天的天气真不错 |
xiaowang3.mp3 | xiaowang3.mp3.txt | 你喜欢听音乐吗? |
检查 TTS 配置文件
确保 tts-samples
目录下的MP3文件和TXT文件有效配对,命名准确,并且系统能够正确读取其中的音频文件。
测试 TTS 输出
使用新的音色生成语音,检查输出效果是否符合预期。如果音色不匹配,可以尝试: