YH_13 实验设备 CPU: I7-10700KF(锁频3.9GHZ) 运行内存:32GB 虚拟内存/页面文件:4-40GB GPU: 公版RTX2070 8G 参与项目:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI 丛雨 训练集 切片数:2975 总文件大小:126 MB 文件格式:ogg 音频总时长:03:29:44.220 采样率:40KHZ 噪音情况:均为游戏解包音频,基本无噪音 内容:对话音频,粗略过滤低质量(例如大量喘气声)的音频,无歌声音频 训练参数 实验名称:muresa 目标采样率:40KHZ 音高指导:有 版本:v2 提取音高和处理数据使用的CPU进程数:16 选择音高提取算法:rmvpe_GPU 保存频率save_every_epoch:5epoch 总训练轮数total_epoch:20epoch 每张显卡的batch_size:7 是否缓存所有训练集至显存:否 底模G:f0G40k.pth 官方RVC整合包自带 底模D:f0D40k.pth 官方RVC整合包自带 训练日志:参见附录 train_muresa.log 推理 参考音源:使用UVR5对(Av284072289)背景音乐、和声分离所得干声,参见附录:兔子洞参考vocal1.wav、兔子洞参考vocal2.wav 变调:0 重采样:否 输入源音量包络替换输出音量包络融合比例:0.25 辅音和呼吸声保护程度:0.33 对harvest音高识别的结果使用中值滤波:否 检索特征占比:0.9 结果:参见附录AI丛雨-兔子洞vocal1备用.wav、AI丛雨-兔子洞vocal2备用.wav 重混音 使用了部分官方和声vocal,以及DECO*27的初音版本和声vocal(BV1aa4y1u7Ct) 实验结果 已发布 BV1Zx4y117RL 实验结论与反思 在女高音上推理出现哑音情况,对harvest结果使用中值滤波并不能解决该问题——推断由于训练集只有对话导致 推理时有轻微的整体音调偏移(小于1个半调),从听觉感官上难以发现,但频谱图上很容易发现 推理将对参考音频所有音色均进行替换,意味着输出结果的好坏很大程度上取决于参考音频的质量,因此人工对参考音源微调(比如反相消除背景音乐)相对仅使用UVR5移除背景音乐能显著提升输出结果的质量,待进一步实验 子墨 训练集 切片数:164 实验名称:zimo 目标采样率:40KHZ 音高指导:有 版本:v2 提取音高和处理数据使用的CPU进程数:16 选择音高提取算法:rmvpe_GPU 保存频率save_every_epoch:10epoch 总训练轮数total_epoch:200epoch 每张显卡的batch_size:7 是否缓存所有训练集至显存:否 底模G:f0G40k.pth 官方RVC整合包自带 底模D:f0D40k.pth 官方RVC整合包自带 推理 参考音源:使用UVR5对《恭喜发财》-刘德华(https://music.163.com/song?id=1916400906)背景音乐、和声分离、去除混响所得干声,参见附录:[1_1_1恭喜发财(Vocals)(Vocals)(No Echo).wav] 变调:0 重采样:否 输入源音量包络替换输出音量包络融合比例:0.25 辅音和呼吸声保护程度:0.33 对harvest音高识别的结果使用中值滤波:否 检索特征占比:0.75 结果:参见附录[AI子墨 - 恭喜发财(vocal).wav] 重混音 直接混合本家的和声、混响、背景音乐,无任何手动调音。 实验结果 已发布 BV1E4421F7K9 实验结论与反思 实验数据发现在eproch-124轮-12680steps时,发现loss_disc、 loss_gen=3.181, loss_fm、loss_mel、loss_kl均稳定增长,认定由于训练集数据量过小出现过拟合现象,故中止训练。推理时使用的是7722steps的模型。 模型文件与附录均存放于 实验文件报告.zip