|-转 目标说话人声音提取模型训练的思路
我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取,不是用来记录会议中某说话人的说话内容的,是用来RVC训练的),现在有个问题就是提取出来的声音偶尔还会有别人的声音,大概占比10%,我想把这些也去掉。于是我想到办法,把提取出来的音频,在和目标说话人的纯净的人声embedding比对,看目标说话人在音频中的说话时间占比为,如果占比很高的话,比如超过0.9就保留,否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制,类似监督模式,整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。
我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取,不是用来记录会议中某说话人的说话内容的,是用来RVC训练的),现在有个问题就是提取出来的声音偶尔还会有别人的声音,大概占比10%,我想把这些也去掉。于是我想到办法,把提取出来的音频,在和目标说话人的纯净的人声embedding比对,看目标说话人在音频中的说话时间占比为,如果占比很高的话,比如超过0.9就保留,否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制,类似监督模式,整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。audio_processor.py里的主函数asyncdefprocess_audio(file,config_value,whisper_model,device):和defget_matched_audios(target_audio,负责的是从多人说话里提取目标说话人的声音。t3.py这里的代码是用于把提取出的人声的人声再次和目标人说话人比对,看时间占比。现在要解决把整个流程设计成模型训练的模式。...
浏览更多内容请先登录。
立即注册
更新于:2025-08-25 21:42:58
推荐内容