Python 学习整理2

目标说话人声音提取模型训练的思路

PHPer 2025-08-25 16 0 0

我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取,不是用来记录会议中某说话人的说话内容的,是用来RVC训练的),现在有个问题就是提取出来的声音偶尔还会有别人的声音,大概占比10%,我想把这些也去掉。于是我想到办法,把提取出来的音频,在和目标说话人的纯净的人声embedding比对,看目标说话人在音频中的说话时间占比为,如果占比很高的话,比如超过0.9就保留,否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制,类似监督模式,整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。

我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取,不是用来记录会议中某说话人的说话内容的,是用来RVC训练的),现在有个问题就是提取出来的声音偶尔还会有别人的声音,大概占比10%,我想把这些也去掉。于是我想到办法,把提取出来的音频,在和目标说话人的纯净的人声embedding比对,看目标说话人在音频中的说话时间占比为,如果占比很高的话,比如超过0.9就保留,否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制,类似监督模式,整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。audio_processor.py里的主函数asyncdefprocess_audio(file,config_value,whisper_model,device):和defget_matched_audios(target_audio,负责的是从多人说话里提取目标说话人的声音。t3.py这里的代码是用于把提取出的人声的人声再次和目标人说话人比对,看时间占比。现在要解决把整个流程设计成模型训练的模式。...

立即注册
更新于:2025-08-25 21:42:58
    您需要登录后才可以评论。 立即注册
    推荐内容

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    BT磁力搜索网站汇总和找不到的资源

    什么是磁力链接,您如何使用?

    Z-Library:全球最大的数字图书馆/含打不开的解决方案/镜像

    使用V2Ray的mKCP协议加速游戏

    v2rayN已停止工作

    【车险课堂】什么是无赔款优待系数ncd,你“造”吗?