目标说话人声音提取模型训练的思路 - 查问我看

转 Python 学习整理2

|-转目标说话人声音提取模型训练的思路

PHPer 2025-08-25 79 0 0

我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取，不是用来记录会议中某说话人的说话内容的，是用来RVC训练的)，现在有个问题就是提取出来的声音偶尔还会有别人的声音，大概占比10%，我想把这些也去掉。于是我想到办法，把提取出来的音频，在和目标说话人的纯净的人声embedding比对，看目标说话人在音频中的说话时间占比为,如果占比很高的话，比如超过0.9就保留，否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制，类似监督模式，整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。

我有个现有的代码用于从多人说话里提取目标说话人的声音(不需要完整提取，不是用来记录会议中某说话人的说话内容的，是用来RVC训练的)，现在有个问题就是提取出来的声音偶尔还会有别人的声音，大概占比10%，我想把这些也去掉。于是我想到办法，把提取出来的音频，在和目标说话人的纯净的人声embedding比对，看目标说话人在音频中的说话时间占比为,如果占比很高的话，比如超过0.9就保留，否则二次提取目标说话人的声音。我想把这个占比的结果做成反馈机制，类似监督模式，整个流程变成一个模型训练。之后直接用训练的模型去做特定说话人的人声提取。audio_processor.py里的主函数asyncdefprocess_audio(file,config_value,whisper_model,device):和defget_matched_audios(target_audio,负责的是从多人说话里提取目标说话人的声音。t3.py这里的代码是用于把提取出的人声的人声再次和目标人说话人比对，看时间占比。现在要解决把整个流程设计成模型训练的模式。...

浏览更多内容请先登录。 立即注册

更新于：2025-08-25 21:42:58

您需要登录后才可以评论。立即注册

转 Python 学习整理2

|-转 目标说话人声音提取模型训练的思路

7

1221

132w+

228

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

评测

随笔

服务器

音乐

历史

推荐内容

|-转目标说话人声音提取模型训练的思路