多人声音提取特定人的人声

VS聊天记录

PHPer 2025-08-27 169 0 0

syh0304: 帮我找到SOLOSPEECH项目里,关于模型定义的代码文件

GitHub Copilot:

syh0304: 据说有 SoloSpeech 的模型定义代码(比如 model.py 中的 nn.Module 类),并且该模型 没有使用一些不支持量化的自定义算子,那你 可以尝试手动对模型做 PTQ

GitHub Copilot: 在 model.py 文件中,定义了两个主要的模型类:

- `LMModel(nn.Module)`:语言模型,用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`:主模型,处理原始音频波形,包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`,且没有使用不支持量化的自定义算子,因此可以尝试手动对模型进行 PTQ(Post Training Quantization,训练后量化)。

如果你需要具体的 PTQ 代码示例或操作流程,可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗,因为我的8G显卡带不起来,我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置,关键参数如下:

- `--num_infer_steps`(默认200):推理步数,影响显存和速度

- `--sample-rate`(默认16000):采样率,影响输入数据大小

- `--eta`(默认0):DDIM采样相关

- `--random-seed`(默认42)

此外,模型和推理相关的详细配置(如网络层数、采样长度等)通常在 yaml/json 配置文件里,比如 dance_diffusion_base.json 里 `sample_size`、`sample_rate`、`n_attn_layers` 等。

**如果你的显卡显存不足,可以尝试:**

1. 在运行时加参数 `--num_infer_steps 50` 或更低(如20),减少推理步数。

2. 降低采样率(如 `--sample-rate 8000`),但音质会下降。

3. 查找模型配置文件(如 json/yaml),把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本,请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下:

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`(提取器)和 `autoencoder`,去掉了 `SoloSpeech_TSR`(重构器)、`ScoreModel`(校正器)等后处理模块,推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链,包括提取器、重构器、校正器、说话人相似度判别等,流程更复杂,显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”,显存占用和推理时间都更低,适合显卡资源有限的场景。

- test.py 追求分离效果和完整性,显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果(tse_pred),直接保存音频。

- test.py 会输出两路分离结果(tse_pred, tsr_pred),并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型(提取器和压缩器)。...

立即注册

更新于:2025-08-27 23:14:33
    您需要登录后才可以评论。 立即注册
    相关内容

    聊天服务器搭建-使用snap+Nginx快速安装RocketChat(2022年6月最新版)

    在OnpenVZ 上安装Rocket Chat 实测中

    聊天服务器2

    No VM guests are running outdated hypervisor (qemu) binaries on this ...

    /tmp/dc-jitsi-env.yml: the attribute `version` is obsolete, jitsi/proso...

    VS Code Server 全能脚本

    mkdir -p /code/{shell,python,php,other}

    Error response from daemon: failed to create task for container: faile...

    narj.sh

    certbot: error: unrecognized arguments: --nginx_conf /www/server/nginx...

    聊天服务器

    聊天服务器 Rocketchat

    聊天服务器 Rocketchat with QianWen 202509

    grep -n "JM_HOST_HTTPS_PORT=" rc_jm_install_good.sh grep...

    sudo docker logs rocketchat-mongo-1 --tail 50

    BadValue: security.keyFile is required when authorization is enabled ...

    未找到数据卷挂载点,无法插入 keyfile 挂载

    更新 APT 包列表... (ka zhu le ,ka le 2 fen zhong zuo you)

    sudo docker image ls

    docker logs shanghai time 正确解决方案:使用python3 -s+sys.stdin(...

    Docker ERROR: BadValue: security.keyFile is required when authoriz...

    password 是 MongoDB 的“钥匙”(登录用)keyfile 是 副本集节点之间的“暗...

    /root/rocketchat/docker-compose.yml errors

    docker-compose.yml

    /root/jitsimeet/docker-jitsi-meet/docker-compose.yml 什么时候创建的,...

    在Linux系统中,查看端口的命令主要有以下几种,以下是查看8081端口是否被占用的...

    .env file

    RC JM FOLDER STRCUTRE

    为了避免每次执行 Docker 命令时都需要使用 `sudo`,你可以将当前用户添加到 ...

    docker_image_backup bei fen docker image

    初始化 RocketChat 配置文件.

    mongoDB

    .env 文件中以下变量未正确设置: DOMAIN DATA

    /opt/jitsimeet/.env 文件生成成功 [ERROR] ❌ /opt/jitsimeet/.env 文件...

    ll and ls -la

    聊天服务器2

    python and shell

    为什么使用副 shell 脚本生成 Python 文件

    推荐内容

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    BT磁力搜索网站汇总和找不到的资源

    什么是磁力链接,您如何使用?

    Z-Library:全球最大的数字图书馆/含打不开的解决方案/镜像

    使用V2Ray的mKCP协议加速游戏

    v2rayN已停止工作

    真枪实弹,假戏真做,12部具有“实干精神”的电影!