VS聊天记录 - 查问我看

转多人声音提取特定人的人声

|-转 VS聊天记录

PHPer 2025-08-27 26 0 0

syh0304: 帮我找到SOLOSPEECH项目里，关于模型定义的代码文件

GitHub Copilot:

syh0304: 据说有 SoloSpeech 的模型定义代码（比如 model.py 中的 nn.Module 类），并且该模型没有使用一些不支持量化的自定义算子，那你可以尝试手动对模型做 PTQ

GitHub Copilot: 在 model.py 文件中，定义了两个主要的模型类：

- `LMModel(nn.Module)`：语言模型，用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`：主模型，处理原始音频波形，包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`，且没有使用不支持量化的自定义算子，因此可以尝试手动对模型进行 PTQ（Post Training Quantization，训练后量化）。

如果你需要具体的 PTQ 代码示例或操作流程，可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗，因为我的8G显卡带不起来，我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置，关键参数如下：

- `--num_infer_steps`（默认200）：推理步数，影响显存和速度

- `--sample-rate`（默认16000）：采样率，影响输入数据大小

- `--eta`（默认0）：DDIM采样相关

- `--random-seed`（默认42）

此外，模型和推理相关的详细配置（如网络层数、采样长度等）通常在 yaml/json 配置文件里，比如 dance_diffusion_base.json 里 `sample_size`、`sample_rate`、`n_attn_layers` 等。

**如果你的显卡显存不足，可以尝试：**

1. 在运行时加参数 `--num_infer_steps 50` 或更低（如20），减少推理步数。

2. 降低采样率（如 `--sample-rate 8000`），但音质会下降。

3. 查找模型配置文件（如 json/yaml），把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本，请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下：

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`（提取器）和 `autoencoder`，去掉了 `SoloSpeech_TSR`（重构器）、`ScoreModel`（校正器）等后处理模块，推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链，包括提取器、重构器、校正器、说话人相似度判别等，流程更复杂，显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”，显存占用和推理时间都更低，适合显卡资源有限的场景。

- test.py 追求分离效果和完整性，显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果（tse_pred），直接保存音频。

- test.py 会输出两路分离结果（tse_pred, tsr_pred），并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型（提取器和压缩器）。

- test.py 还会加载重构器、校正器、说话人识别模型等。

**结论**：

如果你的显卡显存有限，建议优先使用 `fast_test.py`，它去除了大部分后处理和辅助模型，推理更快、更省资源。

syh0304: 那webui.bat怎么运行fast_test.py

GitHub Copilot: 你可以将 webui.bat 文件中的启动命令由：

```

.\python\python.exe app.py

```

改为：

```

.\python\python.exe scripts\fast_test.py [参数]

```

其中 `[参数]` 需要你手动指定，比如：

```

--test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

如果你想用 Gradio 网页界面调用 `fast_test.py`，需要把 app.py 里的 `run_solospeech` 函数改为调用 `fast_test.py` 的主流程（可以用 subprocess 或直接重构为 Python 函数）。

如需自动化修改或集成 Gradio，请告知你的具体需求。

syh0304: @echo off

chcp 65001

set PYTHONUSERBASE=.\python\Lib\site-packages

set PYTHONPATH=.\python\Lib\site-packages

set PATH=%PATH%;.\python\Scripts

.\python\python.exe scripts\fast_test.py

pause 这样，对吧

GitHub Copilot: 是的，这样写可以直接运行 `fast_test.py`，但你还需要在命令后加上必要的参数，否则脚本会报错（缺少输入文件等）。

例如：

```

.\python\python.exe scripts\fast_test.py --test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

你可以把参数写在同一行，或者在 bat 文件里用变量传递。...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 22:33:09

您需要登录后才可以评论。立即注册

转 多人声音提取特定人的人声

|-转 VS聊天记录

7

1221

126w+

228

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

评测

随笔

服务器

音乐

历史

推荐内容

转多人声音提取特定人的人声