多人声音提取特定人的人声 - 查问我看

转多人声音提取特定人的人声

PHPer 2025-08-27 129 0 0

这里开一个主贴，专门做以下记录 20250827 16:24...

浏览更多内容请先登录。 立即注册

更新于：2025-08-27 16:25:08

您需要登录后才可以评论。立即注册

|-转关于多人人声提取指定人声和腾讯元宝的对话记录 20250827

记录下和腾讯元宝的对话
总结一下，优先级可以这么排：
先试试量化 + 梯度检查点（改代码成本低，对推理友好）；
再换更轻量的语音分离开源项目（免去改代码，直接用现成的）；
实在不行就租云 GPU 应急；
最后考虑自己蒸馏模型（技术门槛高，但能一劳永逸）。

如果你想自己部署 Wavesplit/SpEx，可以参考它们的 GitHub 官方项目（如 Microsoft SpEx或 Wavesplit），但通常需要一定的 PyTorch / CUDA 经验。

如果不想自己部署，可以找现成的在线语音分离服务（如 VocalRemover.org），但可能无法完全定制化。

最终推荐（针对你的目标：提取目标人声音用于 RVC 训练）

方案	是否需要高配 GPU	效果	难度	推荐指数
用 GPT-SoVITS 生成目标人音色语音（1小时）→ 训练 RVC	❌ 不需要	✅ 好（可控）	⭐ 简单	⭐⭐⭐⭐⭐
用 Wavesplit/SpEx（8G NVIDIA GPU + 优化）	✅ 需要	✅ 好（直接提取）	⭐⭐⭐⭐ 较难	⭐⭐⭐⭐
用云 GPU（如 RTX 3080 12GB）跑 Wavesplit/SpEx	✅ 云服务	✅ 最佳	⭐⭐ 中等	⭐⭐⭐⭐⭐
用 Demucs（轻量级分离）→ 再用 GPT-SoVITS 优化	❌ 不需要	⚠️ 一般	⭐ 简单	⭐⭐⭐

? 最推荐：先用 GPT-SoVITS 生成目标人音色的 1 小时语音，再训练 RVC（最简单、效果可控）！

如果一定要用 Wavesplit/SpEx，建议租云 GPU（如 RTX 3080 12GB）！

如果你需要具体部署步骤（如怎么在 Colab 上跑 Wavesplit），可以告诉我，我会提供详细教程！ ?

我有PyTorch / CUDA 经验，只是为了效率，网上有没有现成的一键安装或者启动包，我在B站搜：Wavesplit/SpEx 一键启动包是这个结果。音频分离这种的，几乎都是人声和伴奏的分离，没看到从多人声音分离出指定人声的，有个项目SoloSpeech可以多人声音分离出指定人声，我试过8G的显卡跑，跑一会程序就会提示显存不够。

我是4核的CPU，i5-3470，内存2根8G的内存条，NVIDIA GPU 8GB显存。音频分离这种的，几乎都是人声和伴奏的分离，没看到从多人声音分离出指定人声的，有个项目SoloSpeech可以多人声音分离出指定人声，我试过8G的显卡跑，跑一会程序就会提示显存不够。

batch size设为1都不行，项目很大，也不知道从哪里改代码能降低硬件要求，SoloSpeech的模型好像很大，在项目上的WEB界面上没提供模型选择的功能。

如果 SoloSpeech 即使把 batch size 设为 1 也显存不足，而且从代码层面不太好直接修改模型大小，同时 Web 界面又没有模型选择功能，你可以尝试下面这些思路来“绕开”或“降低”硬件门槛：

一、先确认显存“底线”与模型量化

查看显存占用细节先用 nvidia-smi -l 1（Linux）或在任务管理器（Windows）里实时看显存占用峰值到底卡在多少。比如如果是 16GB 显存跑 SoloSpeech 占到 15GB+ 还报 OOM，说明模型本身 + 推理时的临时缓存确实很大；如果只用到 8 - 10GB 就爆，那还有优化空间。
尝试模型量化（Quantization）很多大模型都支持把参数从 float32 转成 float16 甚至 int8，能大幅减少显存占用。如果 SoloSpeech 基于 PyTorch 实现，你可以看看代码里有没有类似 torch.quantization的接口，或者有没有预训练好的量化版权重。
- 若项目本身没做量化，也可以自己尝试：先把模型 load 进来，然后用 torch.quantization.quantize_dynamic对模型做动态量化（适合推理场景），示例伪代码：
```
import torch
model = torch.load("solo_speech_model.pth")  # 加载原模型
quantized_model = torch.quantization.quantize_dynamic(
    model, {torch.nn.Linear}, dtype=torch.qint8  # 对 Linear 层做 int8 量化
)
torch.save(quantized_model, "solo_speech_quantized.pth")
```
  量化后推理速度可能稍有下降，但显存占用会明显降低。
梯度检查点（Gradient Checkpointing）要是你在“微调 / 训练” SoloSpeech（虽然你描述更像推理，但如果是自己训练复现），可以用梯度检查点技术：它用时间换空间，在反向传播时重新计算中间激活值，而不是全部存在显存里。PyTorch 里有 torch.utils.checkpoint可以用，示例如下（假设你的模型是 model，输入是 x）：
```
from torch.utils.checkpoint import checkpoint

def run_model(x):
    # 把模型前向过程包在 checkpoint 里
    return checkpoint(model, x)

output = run_model(x)
```
这样能减少训练时的显存峰值，但推理阶段如果不需要梯度，可能用处没那么大，不过也可以试试。

二、换轻量级替代方案 / 拆分任务

如果 SoloSpeech 实在改不动、硬件也跟不上，可以考虑下面这些“曲线救国”的办法：...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 17:14:02

|-转 VS聊天记录

syh0304: 帮我找到SOLOSPEECH项目里，关于模型定义的代码文件

GitHub Copilot:

syh0304: 据说有 SoloSpeech 的模型定义代码（比如 model.py 中的 nn.Module 类），并且该模型没有使用一些不支持量化的自定义算子，那你可以尝试手动对模型做 PTQ

GitHub Copilot: 在 model.py 文件中，定义了两个主要的模型类：

- `LMModel(nn.Module)`：语言模型，用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`：主模型，处理原始音频波形，包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`，且没有使用不支持量化的自定义算子，因此可以尝试手动对模型进行 PTQ（Post Training Quantization，训练后量化）。

如果你需要具体的 PTQ 代码示例或操作流程，可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗，因为我的8G显卡带不起来，我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置，关键参数如下：

- `--num_infer_steps`（默认200）：推理步数，影响显存和速度

- `--sample-rate`（默认16000）：采样率，影响输入数据大小

- `--eta`（默认0）：DDIM采样相关

- `--random-seed`（默认42）

此外，模型和推理相关的详细配置（如网络层数、采样长度等）通常在 yaml/json 配置文件里，比如 dance_diffusion_base.json 里 `sample_size`、`sample_rate`、`n_attn_layers` 等。

**如果你的显卡显存不足，可以尝试：**

1. 在运行时加参数 `--num_infer_steps 50` 或更低（如20），减少推理步数。

2. 降低采样率（如 `--sample-rate 8000`），但音质会下降。

3. 查找模型配置文件（如 json/yaml），把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本，请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下：

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`（提取器）和 `autoencoder`，去掉了 `SoloSpeech_TSR`（重构器）、`ScoreModel`（校正器）等后处理模块，推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链，包括提取器、重构器、校正器、说话人相似度判别等，流程更复杂，显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”，显存占用和推理时间都更低，适合显卡资源有限的场景。

- test.py 追求分离效果和完整性，显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果（tse_pred），直接保存音频。

- test.py 会输出两路分离结果（tse_pred, tsr_pred），并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型（提取器和压缩器）。

- test.py 还会加载重构器、校正器、说话人识别模型等。

**结论**：

如果你的显卡显存有限，建议优先使用 `fast_test.py`，它去除了大部分后处理和辅助模型，推理更快、更省资源。

syh0304: 那webui.bat怎么运行fast_test.py

GitHub Copilot: 你可以将 webui.bat 文件中的启动命令由：

```

.\python\python.exe app.py

```

改为：

```

.\python\python.exe scripts\fast_test.py [参数]

```

其中 `[参数]` 需要你手动指定，比如：

```

--test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

如果你想用 Gradio 网页界面调用 `fast_test.py`，需要把 app.py 里的 `run_solospeech` 函数改为调用 `fast_test.py` 的主流程（可以用 subprocess 或直接重构为 Python 函数）。

如需自动化修改或集成 Gradio，请告知你的具体需求。

syh0304: @echo off

chcp 65001

set PYTHONUSERBASE=.\python\Lib\site-packages

set PYTHONPATH=.\python\Lib\site-packages

set PATH=%PATH%;.\python\Scripts

.\python\python.exe scripts\fast_test.py

pause 这样，对吧

GitHub Copilot: 是的，这样写可以直接运行 `fast_test.py`，但你还需要在命令后加上必要的参数，否则脚本会报错（缺少输入文件等）。

例如：

```

.\python\python.exe scripts\fast_test.py --test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

你可以把参数写在同一行，或者在 bat 文件里用变量传递。...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 22:33:09

|-转 VS聊天记录

syh0304: 帮我找到SOLOSPEECH项目里，关于模型定义的代码文件

GitHub Copilot:

GitHub Copilot: 在 model.py 文件中，定义了两个主要的模型类：

- `LMModel(nn.Module)`：语言模型，用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`：主模型，处理原始音频波形，包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`，且没有使用不支持量化的自定义算子，因此可以尝试手动对模型进行 PTQ（Post Training Quantization，训练后量化）。

如果你需要具体的 PTQ 代码示例或操作流程，可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗，因为我的8G显卡带不起来，我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置，关键参数如下：

- `--num_infer_steps`（默认200）：推理步数，影响显存和速度

- `--sample-rate`（默认16000）：采样率，影响输入数据大小

- `--eta`（默认0）：DDIM采样相关

- `--random-seed`（默认42）

**如果你的显卡显存不足，可以尝试：**

1. 在运行时加参数 `--num_infer_steps 50` 或更低（如20），减少推理步数。

2. 降低采样率（如 `--sample-rate 8000`），但音质会下降。

3. 查找模型配置文件（如 json/yaml），把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本，请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下：

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`（提取器）和 `autoencoder`，去掉了 `SoloSpeech_TSR`（重构器）、`ScoreModel`（校正器）等后处理模块，推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链，包括提取器、重构器、校正器、说话人相似度判别等，流程更复杂，显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”，显存占用和推理时间都更低，适合显卡资源有限的场景。

- test.py 追求分离效果和完整性，显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果（tse_pred），直接保存音频。

- test.py 会输出两路分离结果（tse_pred, tsr_pred），并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型（提取器和压缩器）。

- test.py 还会加载重构器、校正器、说话人识别模型等。

**结论**：

如果你的显卡显存有限，建议优先使用 `fast_test.py`，它去除了大部分后处理和辅助模型，推理更快、更省资源。

syh0304: 那webui.bat怎么运行fast_test.py

GitHub Copilot: 你可以将 webui.bat 文件中的启动命令由：

```

.\python\python.exe app.py

```

改为：

```

.\python\python.exe scripts\fast_test.py [参数]

```

其中 `[参数]` 需要你手动指定，比如：

```

--test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

如需自动化修改或集成 Gradio，请告知你的具体需求。

syh0304: @echo off

chcp 65001

set PYTHONUSERBASE=.\python\Lib\site-packages

set PYTHONPATH=.\python\Lib\site-packages

set PATH=%PATH%;.\python\Scripts

.\python\python.exe scripts\fast_test.py

pause 这样，对吧

GitHub Copilot: 是的，这样写可以直接运行 `fast_test.py`，但你还需要在命令后加上必要的参数，否则脚本会报错（缺少输入文件等）。

例如：

```

.\python\python.exe scripts\fast_test.py --test-wav assets/test1.wav --enroll-wav assets/test1_enroll.wav --output-path output.wav --num_infer_steps 50

```

你可以把参数写在同一行，或者在 bat 文件里用变量传递。...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 22:34:32

|-转解决HF模型下载问题之于VS的聊天记录

好的，以下是从“这是在下模型吗，我已经直连HF怎么还这么慢，才60M的，一直在等”开始，后续所有关键解决方法和建议整理：

---

### 1. HuggingFace模型下载慢的原因与解决方法

- **原因分析：**
  - HuggingFace服务器本身限速或网络拥堵。
  - 国内网络访问 HuggingFace 速度慢，直连也可能受限。
  - 没有安装 `hf-transfer` 加速包，走的是普通 HTTP 下载。
  - 网络环境或代理设置影响下载速度。

- **解决方法：**
  - 手动下载模型文件（如 `.ckpt`、`config.yaml`），放到本地指定目录，避免自动下载。
  - 安装 HuggingFace 官方推荐的加速包：
    ```bash
    pip install huggingface_hub[hf_transfer]
    ```
  - 用镜像站（如“十二猴子”）下载模型文件，再放到本地。
  - 如果已下载模型，建议直接用本地路径加载，避免自动下载。

---

### 2. 加速包安装后如何使用

- 安装 `hf-transfer` 后，HuggingFace Hub 会自动优先使用加速下载，无需额外设置。
- 首次运行时会自动加速下载，速度会比之前快。
- 如果模型已在本地缓存，后续运行会直接加载本地文件，不再下载。

---

### 3. HF_ENDPOINT与加速包的关系

- `HF_ENDPOINT` 设置为 `hf-mirror.com` 时，加速包依然可以用，只是下载的源变成了镜像站。
- 加速包只负责提升下载效率，不影响你选择的下载源（endpoint）。
- 镜像站的同步速度和文件完整性取决于镜像本身，和加速包无关。

---

### 4. 手动下载模型与本地加载

- 直接把模型文件手动放到 HuggingFace 的缓存目录，并用 repo 名调用，通常无法直接加载。
- 推荐用 SpeechBrain/SpeakerRecognition 的自动下载方式，让库自己管理缓存和加载。
- 如果要用本地模型，建议用 `source` 指定本地目录（如 `source="models/ecapa-tdnn-vox2"`），而不是 HuggingFace repo 名。

---

### 5. 批量下载 HuggingFace 仓库文件方法

- 推荐用 Git LFS 或 `git clone`：
  ```bash
  git lfs install
  git clone https://huggingface.co/speechbrain/spkrec-resnet-voxceleb
  ```
- 或用 huggingface_hub Python 包：
  ```python
  from huggingface_hub import snapshot_download
  snapshot_download(repo_id="speechbrain/spkrec-resnet-voxceleb", local_dir="spkrec-resnet-voxceleb")
  ```

---

### 6. 判断 git clone 实际下载源

- 默认情况下，`git clone` 访问 HuggingFace 官方服务器（huggingface.co）。
- 可以用网络监控工具或 `git lfs logs last` 查看实际下载源。
- 如果设置了 `HF_ENDPOINT`，`git clone` 会走你配置的镜像站。

---

### 7. 临时切换 HF_ENDPOINT

- 临时取消环境变量（CMD）：
  ```cmd
  set HF_ENDPOINT=
  ```
- 临时用命令行覆盖变量（CMD）：
  ```cmd
  set HF_ENDPOINT=https://huggingface.co && git clone https://huggingface.co/speechbrain/spkrec-resnet-voxceleb
  ```
- PowerShell：
  ```powershell
  $env:HF_ENDPOINT="https://huggingface.co"; git clone https://huggingface.co/speechbrain/spkrec-resnet-voxceleb
  ```

---

如需进一步整理成文档或有其他技术问题，随时可以问我！

20250827 2236 ...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 22:36:40

|-转 VS聊天记录

syh0304: 帮我找到SOLOSPEECH项目里，关于模型定义的代码文件

GitHub Copilot:

GitHub Copilot: 在 model.py 文件中，定义了两个主要的模型类：

- `LMModel(nn.Module)`：语言模型，用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`：主模型，处理原始音频波形，包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`，且没有使用不支持量化的自定义算子，因此可以尝试手动对模型进行 PTQ（Post Training Quantization，训练后量化）。

如果你需要具体的 PTQ 代码示例或操作流程，可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗，因为我的8G显卡带不起来，我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置，关键参数如下：

- `--num_infer_steps`（默认200）：推理步数，影响显存和速度

- `--sample-rate`（默认16000）：采样率，影响输入数据大小

- `--eta`（默认0）：DDIM采样相关

- `--random-seed`（默认42）

**如果你的显卡显存不足，可以尝试：**

1. 在运行时加参数 `--num_infer_steps 50` 或更低（如20），减少推理步数。

2. 降低采样率（如 `--sample-rate 8000`），但音质会下降。

3. 查找模型配置文件（如 json/yaml），把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本，请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下：

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`（提取器）和 `autoencoder`，去掉了 `SoloSpeech_TSR`（重构器）、`ScoreModel`（校正器）等后处理模块，推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链，包括提取器、重构器、校正器、说话人相似度判别等，流程更复杂，显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”，显存占用和推理时间都更低，适合显卡资源有限的场景。

- test.py 追求分离效果和完整性，显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果（tse_pred），直接保存音频。

- test.py 会输出两路分离结果（tse_pred, tsr_pred），并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型（提取器和压缩器）。...

浏览更多内容请先登录。 立即注册

音频处理, Python

更新于：2025-08-27 23:14:33

转 多人声音提取特定人的人声

|-转 关于多人人声提取指定人声和腾讯元宝的对话记录 20250827

最终推荐（针对你的目标：提取目标人声音用于 RVC 训练）

一、先确认显存“底线”与模型量化

二、换轻量级替代方案 / 拆分任务

|-转 VS聊天记录

|-转 VS聊天记录

|-转 解决HF模型下载问题之于VS的聊天记录

|-转 VS聊天记录

7

1221

134w+

228

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

评测

随笔

服务器

音乐

历史

推荐内容

转多人声音提取特定人的人声

|-转关于多人人声提取指定人声和腾讯元宝的对话记录 20250827

|-转解决HF模型下载问题之于VS的聊天记录