多人声音提取特定人的人声

VS聊天记录

PHPer 2025-08-27 25 0 0

syh0304: 帮我找到SOLOSPEECH项目里,关于模型定义的代码文件

GitHub Copilot:

syh0304: 据说有 SoloSpeech 的模型定义代码(比如 model.py 中的 nn.Module 类),并且该模型 没有使用一些不支持量化的自定义算子,那你 可以尝试手动对模型做 PTQ

GitHub Copilot: 在 model.py 文件中,定义了两个主要的模型类:

- `LMModel(nn.Module)`:语言模型,用于估算每个码本条目的概率。

- `EncodecModel(nn.Module)`:主模型,处理原始音频波形,包括编码器、解码器和量化器。

这些模型均继承自 `torch.nn.Module`,且没有使用不支持量化的自定义算子,因此可以尝试手动对模型进行 PTQ(Post Training Quantization,训练后量化)。

如果你需要具体的 PTQ 代码示例或操作流程,可以继续说明你的需求。

syh0304: 能看到这个项目现在默认跑调用的哪些参数吗,因为我的8G显卡带不起来,我想把设置调低些。运行项目的文件是webui.bat

GitHub Copilot: 项目默认调用参数主要在 test.py 里通过 argparse 设置,关键参数如下:

- `--num_infer_steps`(默认200):推理步数,影响显存和速度

- `--sample-rate`(默认16000):采样率,影响输入数据大小

- `--eta`(默认0):DDIM采样相关

- `--random-seed`(默认42)

此外,模型和推理相关的详细配置(如网络层数、采样长度等)通常在 yaml/json 配置文件里,比如 dance_diffusion_base.json 里 `sample_size`、`sample_rate`、`n_attn_layers` 等。

**如果你的显卡显存不足,可以尝试:**

1. 在运行时加参数 `--num_infer_steps 50` 或更低(如20),减少推理步数。

2. 降低采样率(如 `--sample-rate 8000`),但音质会下降。

3. 查找模型配置文件(如 json/yaml),把 `sample_size`、`n_attn_layers` 等参数调低。

如需具体修改方法或自动化脚本,请告知你的目标参数或需求。

syh0304: 两个文件的区别

GitHub Copilot: `fast_test.py` 和 test.py 的主要区别如下:

1. **模型调用简化**

- `fast_test.py` 只用到了 `SoloSpeech_TSE`(提取器)和 `autoencoder`,去掉了 `SoloSpeech_TSR`(重构器)、`ScoreModel`(校正器)等后处理模块,推理流程更简单。

- test.py 包含完整的 SoloSpeech 推理链,包括提取器、重构器、校正器、说话人相似度判别等,流程更复杂,显存占用更高。

2. **推理速度与显存占用**

- `fast_test.py` 设计为“Fast and light-weight inference”,显存占用和推理时间都更低,适合显卡资源有限的场景。

- test.py 追求分离效果和完整性,显存和算力需求更高。

3. **输出结果**

- `fast_test.py` 只输出一次分离结果(tse_pred),直接保存音频。

- test.py 会输出两路分离结果(tse_pred, tsr_pred),并通过说话人相似度和校正器进一步筛选和优化输出。

4. **依赖和加载的模型文件**

- `fast_test.py` 只下载和加载必要的模型(提取器和压缩器)。...

立即注册

更新于:2025-08-27 23:14:33
    您需要登录后才可以评论。 立即注册
    相关内容

    聊天服务器搭建-使用snap+Nginx快速安装RocketChat(2022年6月最新版)

    在OnpenVZ 上安装Rocket Chat 实测中

    AI和Python 学习整理

    AudioSeparationGUI 对输入的音频,自动根据说话人进行分类 20250817

    SoloSpeech 项目安装和运行测试 20250817

    python 多项目部署 优先考虑用Anaconda

    espnet 声音分离

    ClearerVoice-Studio 安装测试遇到的问题,安装pysptk一直失败

    uvr5 bs roformer 爆显存以及关于huggingface的国内镜像hf-mirror.com

    用Kimi编程

    Studio One 调试插件Techivation AI-Rack 一键智能混音

    在hf-mirror.com模型镜像站用代码下载模型遇到报错 speaker-diarization模型不...

    用腾讯元宝编程

    Conda国内镜像源

    数字对象标识符 (DOI)

    在创建conda环境时,如果不指定Python版本,conda将不会默认安装Python。

    whisperx 的使用 音频处理

    Win10系统 Trae的使用 关于powershell报错: 因为在此系统上禁止运行脚本

    warp的使用

    AI编程工具比较

    FastApi

    Python 学习整理2

    fastapi-speaker-extractor whisperx 项目报错 ValueError: The chosen ...

    python报错 UnicodeEncodeError: 'gbk' codec can't encode character '\u...

    python whisperx 报错 in load_align_model raise ValueError(f'The ch...

    pyannote/embedding 模型是真难引入模型

    Trae 或者是我自己 莫名奇妙创建了个文件,影响了项目代码的运行。

    WhisperX 无法加载模型

    HUGGINGFACE_HUB_CACHE 设置错误导致的问题

    Trae的bug太多了,怪不得免费

    通义之旅

    通义之旅2

    目标说话人声音提取模型训练的思路

    python报错 can't convert cuda:0 device type tensor to numpy. Use Tenso...

    Expected all tensors to be on the same device, but found at least two ...

    腾讯元宝推荐的项目结构(音频处理项目)

    音频处理项目fse

    各种python 相关命令

    python 报错 SyntaxError: 'return' outside function

    python常用命令

    腾讯编程助手

    python一些扩展兼容安装的处理方案

    多人声音提取特定人的人声

    关于多人人声提取指定人声和腾讯元宝的对话记录 20250827

    VS聊天记录

    VS聊天记录

    解决HF模型下载问题之于VS的聊天记录

    VS聊天记录

    Python 常用命令整理

    魔塔社区 modelscope 常用命令

    推荐内容

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    BT磁力搜索网站汇总和找不到的资源

    什么是磁力链接,您如何使用?

    Z-Library:全球最大的数字图书馆/含打不开的解决方案/镜像

    使用V2Ray的mKCP协议加速游戏

    v2rayN已停止工作

    【车险课堂】什么是无赔款优待系数ncd,你“造”吗?