用腾讯元宝编程

转 AI和Python 学习整理

|-转用腾讯元宝编程

PHPer 2025-08-20 432 0 0

运行代码是可用运行了，达不到效果，在优化的过程中，腾讯元宝卡住了，让我自己去查文档，没给最新的代码。于是我拿着代码和报错信息去找Kimi 20250820 0450
Kimi那边卡再模型下载了，pyannote/speaker-diarization模型不让下，Kimi就乱给了些方案，连3年不维护的项目都https://github.com/athena-team/athena都推荐出来了 20250820 0550
那在跑腾讯元宝看能不能解决 20250820 0626
我描述下我需求”我大概给你描述下我对音频处理的需求，音频是多人对话的，就比如86版西游记里的多人对话，个别地方可能会两三个人同时发声，我需要的是把这音频里指定的某个人的声音提取出来，音频基本都是人声，没有背景音乐。就比如1分钟的音频，送悟空在里面说了有20秒，不是一次说完的，是分几次说的，提取出把几段整合起来，尽量不要有其他人的声音。提取出的音频大概应该是20秒左右。要对中文语音识别效果好的模型“，现在代码能跑，但是无法识别提取到，2个音频是没问题的，要找到替代pyannote.audio 的方案

我现在有个想法，用声音识别的模型，识别出源音频里的指定的人声，并把其提取出来，请给出合适的模型，并提供完整的python代码。注意要中文语音识别好的模型

要实现从源音频中识别并提取指定的人声，这是一个相对复杂的任务，通常包含以下几个步骤：

? 一、任务拆解

你提出的需求可以拆解为以下几个子任务：

1.人声分离（Voice Separation）：从混合音频中分离出不同说话人的声音（比如说话人A和说话人B），或者分离人声和背景音乐。→ 这一步不区分具体是谁，只分离出“人声”或“某个人声”。
2.说话人识别（Speaker Identification）或说话人分离（Speaker Diarization）：判断/分离出“指定的人声”是谁，或者哪一段是人声属于目标说话人。→ 如果你要提取“指定的人声”，通常需要事先知道该说话人的声纹特征，或者通过某种方式标记目标说话人。
3.语音识别（ASR，Automatic Speech Recognition）：将分离出来的语音转换为文字，通常用于验证或后续处理。→ 如果你只是想提取人声，这一步不是必须的；但如果你是想“识别出某个说了特定内容的人声”，那就需要。
4.目标人声提取（目标说话人提取 / Target Speaker Extraction, TSE）：如果你已经知道目标说话人的声纹（embedding），可以直接提取该说话人的声音。这是目前学术界比较热门的方向。

✅ 推荐方案（结合你的需求：中文语音识别效果好 + 提取指定人声）

方案名称：目标说话人提取（Target Speaker Extraction, TSE）

如果你能提供目标说话人的一段参考音频（例如几秒钟该说话人讲话的音频），那么可以使用基于声纹的目标说话人提取模型，从混合音频中提取出该说话人的声音。

这是目前最接近你需求、且效果较好的方案。

?️ 推荐模型：SpeechBrain 的 TSE 模型或者 WavLM + TSE 相关模型

目前开源且支持中文、效果不错的方案包括：

1. SpeechBrain - TSE (Target Speaker Extraction)

•官方地址：https://speechbrain.github.io/提取人声（和音乐分离），再尝试说话人分离或识别✅ 能（有目标说话人几秒语音）推荐使用目标说话人提取（TSE），输入混合音频 + 参考音频，直接提取目标人声。可用 WavLM + TSE 实现

? 如果你能提供“目标说话人的参考音频”，我可以为你写出完整的 TSE 或 WavLM 声纹匹配 + 人声提取的 Python 代码！

? 请告诉我：

•你能否提供目标说话人的一段样音（比如5秒他/她讲话的音频）？
•你的源音频是几个人在说话，还是人声+背景音乐？
•你最终目标是“提取人声”还是“提取某人说的话并转成文字”？

有了这些信息，我可以给你定制化、可直接运行的完整 Python 代码！

你能否提供目标说话人的一段样音（比如5秒他/她讲话的音频）。上传音频提示wav格式不支持

an）暂时都不支持用户直接上传音频或图片文件并让 AI 直接处理。

二、你的意思是：“你在尝试自己运行代码或使用某个工具（比如 Spleeter、WavLM），然后系统/工具提示你上传的 WAV 文件格式不支持”

✅ 情况分析：

这种情况通常是：

•你用的工具（比如某些在线语音工具、Python 音频库、或者某些音频分离工具）对 WAV 文件的编码格式、采样率、位深度有要求；
•比如：
- •文件可能不是标准的 PCM WAV（有可能是 MP3 被误命名为 .wav，或者压缩过的 WAV）；
- •采样率不是 16kHz 或 44.1kHz；
- •是立体声（stereo），但工具只支持单声道（mono）；
- •文件头有问题，不是标准的 WAV 容器。

? 工具期望的标准 WAV 格式通常是：

•格式：PCM 编码
•采样率：16000 Hz（或 44100 Hz）
•声道：单声道（mono）
•位深度：16-bit

如果你的音频不是这种标准格式，某些工具（比如 WavLM、Spleeter、SpeechBrain）可能会报错或无法处理。

✅ 解决方案（根据你的实际目标）

? 如果你的目标是：

“我有一段目标说话人的音频（比如5秒），我想用它作为参考，从一段混合音频中提取出该说话人的声音。”

但你现在无法直接上传音频给我，那么可以按如下方式操作：

✅ 方法一：你自己处理音频，然后我提供完整可运行的代码

步骤 1：你自己准备好两段音频文件（本地即可，不用上传给我）

1.目标说话人音频（参考音频）
- •长度：5~10秒
- •内容：目标说话人清晰讲话
- •格式：建议用手机或电脑录音，保存为.wav文件
- •要求（如有可能）：
  - •单声道（mono）
  - •采样率 16kHz 或 44.1kHz
  - •PCM 编码（可以用 Audacity / FFmpeg 检查/转换）
2.混合音频（你想要分离出目标说话人的那个音频文件）
- •可以是多人对话，或者人声+背景音
- •同样保存为.wav格式

? 如果你不确定你的音频是否符合要求，可以用免费工具 Audacity转换/录制。...

浏览更多内容请先登录。 立即注册

分享的网址网站均收集自搜索引擎以及互联网，非查问网运营，查问网并没有提供其服务，请勿利用其做侵权以及违规行为。

AI, Python

更新于：2025-08-20 06:26:12

您需要登录后才可以评论。立即注册

AI和Python 学习整理

AudioSeparationGUI 对输入的音频，自动根据说话人进行分类 20250817

SoloSpeech 项目安装和运行测试 20250817

python 多项目部署优先考虑用Anaconda

espnet 声音分离

ClearerVoice-Studio 安装测试遇到的问题，安装pysptk一直失败

uvr5 bs roformer 爆显存以及关于huggingface的国内镜像hf-mirror.com

用Kimi编程

Studio One 调试插件Techivation AI-Rack 一键智能混音

在hf-mirror.com模型镜像站用代码下载模型遇到报错 speaker-diarization模型不...

Conda国内镜像源

转 AI和Python 学习整理

|-转 用腾讯元宝编程

? 一、任务拆解

✅ 推荐方案（结合你的需求：中文语音识别效果好 + 提取指定人声）

方案名称：目标说话人提取（Target Speaker Extraction, TSE）

?️ 推荐模型：SpeechBrain 的 TSE 模型 或者 WavLM + TSE 相关模型

1. SpeechBrain - TSE (Target Speaker Extraction)

? 请告诉我：

二、你的意思是：“你在尝试自己运行代码或使用某个工具（比如 Spleeter、WavLM），然后系统/工具提示你上传的 WAV 文件格式不支持”

✅ 解决方案（根据你的实际目标）

? 如果你的目标是：

✅ 方法一：你自己处理音频，然后我提供完整可运行的代码

步骤 1：你自己准备好两段音频文件（本地即可，不用上传给我）

7

1288

158w+

229

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

音乐

评测

随笔

服务器

历史

|-转用腾讯元宝编程

?️ 推荐模型：SpeechBrain 的 TSE 模型或者 WavLM + TSE 相关模型