AI和Python 学习整理

用腾讯元宝编程

PHPer 2025-08-20 1 0 0

运行代码是可用运行了,达不到效果,在优化的过程中,腾讯元宝卡住了,让我自己去查文档,没给最新的代码。于是我拿着代码和报错信息去找Kimi 20250820 0450

Kimi那边卡再模型下载了,pyannote/speaker-diarization模型不让下,Kimi就乱给了些方案,连3年不维护的项目都https://github.com/athena-team/athena都推荐出来了 20250820 0550

那在跑腾讯元宝看能不能解决 20250820 0626

我描述下我需求”我大概给你描述下我对音频处理的需求,音频是多人对话的,就比如86版西游记里的多人对话,个别地方可能会两三个人同时发声,我需要的是把这音频里指定的某个人的声音提取出来,音频基本都是人声,没有背景音乐。就比如1分钟的音频,送悟空在里面说了有20秒,不是一次说完的,是分几次说的,提取出把几段整合起来,尽量不要有其他人的声音。提取出的音频大概应该是20秒左右。要对中文语音识别效果好的模型“,现在代码能跑,但是无法识别提取到,2个音频是没问题的,要找到替代pyannote.audio 的方案

我现在有个想法,用声音识别的模型,识别出源音频里的指定的人声,并把其提取出来,请给出合适的模型,并提供完整的python代码。注意要中文语音识别好的模型

要实现从源音频中识别并提取指定的人声,这是一个相对复杂的任务,通常包含以下几个步骤:

🧠 一、任务拆解

你提出的需求可以拆解为以下几个子任务:

  1. 1.人声分离(Voice Separation):从混合音频中分离出不同说话人的声音(比如说话人A和说话人B),或者分离人声和背景音乐。→ 这一步不区分具体是谁,只分离出“人声”或“某个人声”。
  2. 2.说话人识别(Speaker Identification) 或 说话人分离(Speaker Diarization):判断/分离出“指定的人声”是谁,或者哪一段是人声属于目标说话人。→ 如果你要提取“指定的人声”,通常需要事先知道该说话人的声纹特征,或者通过某种方式标记目标说话人。
  3. 3.语音识别(ASR,Automatic Speech Recognition):将分离出来的语音转换为文字,通常用于验证或后续处理。→ 如果你只是想提取人声,这一步不是必须的;但如果你是想“识别出某个说了特定内容的人声”,那就需要。
  4. 4.目标人声提取(目标说话人提取 / Target Speaker Extraction, TSE):如果你已经知道目标说话人的声纹(embedding),可以直接提取该说话人的声音。这是目前学术界比较热门的方向。

✅ 推荐方案(结合你的需求:中文语音识别效果好 + 提取指定人声)

方案名称:目标说话人提取(Target Speaker Extraction, TSE)

如果你能提供目标说话人的一段参考音频(例如几秒钟该说话人讲话的音频),那么可以使用基于声纹的目标说话人提取模型,从混合音频中提取出该说话人的声音。

这是目前最接近你需求、且效果较好的方案。


🛠️ 推荐模型:SpeechBrain 的 TSE 模型 或者 WavLM + TSE 相关模型

目前开源且支持中文、效果不错的方案包括:

1. SpeechBrain - TSE (Target Speaker Extraction)

  • •官方地址:https://speechbrain.github.io/提取人声(和音乐分离),再尝试说话人分离或识别✅ 能(有目标说话人几秒语音)推荐使用 目标说话人提取(TSE),输入混合音频 + 参考音频,直接提取目标人声。可用 WavLM + TSE 实现

📌 如果你能提供“目标说话人的参考音频”,我可以为你写出完整的 TSE 或 WavLM 声纹匹配 + 人声提取的 Python 代码!


📩 请告诉我:

  • •你能否提供目标说话人的一段样音(比如5秒他/她讲话的音频)?
  • •你的源音频是几个人在说话,还是人声+背景音乐?
  • •你最终目标是“提取人声”还是“提取某人说的话并转成文字”?

有了这些信息,我可以给你定制化、可直接运行的完整 Python 代码!


你能否提供目标说话人的一段样音(比如5秒他/她讲话的音频) 。上传音频提示wav格式不支持

an)暂时都不支持用户直接上传音频或图片文件并让 AI 直接处理。


二、你的意思是:“你在尝试自己运行代码或使用某个工具(比如 Spleeter、WavLM),然后系统/工具提示你上传的 WAV 文件格式不支持”

✅ 情况分析:

这种情况通常是:

  • •你用的工具(比如某些在线语音工具、Python 音频库、或者某些音频分离工具)对 WAV 文件的编码格式、采样率、位深度有要求;
  • •比如:
    • •文件可能不是标准的 PCM WAV(有可能是 MP3 被误命名为 .wav,或者压缩过的 WAV);
    • •采样率不是 16kHz 或 44.1kHz;
    • •是立体声(stereo),但工具只支持单声道(mono);
    • •文件头有问题,不是标准的 WAV 容器。

🎧 工具期望的标准 WAV 格式通常是:

  • •格式:PCM 编码
  • •采样率:16000 Hz(或 44100 Hz)
  • •声道:单声道(mono)
  • •位深度:16-bit

如果你的音频不是这种标准格式,某些工具(比如 WavLM、Spleeter、SpeechBrain)可能会报错或无法处理。


✅ 解决方案(根据你的实际目标)

🎯 如果你的目标是:

“我有一段目标说话人的音频(比如5秒),我想用它作为参考,从一段混合音频中提取出该说话人的声音。”

但你现在无法直接上传音频给我,那么可以按如下方式操作:


✅ 方法一:你自己处理音频,然后我提供完整可运行的代码

步骤 1:你自己准备好两段音频文件(本地即可,不用上传给我)

  1. 1.目标说话人音频(参考音频)
    • •长度:5~10秒
    • •内容:目标说话人清晰讲话
    • •格式:建议用手机或电脑录音,保存为.wav文件
    • •要求(如有可能):
      • •单声道(mono)
      • •采样率 16kHz 或 44.1kHz
      • •PCM 编码(可以用 Audacity / FFmpeg 检查/转换)
  2. 2.混合音频(你想要分离出目标说话人的那个音频文件)
    • •可以是多人对话,或者人声+背景音
    • •同样保存为.wav格式

🔧 如果你不确定你的音频是否符合要求,可以用免费工具 Audacity转换/录制。...

立即注册
分享的网址网站均收集自搜索引擎以及互联网,非查问网运营,查问网并没有提供其服务,请勿利用其做侵权以及违规行为。

更新于:2025-08-20 06:26:12
    您需要登录后才可以评论。 立即注册
    相关内容

    AI和Python 学习整理

    AudioSeparationGUI 对输入的音频,自动根据说话人进行分类 20250817

    SoloSpeech 项目安装和运行测试 20250817

    python 多项目部署 优先考虑用Anaconda

    espnet 声音分离

    ClearerVoice-Studio 安装测试遇到的问题,安装pysptk一直失败

    uvr5 bs roformer 爆显存以及关于huggingface的国内镜像hf-mirror.com

    用Kimi编程

    Studio One 调试插件Techivation AI-Rack 一键智能混音

    在hf-mirror.com模型镜像站用代码下载模型遇到报错 speaker-diarization模型不...

    用腾讯元宝编程

    Conda国内镜像源

    数字对象标识符 (DOI)

    在创建conda环境时,如果不指定Python版本,conda将不会默认安装Python。

    whisperx 的使用 音频处理

    Win10系统 Trae的使用 关于powershell报错: 因为在此系统上禁止运行脚本

    AI编程工具比较

    python 学习中遇到的问题整理

    没有使用asynccontextmanager ,但是报cannot import name 'asynccontextman...

    python3.10.0+pyinstaller4.7打包,IndexError: tuple index out of range...

    error: Microsoft Visual C++ 14.0 or greater is required.

    安装conda搭建python环境(保姆级教程)

    学习飞浆过程中遇到“缺少paddle.fluid”

    [NLP实践01]simpletransformers安装和文本分类简单实现

    primeqa 安装requirements时报错

    sublime text下 Python 问题:TabError: inconsistent use of tabs and s...

    uiautomation报错 No module named 'comtypes.stream' Can not load UIA...

    解决无法加载UIAutomationCore.dll的报错

    汉字目标点选识别-ddddocr(返回识别的内容和位置)

    python 常用命令

    opencv报错及解决:AttributeError: module ‘cv2‘ has no attribute ‘...

    AttributeError: module 'cv2.cv2' has no attribute 'cv'

    sublime text常用快捷键及多行列模式批量操作教程

    python配置opencv环境后,读取图片,报错:can‘t open/read file: check f...

    python代码整理(2022年4月-2024年3月)

    Python和PHP获取百度url跳转的真实地址代码(2022年4月实测有效)

    Pip/python-如何查看已安装的包有哪些版本?如何查看某个包存在哪些版本?pip...

    用undetected_chromedriver代替selenium解决浏览器打不开网页

    sublime text下 Python 问题:TabError: inconsistent use of tabs and s...

    Python的扩展和模块安装时遇到的问题整理

    windows环境下python3安装Crypto扩展

    pip install​ 报错 ERROR: Can not execute setup.py since setuptools i...

    运行python -V 报错 -bash: python: command not found

    protobuf requires Python ‘>=3.7‘ but the running Python is 3.6.5的解...

    推荐内容

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    BT磁力搜索网站汇总和找不到的资源

    什么是磁力链接,您如何使用?

    Z-Library:全球最大的数字图书馆/含打不开的解决方案/镜像

    使用V2Ray的mKCP协议加速游戏

    v2rayN已停止工作

    【车险课堂】什么是无赔款优待系数ncd,你“造”吗?