|-转 espnet 声音分离
ESPnet 是一个端到端的语音处理工具包,涵盖端到端语音识别、文本转语音、语音翻译、语音增强、说话人分类、口语理解等。ESPnet 使用 pytorch 作为深度学习引擎,并遵循 Kaldi 风格的数据处理、特征提取/格式和配方,为各种语音处理实验提供完整的设置。 ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
太爽了,看来是找到宝了,果然是腾讯元宝 20250818
https://github.com/espnet/espnet 9.4K Star,2.3 Fork
在腾讯元宝上提问:
OpenSound/SoloSpeech-models 这个模型对中文处理效果太差,另外模型执行太慢了,有没有替代的模型
回答里的其他推荐的中文TTS模型和工具,提到了“PaddleSpeech 和 ESPnet”,看了下https://github.com/PaddlePaddle/PaddleSpeech已经两三年没人维护了,而https://github.com/espnet/espnet几天前还有人维护代码,特别是项目里的espnet2,2天前还有人维护(20250818)
项目太大了,没有找到详细的测试方式,于是在必应上搜:espnet 声音分离 20250818 01:47
在必应上搜“espnet2 声纹提取”,第一条结果就是...