AI个人学习
和实操指南

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

综合介绍

FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包,旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程,支持预训练模型的推理与微调,帮助用户快速构建高效的语音识别服务。

支持各种音视频格式输入,可以把几十个小时的长音频与视频识别成带标点的文字,支持上百路请求同时进行转写 支持中文、英文、日文、粤语和韩语等。


 

在线体验:https://www.funasr.com/

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别-1

 

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别-1

FunASR离线文件转写软件包,提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。服务端集成有ffmpeg,支持各种音视频格式输入。软件包提供有html、python、c++、java与c#等多种编程语言客户端,用户可以直接使用与进一步开发。

 

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别-1

FunASR实时语音听写软件包,集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同,既可以实时的进行语音转文字,也可以在说话句尾用高精度转写文字修正输出,输出文字带有标点,支持多路请求。依据使用者场景不同,支持实时语音听写服务(online)、非实时一句话转写(offline)与实时与非实时一体化协同(2pass)3种服务模式。软件包提供有html、python、c++、java与c#等多种编程语言客户端,用户可以直接使用与进一步开发。

 

功能列表

  • 语音识别(ASR):支持离线和实时语音识别。
  • 语音端点检测(VAD):检测语音信号的起始和结束。
  • 标点恢复:自动添加标点符号,提高文本可读性。
  • 语言模型:支持多种语言模型的集成。
  • 说话人验证:验证说话人的身份。
  • 说话人分离:区分不同说话人的语音。
  • 多人对话语音识别:支持多人同时对话的语音识别。
  • 模型推理与微调:提供预训练模型的推理和微调功能。

 

使用帮助

安装流程

  1. 环境准备
    • 确保已安装Python 3.7或以上版本。
    • 安装必要的依赖库:
      pip install -r requirements.txt
      
  2. 下载模型
    • 从ModelScope或HuggingFace下载预训练模型:
      git clone https://github.com/modelscope/FunASR.git
      cd FunASR
      
  3. 配置环境
    • 配置环境变量:
      export MODEL_DIR=/path/to/your/model
      

使用流程

  1. 语音识别
    • 使用命令行进行语音识别:
      python recognize.py --model paraformer --input your_audio.wav
      
    • 使用Python代码进行语音识别:
      from funasr import AutoModel
      model = AutoModel.from_pretrained("paraformer")
      result = model.recognize("your_audio.wav")
      print(result)
      
  2. 语音端点检测
    • 使用命令行进行语音端点检测:
      python vad.py --model fsmn-vad --input your_audio.wav
      
    • 使用Python代码进行语音端点检测:
      from funasr import AutoModel
      vad_model = AutoModel.from_pretrained("fsmn-vad")
      vad_result = vad_model.detect("your_audio.wav")
      print(vad_result)
      
  3. 标点恢复
    • 使用命令行进行标点恢复:
      python punctuate.py --model ct-punc --input your_text.txt
      
    • 使用Python代码进行标点恢复:
      from funasr import AutoModel
      punc_model = AutoModel.from_pretrained("ct-punc")
      punc_result = punc_model.punctuate("your_text.txt")
      print(punc_result)
      
  4. 说话人验证
    • 使用命令行进行说话人验证:
      python verify.py --model speaker-verification --input your_audio.wav
      
    • 使用Python代码进行说话人验证:
      from funasr import AutoModel
      verify_model = AutoModel.from_pretrained("speaker-verification")
      verify_result = verify_model.verify("your_audio.wav")
      print(verify_result)
      
  5. 多人对话语音识别
    • 使用命令行进行多人对话语音识别:
      python multi_asr.py --model multi-talker-asr --input your_audio.wav
      
    • 使用Python代码进行多人对话语音识别:
      from funasr import AutoModel
      multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
      multi_asr_result = multi_asr_model.recognize("your_audio.wav")
      print(multi_asr_result)
      
未经允许不得转载:首席AI分享圈 » FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文