Aprendizagem pessoal com IA
e orientação prática

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas

Introdução geral

O FunASR é um kit de ferramentas de reconhecimento de fala de código aberto desenvolvido pelo Dharma Institute da Alibaba para unir pesquisa acadêmica e aplicações industriais. Ele oferece suporte a uma ampla gama de funções de reconhecimento de fala, incluindo reconhecimento de fala (ASR), detecção de ponto final de voz (VAD), recuperação de pontuação, modelagem de linguagem, verificação de locutor, separação de locutor e reconhecimento de fala de diálogo com várias pessoas. O FunASR oferece scripts e tutoriais convenientes para dar suporte à inferência e ao ajuste fino de modelos pré-treinados, ajudando os usuários a criar rapidamente serviços eficientes de reconhecimento de fala.

Suporta uma variedade de formatos de entrada de áudio e vídeo, pode identificar dezenas de horas de áudio e vídeo longos em texto com pontuação, suporta centenas de solicitações de transcrição simultânea. Suporta chinês, inglês, japonês, cantonês e coreano.


 

Experiência on-line: https://www.funasr.com/

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas-1

 

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas-1

O pacote de software de transcrição de arquivos off-line FunASR oferece um serviço avançado de transcrição de arquivos off-line de fala. Com um link de reconhecimento de fala completo, combinando detecção de ponto final de fala, reconhecimento de fala, pontuação e outros modelos, ele pode reconhecer dezenas de horas de áudio e vídeo longos como texto pontuado e suporta centenas de solicitações de transcrição simultânea. A saída é um texto pontuado com carimbos de data e hora no nível da palavra e é compatível com ITN e palavras-chave definidas pelo usuário. Integração do lado do servidor com o ffmpeg, suporte a uma variedade de formatos de entrada de áudio e vídeo. O pacote fornece cliente de html, python, c++, java e c# e outras linguagens de programação, que o usuário pode usar diretamente e desenvolver mais.

 

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas-1

O pacote de software de ditado de fala em tempo real FunASR integra versões em tempo real de modelos de detecção de ponto final de fala, reconhecimento de fala, reconhecimento de voz, modelos de previsão de pontuação e assim por diante. Usando a sinergia de vários modelos, ele pode não apenas realizar a conversão de fala em texto em tempo real, mas também corrigir a saída com texto de transcrição de alta precisão no final da frase, o texto de saída com pontuação e suporte para várias solicitações. De acordo com diferentes cenários de usuários, ele suporta três modos de serviço: serviço de ditado de fala em tempo real (on-line), transcrição de frases em tempo não real (off-line) e colaboração integrada em tempo real e não real (2pass). O pacote de software oferece várias linguagens de programação, como html, python, c++, java e cliente c#, que os usuários podem usar diretamente e desenvolver mais.

 

Lista de funções

  • Reconhecimento de fala (ASR): suporta reconhecimento de fala off-line e em tempo real.
  • Detecção de ponto final de voz (VAD): detecta o início e o fim do sinal de voz.
  • Recuperação de pontuação: adiciona pontuação automaticamente para melhorar a legibilidade do texto.
  • Modelos de linguagem: oferece suporte à integração de vários modelos de linguagem.
  • Verificação do orador: verifica a identidade do orador.
  • Separação de alto-falantes: distinguir a fala de diferentes alto-falantes.
  • Reconhecimento de fala para várias conversas: suporta o reconhecimento de fala para várias conversas simultâneas.
  • Inferência e ajuste fino do modelo: fornece funções de inferência e ajuste fino para modelos pré-treinados.

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambiental::
    • Certifique-se de que o Python 3.7 ou superior esteja instalado.
    • Instale as bibliotecas de dependência necessárias:
      pip install -r requirements.txt
      
  2. Modelos para download::
    • Faça o download de modelos pré-treinados do ModelScope ou do HuggingFace:
      git clone https://github.com/modelscope/FunASR.git
      cd FunASR
      
  3. Ambiente de configuração::
    • Configurar variáveis de ambiente:
      exportação MODEL_DIR=/path/to/your/model
      

Processo de uso

  1. reconhecimento de fala::
    • Use a linha de comando para reconhecimento de fala:
      python recognise.py --model paraformer --input your_audio.wav
      
    • Reconhecimento de fala usando código Python:
      de funasr importação AutoModelo
      model = AutoModel.from_pretrained("paraformer")
      resultado = model.recognise("seu_audio.wav")
      impressão(resultado)
      
  2. detecção de ponto de extremidade de voz::
    • Use a linha de comando para detecção de ponto de extremidade de voz:
      python vad.py --model fsmn-vad --input your_audio.wav
      
    • Detecção de ponto final de fala usando código Python:
      de funasr importação AutoModelo
      vad_model = AutoModel.from_pretrained("fsmn-vad")
      vad_result = vad_model.detect("seu_audio.wav")
      impressão(vad_result)
      
  3. Recuperação de pontuação::
    • Use a linha de comando para recuperação de pontuação:
      python punctuate.py --model ct-punc --input your_text.txt
      
    • Recuperação de pontuação usando código Python:
      de funasr importação AutoModelo
      punc_model = AutoModel.from_pretrained("ct-punc")
      punc_result = punc_model.punctuate("seu_texto.txt")
      impressão(punc_result)
      
  4. Verificação do palestrante::
    • Use a linha de comando para verificar o alto-falante:
      python verify.py --model speaker-verification --input your_audio.wav
      
    • Verificação do alto-falante usando código Python:
      de funasr importação AutoModelo
      verify_model = AutoModel.from_pretrained("speaker-verification")
      verify_result = verify_model.verify("seu_audio.wav")
      impressão(verify_result)
      
  5. Reconhecimento de fala multi-fala::
    • Reconhecimento de fala para diálogos multijogador usando a linha de comando:
      python multi_asr.py --model multi-talker-asr --input your_audio.wav
      
    • Reconhecimento de fala para conversas com várias pessoas usando código Python:
      de funasr importação AutoModelo
      multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
      multi_asr_result = multi_asr_model.recognise("seu_audio.wav")
      impressão(multi_asr_result)
      
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil