Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas

Introdução geral

O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (por exemplo, palavras de preenchimento como "ah" e "hmm") para melhorar a fluência e o profissionalismo do texto. Essa ferramenta é especialmente adequada para usuários que precisam organizar rapidamente transcrições de reuniões, scripts de podcasts ou apresentações. Escrito em Python, o projeto combina tecnologia avançada de reconhecimento de fala com recursos de processamento de linguagem natural, e a natureza de código aberto do projeto permite que os desenvolvedores participem livremente de seu aprimoramento. O objetivo do WhisperChain é criar uma ferramenta de processamento de fala avançada e fácil de usar que permita que os usuários sejam mais produtivos em seu trabalho diário e em seus esforços criativos.

WhisperChain: conversão de fala em texto em tempo real e otimização da expressão falada-1


 

Lista de funções

  • conversão de voz em textoSuporte à conversão rápida de arquivos de áudio em texto com alta precisão de reconhecimento.
  • Otimização inteligente de textoRemoção automática de palavras de preenchimento e refinamento de declarações para melhorar a legibilidade do texto por meio de IA.
  • Suporte a vários formatosCompatível com formatos de áudio comuns, como MP3, WAV, etc.
  • Personalização de código abertoCódigo-fonte: O código-fonte é fornecido para que os usuários possam adaptar a funcionalidade às suas necessidades ou integrá-la a outros projetos.
  • arquivo de lotePermite que vários arquivos de áudio sejam processados de uma só vez, o que é adequado para tarefas de grande escala.
  • Visualização de edição ao vivoConteúdo do texto: O conteúdo do texto pode ser visualizado e ajustado em tempo real durante o processo de transcrição.

 

Usando a Ajuda

O WhisperChain é uma ferramenta de código aberto que requer uma certa base técnica para ser instalada e usada. Abaixo está um guia detalhado de instalação e operação para ajudar os usuários a começar rapidamente.

Processo de instalação

Como o WhisperChain é um projeto de código aberto no GitHub, ele requer um ambiente local que ofereça suporte a Python e instale as dependências relevantes. Aqui estão as etapas de instalação:

  1. Preparação do ambiente
    • Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando python --versão Verificar.
    • Instale o Git para fazer download do código do GitHub para usuários do Windows a partir do site oficial do Git e para usuários do Mac a partir do site do GitHub. brew install git Instalação.
  2. projeto de clonagem
    • Abra um terminal ou uma linha de comando e digite o seguinte comando para baixar o WhisperChain:
      git clone https://github.com/chrischoy/WhisperChain.git
      
    • Vá para o catálogo de projetos:
      cd WhisperChain
      
  3. Instalação de dependências
    • As dependências do projeto estão listadas na seção requisitos.txt execute o seguinte comando para instalá-lo:
      pip install -r requirements.txt
      
    • Se a aceleração de GPU for necessária (por exemplo, com uma placa de vídeo NVIDIA), você precisará instalar o CUDA e a versão correspondente do PyTorch adicionalmente, consulte Site oficial do PyTorch.
  4. Verificar a instalação
    • Após a conclusão da instalação, execute o seguinte comando para verificar se está funcionando:
      python -m whisperchain --help
      
    • Se uma mensagem de ajuda for exibida, a instalação foi bem-sucedida.

Como usar

Depois de instalado, os usuários podem operar o WhisperChain a partir da linha de comando ou integrá-lo aos seus projetos. Abaixo estão os detalhes de como usar os principais recursos:

1. fala para texto

  • procedimento::
    1. Prepare o arquivo de áudio (por exemplo sample.mp3) no diretório do projeto ou em outro caminho acessível.
    2. Digite-o no terminal:
      python -m whisperchain transcribe --file sample.mp3 --output output.txt
      
    3. O programa converte automaticamente o áudio em texto e o resultado é salvo no arquivo output.txt Médio.
  • Descrição do parâmetro::
    • --ArquivoEspecifica o caminho do arquivo de áudio.
    • --outputEspecifique o caminho do arquivo de texto de saída, o padrão é o formato de texto simples.
  • advertência::
    • Recomenda-se que os arquivos de áudio estejam no formato WAV mono de 16 kHz para melhor reconhecimento. Para a conversão, pode ser usado o FFmpeg:
      ffmpeg -i sample.mp3 -ar 16000 -ac 1 -c:a pcm_s16le sample.wav
      

2. otimização inteligente de texto

  • procedimento::
    1. Supondo que já exista um texto transcrito (por exemplo output.txt), execute o comando optimise:
      python -m whisperchain refine --input output.txt --output refined.txt
      
    2. A IA analisa automaticamente o texto, remove palavras de preenchimento e otimiza a declaração, e o resultado é salvo como refinado.txt.
  • Descrição do parâmetro::
    • -entradaDigite o arquivo de texto a ser otimizado.
    • --outputArquivo de saída otimizado.
  • Funções em destaque::
    • A intensidade da otimização pode ser ajustada por meio do arquivo de configuração, por exemplo, retendo determinadas expressões específicas, conforme descrito na documentação do projeto.

3. processamento em lote

  • procedimento::
    1. Colocar vários arquivos de áudio em uma pasta (por exemplo arquivos_de_áudio).
    2. Execute o comando de processamento em lote:
      python -m whisperchain batch --dir audio_files --output_dir results
      
    3. O programa processa todos os áudios da pasta, um a um, gerando o arquivo de texto correspondente, que é salvo na pasta resultados Pasta.
  • Descrição do parâmetro::
    • --dirPasta: A pasta onde os arquivos de áudio estão localizados.
    • --output_dirPasta de resultados de saída.

4. visualização editorial em tempo real

  • procedimento::
    1. Ativar o modo em tempo real:
      python -m whisperchain live --file sample.mp3
      
    2. O programa exibe o progresso da transcrição no terminal e o usuário pode pressionar a tecla Ctrl+C Abortar e salvar o resultado atual.
  • advertência::
    • O modo em tempo real é mais adequado para áudio curto; o áudio longo pode exigir mais memória.

Exemplo de fluxo de operação

Suponha que você tenha uma gravação de uma reunião reunião.mp3Quero converter para texto e otimizar:

  1. Converta o formato primeiro:

ffmpeg -i meeting.mp3 -ar 16000 -ac 1 meeting.wav

2) Transcrição:

python -m whisperchain transcribe --file meeting.wav --output meeting.txt

3. otimização:

python -m whisperchain refine --input meeting.txt --output meeting_refined.txt

4. verifique `meeting_refined.txt` para ver o texto otimizado.
### Uso avançado
- Personalização**: os desenvolvedores podem modificar o arquivo `whisperchain.py` para adicionar novos recursos ou ajustar o algoritmo.
- Integração em projetos**: importe o WhisperChain como um módulo, por exemplo:
``python
from whisperchain import transcribe, refine
text = transcribe("audio.mp3")
refined_text = refine(text)

problemas comuns

  • E se o reconhecimento de áudio não for preciso?
    • Verifique a qualidade do áudio para evitar ruído de fundo excessivo.
    • A atualização das bibliotecas de dependências pode exigir o modelo de fala mais recente.
  • O que devo fazer se receber um erro de tempo de execução?
    • Certifique-se de que as dependências estejam totalmente instaladas e verifique a compatibilidade da versão do Python.

Com essas etapas, os usuários podem usar facilmente o WhisperChain para processar tarefas de voz e aproveitar a conveniência trazida pela IA.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil