WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

11.5K 00

Introdução geral

O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (por exemplo, palavras de preenchimento como "ah" e "hmm") para melhorar a fluência e o profissionalismo do texto. Essa ferramenta é especialmente adequada para usuários que precisam organizar rapidamente transcrições de reuniões, scripts de podcasts ou apresentações. Escrito em Python, o projeto combina tecnologia avançada de reconhecimento de fala com recursos de processamento de linguagem natural, e a natureza de código aberto do projeto permite que os desenvolvedores participem livremente de seu aprimoramento. O objetivo do WhisperChain é criar uma ferramenta de processamento de fala avançada e fácil de usar que permita que os usuários sejam mais produtivos em seu trabalho diário e em seus esforços criativos.

Lista de funções

conversão de voz em textoSuporte à conversão rápida de arquivos de áudio em texto com alta precisão de reconhecimento.
Otimização inteligente de textoRemoção automática de palavras de preenchimento e refinamento de declarações para melhorar a legibilidade do texto por meio de IA.
Suporte a vários formatosCompatível com formatos de áudio comuns, como MP3, WAV, etc.
Personalização de código abertoCódigo-fonte: O código-fonte é fornecido para que os usuários possam adaptar a funcionalidade às suas necessidades ou integrá-la a outros projetos.
arquivo de lotePermite que vários arquivos de áudio sejam processados de uma só vez, o que é adequado para tarefas de grande escala.
Visualização de edição ao vivoConteúdo do texto: O conteúdo do texto pode ser visualizado e ajustado em tempo real durante o processo de transcrição.

Usando a Ajuda

O WhisperChain é uma ferramenta de código aberto que requer uma certa base técnica para ser instalada e usada. Abaixo está um guia detalhado de instalação e operação para ajudar os usuários a começar rapidamente.

Processo de instalação

Como o WhisperChain é um projeto de código aberto no GitHub, ele requer um ambiente local que ofereça suporte a Python e instale as dependências relevantes. Aqui estão as etapas de instalação:

Preparação do ambiente
- Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando python --version Verificar.
- Instale o Git para fazer download do código do GitHub para usuários do Windows a partir do site oficial do Git e para usuários do Mac a partir do site do GitHub. brew install git Instalação.
projeto de clonagem
- Abra um terminal ou uma linha de comando e digite o seguinte comando para baixar o WhisperChain:
```
git clone https://github.com/chrischoy/WhisperChain.git
```
- Vá para o catálogo de projetos:
```
cd WhisperChain
```
Instalação de dependências
- As dependências do projeto estão listadas na seção requirements.txt execute o seguinte comando para instalá-lo:
```
pip install -r requirements.txt
```
- Se a aceleração de GPU for necessária (por exemplo, com uma placa de vídeo NVIDIA), você precisará instalar o CUDA e a versão correspondente do PyTorch adicionalmente, consulte Site oficial do PyTorch.
Verificar a instalação
- Após a conclusão da instalação, execute o seguinte comando para verificar se está funcionando:
```
python -m whisperchain --help
```
- Se uma mensagem de ajuda for exibida, a instalação foi bem-sucedida.

Como usar

Depois de instalado, os usuários podem operar o WhisperChain a partir da linha de comando ou integrá-lo aos seus projetos. Abaixo estão os detalhes de como usar os principais recursos:

1. fala para texto

procedimento::
1. Prepare o arquivo de áudio (por exemplo sample.mp3) no diretório do projeto ou em outro caminho acessível.
2. Digite-o no terminal:
```
python -m whisperchain transcribe --file sample.mp3 --output output.txt
```
3. O programa converte automaticamente o áudio em texto e o resultado é salvo no arquivo output.txt Médio.
Descrição do parâmetro::
- --fileEspecifica o caminho do arquivo de áudio.
- --outputEspecifique o caminho do arquivo de texto de saída, o padrão é o formato de texto simples.
advertência::
- Recomenda-se que os arquivos de áudio estejam no formato WAV mono de 16 kHz para melhor reconhecimento. Para a conversão, pode ser usado o FFmpeg:
```
ffmpeg -i sample.mp3 -ar 16000 -ac 1 -c:a pcm_s16le sample.wav
```

2. otimização inteligente de texto

procedimento::
1. Supondo que já exista um texto transcrito (por exemplo output.txt), execute o comando optimise:
```
python -m whisperchain refine --input output.txt --output refined.txt
```
2. A IA analisa automaticamente o texto, remove palavras de preenchimento e otimiza a declaração, e o resultado é salvo como refined.txt.
Descrição do parâmetro::
- --inputDigite o arquivo de texto a ser otimizado.
- --outputArquivo de saída otimizado.
Funções em destaque::
- A intensidade da otimização pode ser ajustada por meio do arquivo de configuração, por exemplo, retendo determinadas expressões específicas, conforme descrito na documentação do projeto.

3. processamento em lote

procedimento::
1. Colocar vários arquivos de áudio em uma pasta (por exemplo audio_files).
2. Execute o comando de processamento em lote:
```
python -m whisperchain batch --dir audio_files --output_dir results
```
3. O programa processa todos os áudios da pasta, um a um, gerando o arquivo de texto correspondente, que é salvo na pasta results Pasta.
Descrição do parâmetro::
- --dirPasta: A pasta onde os arquivos de áudio estão localizados.
- --output_dirPasta de resultados de saída.

4. visualização editorial em tempo real

procedimento::
1. Ativar o modo em tempo real:
```
python -m whisperchain live --file sample.mp3
```
2. O programa exibe o progresso da transcrição no terminal e o usuário pode pressionar a tecla Ctrl+C Abortar e salvar o resultado atual.
advertência::
- O modo em tempo real é mais adequado para áudio curto; o áudio longo pode exigir mais memória.

Exemplo de fluxo de operação

Suponha que você tenha uma gravação de uma reunião meeting.mp3Quero converter para texto e otimizar:

Converta o formato primeiro:

ffmpeg -i meeting.mp3 -ar 16000 -ac 1 meeting.wav

2. 转录：

python -m whisperchain transcribe --file meeting.wav --output meeting.txt

3. 优化：

python -m whisperchain refine --input meeting.txt --output meeting_refined.txt

4. 检查 `meeting_refined.txt`，即可看到优化后的文本。
### 进阶使用
- **自定义功能**：开发者可修改 `whisperchain.py` 文件，添加新功能或调整算法。
- **集成到项目**：将 WhisperChain 作为模块导入，例如：
```python
from whisperchain import transcribe, refine
text = transcribe("audio.mp3")
refined_text = refine(text)

problemas comuns

E se o reconhecimento de áudio não for preciso?
- Verifique a qualidade do áudio para evitar ruído de fundo excessivo.
- A atualização das bibliotecas de dependências pode exigir o modelo de fala mais recente.
O que devo fazer se receber um erro de tempo de execução?
- Certifique-se de que as dependências estejam totalmente instaladas e verifique a compatibilidade da versão do Python.

Com essas etapas, os usuários podem usar facilmente o WhisperChain para processar tarefas de voz e aproveitar a conveniência trazida pela IA.