Introdução geral
O Easy-Voice-Toolkit é um kit de ferramentas versátil baseado no Projeto de Fala de Código Aberto que oferece uma ampla variedade de ferramentas de áudio automatizadas para reconhecimento de fala, transcrição de fala, conversão de fala, criação de conjuntos de dados e treinamento de modelos. Os usuários podem usar essas ferramentas de forma seletiva, conforme necessário, ou usá-las sequencialmente para converter gradualmente arquivos de áudio brutos em modelos de fala ideais. O kit de ferramentas é compatível com a implantação local e os usuários podem fazer o download de um pacote de instalação leve ou de um pacote portátil para uso.
Lista de funções
- processamento de áudio
- reconhecimento de fala
- transcrição de voz
- Criação de conjunto de dados (conversão de SRT e divisão de WAV)
- treinamento de modelos
- síntese de fala
Usando a Ajuda
Processo de instalação:
- Download do instalador levePacotes pequenos que contêm instruções de instalação, mas não contêm as dependências e os modelos de ambiente necessários.
- Download do estojo de transporte pronto para usoPacote grande com todas as dependências de ambiente e várias predefinições de modelo, baixe e descompacte para usar.
Implementação local - Instalação do usuário:
- Faça o download do pacote de instalação leve ou do pacote portátil pronto para uso.
- Descompacte o arquivo baixado.
- estar em movimento
.exe
ou seu atalho.
Implementação local - ambiente de configuração do desenvolvedor:
- Certifique-se de que o Python 3.8 ou posterior esteja instalado.
- Clonagem do Project Warehouse:
git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git
- Mude para o diretório do projeto:
cd Kit de ferramentas Easy-Voice
- Instalar dependências:
pip install -r requirements.txt
- Instale as dependências da GUI:
pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub
- Executar o programa:
python Run.py
Fluxo de operação funcional:
- processamento de áudioImportar o arquivo de áudio, selecionar as ferramentas de processamento desejadas (por exemplo, redução de ruído, edição, etc.), aplicar o processamento e salvar o resultado.
- reconhecimento de falaImportar o arquivo de áudio, selecionar o modelo de reconhecimento de fala, executar o reconhecimento e exportar os resultados do texto.
- transcrição de vozImportar o arquivo de áudio, selecionar a ferramenta de transcrição, executar a transcrição e exportar o arquivo de legenda (por exemplo, SRT).
- Produção de conjuntos de dadosImportar arquivos de áudio, selecionar a ferramenta de criação de conjunto de dados e realizar a conversão SRT ou a divisão WAV para gerar um conjunto de dados de treinamento.
- treinamento de modelosImportar o conjunto de dados de treinamento, selecionar a ferramenta de treinamento do modelo, configurar os parâmetros de treinamento, executar o treinamento e salvar o modelo.
- transcrição fonéticaImportar arquivos de áudio, selecionar a ferramenta de conversão de voz, configurar os parâmetros de conversão, executar a conversão e salvar o resultado.
advertência
- Atualmente, a interface da interface do usuário é compatível apenas com sistemas Windows.
- Garanta uma conexão estável com a Internet durante o download e o uso.
- Se você tiver problemas, consulte as instruções e as perguntas frequentes no repositório do projeto.