Text2Voice: uma interface gráfica de conversão de texto em fala baseada em APIs de fluxo baseadas em silício

Recursos mais recentes de IAAtualizado há 5 meses Círculo de compartilhamento de IA

Introdução geral

O Text2Voice é uma ferramenta de código aberto que fornece funcionalidade de conversão de texto em fala com base em uma API de mobilidade baseada em silício, com uma interface gráfica do usuário (GUI) limpa como seu melhor recurso. Ela foi criada pelo desenvolvedor Sheldon Lee no GitHub para permitir que os usuários transformem facilmente texto em fala por meio de uma interface. O projeto foi desenvolvido em Python e combina a estrutura PyQt6 para criar uma interface intuitiva. Em sua essência, o projeto usa uma API para transformar texto em áudio audível em tempo real, com suporte para vários idiomas, como chinês e inglês, bem como a capacidade de selecionar diferentes tons. O código é aberto, qualquer pessoa pode fazer o download, executar ou modificar, adequado para pessoas que desejam gerar discursos ou desenvolvedores rapidamente. O projeto tem uma versão estável, com recursos práticos, e você pode começar a usá-lo após a instalação.

Lista de funções

Converta texto chinês, inglês e outros textos multilíngues em fala por meio de uma interface gráfica.
Oferece uma ampla seleção de tons de voz.
Oferece suporte ao controle de reprodução de áudio em tempo real, incluindo reprodução, pausa e parada.
Exibe uma janela de operação gráfica simples e bonita.
Gerenciamento automático dos arquivos de áudio gerados.
Suporte à segmentação de texto longo para fala.

Usando a Ajuda

O Text2Voice depende do Python e da API Silicon Flow, e você precisa instalar o ambiente e configurar a chave antes de usá-lo. Aqui estão as etapas detalhadas para ajudá-lo a começar rapidamente.

Processo de instalação

Preparação do ambiente do sistema
Certifique-se de que seu computador atenda aos requisitos: Windows, macOS ou Linux, 2 GB ou mais de RAM e uma conexão estável com a Internet.
- Instalando o Python: acessando https://www.python.org/Se quiser instalar o Python, faça download da versão 3.8 ou superior e marque a caixa "Add Python to PATH" durante a instalação.
- Instalando o Git: Visite https://git-scm.com/, faça o download e instale.
Download do código do projeto
Abra um terminal (CMD para Windows, Terminal para Mac/Linux) e execute-o:

git clone https://github.com/axdlee/text2voice.git

Em seguida, vá para o diretório do projeto:

cd text2voice

Configuração de um ambiente virtual (recomendado)
Crie e ative ambientes virtuais para evitar conflitos de dependência:

python -m venv venv

Windows.
```
venv\Scripts\activate
```
Mac/Linux.
```
source venv/bin/activate
```

Instalação de dependências
As dependências do projeto estão listadas na seção requirements.txt na seção "Installation" (Instalação), execute o seguinte comando para instalá-lo:

pip install -r requirements.txt

Isso instalará as bibliotecas necessárias, como PyQt6, Requests, Pygame e assim por diante.

Configuração de chaves de API
No diretório raiz do projeto, crie o arquivo .env com o seguinte conteúdo:

SILICON_API_KEY=你的API密钥

A chave de API deve ser obtida no site da Silicon Mobility, preenchida e salva.

programa de corrida
Digite-o no terminal:

python main.py

Quando o programa é iniciado, uma interface gráfica é exibida.

Como usar os principais recursos

Inicialização da interface gráfica
estar em movimento python main.py Depois disso, você verá uma janela com uma caixa de entrada de texto e botões de controle.
Configuração da chave de API
Clique no botão "Settings" (Configurações) na interface e digite .env Chave da API do Silicon Mobility no arquivo para salvar as configurações.
texto de entrada
Digite ou cole o texto que você deseja converter em fala na caixa de texto, por exemplo, "Hello, this is a test" (Olá, este é um teste).
Seleção de um tom
Escolha um tom de voz no menu suspenso, como masculino ou feminino (as opções exatas são determinadas pela API).
converter em fala
Clique no botão "Convert to Speech" (Converter em fala) e o programa processará o texto por meio da API do Silicon Mobility para gerar o áudio.
Reproduzir áudio
Após a conclusão da conversão, use o botão "Play" (Reproduzir) na interface para ouvir o áudio, que pode ser controlado por "Pause" (Pausar) ou "Stop" (Parar).

Funções em destaque Procedimento de operação

Conversão de segmentação de texto longo baseada em GUI
Se o texto tiver mais de 5.000 palavras, o programa o processará automaticamente em segmentos. Insira o texto completo diretamente na interface, clique em "Convert to Voice" (Converter em voz) e o programa gerará o áudio segmento por segmento. Você pode usar o botão de reprodução para ouvir cada segmento.
Gerenciamento de arquivos de áudio
O áudio gerado é armazenado temporariamente no temp pasta. Esses arquivos são excluídos automaticamente quando o programa é encerrado. Se quiser salvá-los, você pode movê-los manualmente para outro local antes de sair.
Controle de reprodução em tempo real
O áudio convertido suporta operação em tempo real. Clique em "Play" (Reproduzir) para começar a ouvir e em "Pause" (Pausar) ou "Stop" (Parar) a qualquer momento; todas as operações são feitas na interface gráfica.

advertência

A rede precisa ser estável porque a funcionalidade depende da API de mobilidade baseada em silício.
Recomenda-se que uma única conversão não exceda 5.000 caracteres para evitar erros de API.
As chaves de API devem ser mantidas em segredo e não devem ser compartilhadas publicamente.
Se a interface não responder, verifique se a chave, a rede e as dependências estão corretas.

Com essas etapas, você pode converter texto em fala usando a interface gráfica do Text2Voice. Os desenvolvedores também podem modificar o código para ajustar a interface ou a funcionalidade.

cenário do aplicativo

Auxílios educacionais
Converte texto em fala com uma interface gráfica para facilitar a audição e o aprendizado.
criação de conteúdo
Gere fala para vídeos ou podcasts com uma operação fácil e que economiza tempo.
Suporte à acessibilidade
Ajude pessoas com deficiência visual a acessar informações convertendo texto em fala por meio de uma interface.

QA

Quais são os idiomas suportados?
Há suporte para vários idiomas, incluindo chinês e inglês, conforme determinado pela API do Silicon Mobility.
Por que a interface não está respondendo?
Pode ser um erro de chave de API, um problema de rede ou uma dependência que não foi instalada corretamente. Verifique e tente novamente.
Onde os arquivos de áudio são armazenados?
Armazenado temporariamente em temp que é automaticamente limpa depois que o programa é encerrado.