Introdução geral
O openai-fm é um projeto de código aberto hospedado no GitHub dedicado a demonstrar os recursos da API TTS (Text-to-Speech) da OpenAI. Esse projeto permite que os desenvolvedores experimentem visualmente os recursos de geração de fala da OpenAI por meio de um aplicativo da Web interativo. Ele foi desenvolvido usando a estrutura NextJS, combinada com TailwindCSS e ShadcnUI para criar uma interface limpa e moderna. Os usuários podem inserir texto, selecionar diferentes estilos de voz e emocionais para gerar uma saída de voz de alta qualidade. O código do projeto é totalmente de código aberto, seguindo a licença MIT, e os desenvolvedores são incentivados a clonar, modificar e contribuir com o código. O openai-fm é adequado para os desenvolvedores entenderem e testarem rapidamente a API de fala da OpenAI, especialmente para cenários de desenvolvimento de aplicativos que exigem funcionalidade de fala.
Endereço de demonstração: https://www.openai.fm/
Lista de funções
- Conversão de texto em fala: converta o texto de entrada em uma fala natural e suave.
- Várias opções de voz: oferece várias opções de voz para atender às necessidades de diferentes cenários.
- Controle de estilo emocional: permite ajustar o tom emocional da voz, como amigável, sério, etc.
- Apresentação interativa em tempo real: geração e reprodução de discursos em tempo real por meio de uma interface da Web.
- Função de compartilhamento de banco de dados: suporte à conexão com o banco de dados PostgreSQL para salvar e compartilhar o discurso gerado.
- Suporte de código aberto: o código-fonte completo é fornecido, permitindo que os desenvolvedores personalizem e ampliem a funcionalidade.
Usando a Ajuda
Processo de instalação
Para usar o openai-fm, primeiro você precisa clonar o projeto e configurar o ambiente. Aqui estão as etapas detalhadas:
- Obtendo a chave da API
Visite o site da OpenAI para se registrar ou fazer login na sua conta. No painel de controle de sua conta, navegue até a página API Key Management e clique em "Create a new key" (Criar uma nova chave) para gerar e salvar sua chave de API.OPENAI_API_KEY
Essa chave é usada para chamar a API de fala da OpenAI. Essa chave é usada para chamar a API de fala da OpenAI. Observação: a chave precisa ser mantida em segredo para evitar a divulgação. - armazém de clones
Abra um terminal e execute o seguinte comando para clonar o repositório openai-fm:git clone https://github.com/openai/openai-fm.git
Vá para o catálogo de projetos:
cd openai-fm
- Definição de variáveis de ambiente
Você pode configurá-lo de duas maneirasOPENAI_API_KEY
::- configuração globalAdicione o seguinte às variáveis de ambiente do sistema
OPENAI_API_KEY
.- Exemplo de Linux/MacOS:
export OPENAI_API_KEY=<你的API密钥>
- Os usuários do Windows podem adicionar variáveis de ambiente nas configurações do sistema.
- Exemplo de Linux/MacOS:
- Configuração dentro do projeto: Crie o
.env
Documentação, referência.env.example
Adicione o seguinte:OPENAI_API_KEY=<你的API密钥>
- configuração globalAdicione o seguinte às variáveis de ambiente do sistema
- Instalação de dependências
O projeto usa o Node.js e o npm para gerenciar dependências. Certifique-se de que você tenha o Node.js instalado (versão recomendada 16 ou superior). Execute-o no diretório raiz do projeto:npm install
Isso instalará as dependências necessárias, como NextJS, TailwindCSS, ShadcnUI e assim por diante.
- (Opcional) Banco de dados de configuração
Se precisar usar o recurso de compartilhamento, será necessário conectar-se ao banco de dados PostgreSQL. Na seção.env
para adicionar informações de conexão ao banco de dados, consulte o arquivo.env.example
::POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
Certifique-se de que o serviço PostgreSQL esteja em execução e que o banco de dados apropriado tenha sido criado. Se não estiver usando o recurso de compartilhamento, ignore esta etapa.
- Projetos em andamento
Após a conclusão da instalação, execute o seguinte comando para iniciar o servidor de desenvolvimento:npm run dev
Abra seu navegador e acesse
http://localhost:3000
Você pode ver a interface interativa do openai-fm.
Funções principais
O núcleo do openai-fm é a demonstração interativa de conversão de texto em fala. Aqui está o processo:
- texto de entrada
Digite o texto que deseja converter em fala na caixa de texto da interface da Web. Suporta várias linhas de texto, o que é adequado para diálogos ou scripts longos. Exemplo:你好!这是一个测试,展示如何将文本转为自然语音。
- Seleção de voz e emoção
A interface fornece menus suspensos que listam as opções de voz disponíveis (por exemplo, masculina, feminina) e estilos emocionais (por exemplo, amigável, sério). Essas opções são baseadas nodata/voices.json
responder cantandodata/vibes.json
Configuração de arquivo. Depois de selecioná-lo, clique no botão "Generate" (Gerar), e o sistema chamará a API de fala da OpenAI para gerar o áudio. - Reprodução e download
O áudio gerado é reproduzido automaticamente na página. Você também pode fazer o download do arquivo de áudio, que é salvo no formato WAV por padrão e armazenado no diretório do projeto na pastaoutput/
com nomes de arquivos que começam comopenaifm_
Início e registro de data e hora. - Função de compartilhamento
Se um banco de dados PostgreSQL estiver configurado, a voz gerada poderá ser salva no banco de dados e um link de compartilhamento poderá ser gerado. Clicar no botão "Share" retornará um URL acessível em que outros usuários poderão visualizar e reproduzir sua voz.
Personalização do desenvolvedor
O openai-fm é um projeto de código aberto, os desenvolvedores podem modificar o código conforme necessário. Por exemplo:
- Adicionar nova voz:: Editorial
data/voices.json
adicionando novas configurações de voz. - Ajuste da interfaceModificar componentes do NextJS (por exemplo
pages/index.js
) ou estilos TailwindCSS. - Funcionalidade estendidaAdicionar novas chamadas de API ou integrar outros serviços.
Para contribuir com o código, faça uma bifurcação do repositório, crie uma ramificação e envie uma solicitação pull; leia as diretrizes de contribuição do projeto antes de fazer o commit para ter certeza de que seu código está em conformidade. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)
advertência
- Taxas de API: O uso da API de fala da OpenAI incorre em uma taxa, dependendo do uso. Monitore sua cota de API no painel de controle da OpenAI.
- segurançaSe for implementado em um servidor público, certifique-se de que
.env
não é tornado público para evitar o vazamento de chaves de API. - Suporte à comunidadeSe você tiver um problema, envie um problema para o GitHub e a comunidade o ajudará.
cenário do aplicativo
- Os desenvolvedores testam a API de voz
Os desenvolvedores podem usar o openai-fm para testar rapidamente a eficácia da API de fala da OpenAI, validar o desempenho de diferentes estilos de fala e emoção e otimizar as soluções de integração de aplicativos. - Produção de conteúdo educacional e de treinamento
Professores ou instrutores podem converter scripts de cursos em fala para gerar áudio natural e suave para uso em cursos on-line ou vídeos instrucionais. - Auxílios de acessibilidade
O openai-fm gera leituras de voz para usuários com deficiência visual para ajudá-los a acessar informações de texto. - Criação de conteúdo criativo
Os produtores de podcast ou criadores de conteúdo podem usar o openai-fm para gerar vozes personalizadas e criar rapidamente amostras de audição.
QA
- Preciso pagar pelo openai-fm?
O projeto em si é gratuito, mas o uso da API de fala da OpenAI requer uma chave de API válida e uma taxa baseada no uso. Recomendamos verificar o site oficial da OpenAI para obter detalhes sobre preços. - Como faço para adicionar uma nova opção de voz?
Edite o diretório do projeto no diretóriodata/voices.json
para adicionar a nova configuração de voz. Depois de reiniciar o servidor, a nova voz aparecerá no menu suspenso. - Preciso usar um banco de dados para a função de compartilhamento?
Sim, o recurso de compartilhamento requer suporte ao banco de dados PostgreSQL. Se você não configurar o banco de dados, ainda poderá gerar e reproduzir a fala normalmente. - É possível usar o openai-fm no celular?
A interface da Web do openai-fm é compatível com o design responsivo e pode ser acessada em navegadores móveis, desde que você tenha uma conexão estável com a Internet.