OpenAI.fm: uma ferramenta de demonstração interativa que apresenta as APIs de fala da OpenAI

Recursos mais recentes de IAPublicado há 4 meses Círculo de compartilhamento de IA

10.8K 00

Introdução geral

O openai-fm é um projeto de código aberto hospedado no GitHub dedicado a demonstrar os recursos da API TTS (Text-to-Speech) da OpenAI. Esse projeto permite que os desenvolvedores experimentem visualmente os recursos de geração de fala da OpenAI por meio de um aplicativo da Web interativo. Ele foi desenvolvido usando a estrutura NextJS, combinada com TailwindCSS e ShadcnUI para criar uma interface limpa e moderna. Os usuários podem inserir texto, selecionar diferentes estilos de voz e emocionais para gerar uma saída de voz de alta qualidade. O código do projeto é totalmente de código aberto, seguindo a licença MIT, e os desenvolvedores são incentivados a clonar, modificar e contribuir com o código. O openai-fm é adequado para os desenvolvedores entenderem e testarem rapidamente a API de fala da OpenAI, especialmente para cenários de desenvolvimento de aplicativos que exigem funcionalidade de fala.

Endereço de demonstração: https://www.openai.fm/

Lista de funções

Conversão de texto em fala: converta o texto de entrada em uma fala natural e suave.
Várias opções de voz: oferece várias opções de voz para atender às necessidades de diferentes cenários.
Controle de estilo emocional: permite ajustar o tom emocional da voz, como amigável, sério, etc.
Apresentação interativa em tempo real: geração e reprodução de discursos em tempo real por meio de uma interface da Web.
Função de compartilhamento de banco de dados: suporte à conexão com o banco de dados PostgreSQL para salvar e compartilhar o discurso gerado.
Suporte de código aberto: o código-fonte completo é fornecido, permitindo que os desenvolvedores personalizem e ampliem a funcionalidade.

Usando a Ajuda

Processo de instalação

Para usar o openai-fm, primeiro você precisa clonar o projeto e configurar o ambiente. Aqui estão as etapas detalhadas:

Obtendo a chave da API
Visite o site da OpenAI para se registrar ou fazer login na sua conta. No painel de controle de sua conta, navegue até a página API Key Management e clique em "Create a new key" (Criar uma nova chave) para gerar e salvar sua chave de API. OPENAI_API_KEYEssa chave é usada para chamar a API de fala da OpenAI. Essa chave é usada para chamar a API de fala da OpenAI. Observação: a chave precisa ser mantida em segredo para evitar a divulgação.
armazém de clones
Abra um terminal e execute o seguinte comando para clonar o repositório openai-fm:
```
git clone https://github.com/openai/openai-fm.git
```

Vá para o catálogo de projetos:

cd openai-fm

Definição de variáveis de ambiente
Você pode configurá-lo de duas maneiras OPENAI_API_KEY::
- configuração globalAdicione o seguinte às variáveis de ambiente do sistema OPENAI_API_KEY.
  - Exemplo de Linux/MacOS:
```
export OPENAI_API_KEY=<你的API密钥>
```
  - Os usuários do Windows podem adicionar variáveis de ambiente nas configurações do sistema.
- Configuração dentro do projeto: Crie o .env Documentação, referência .env.exampleAdicione o seguinte:
```
OPENAI_API_KEY=<你的API密钥>
```
Instalação de dependências
O projeto usa o Node.js e o npm para gerenciar dependências. Certifique-se de que você tenha o Node.js instalado (versão recomendada 16 ou superior). Execute-o no diretório raiz do projeto:
```
npm install
```
Isso instalará as dependências necessárias, como NextJS, TailwindCSS, ShadcnUI e assim por diante.
(Opcional) Banco de dados de configuração
Se precisar usar o recurso de compartilhamento, será necessário conectar-se ao banco de dados PostgreSQL. Na seção .env para adicionar informações de conexão ao banco de dados, consulte o arquivo .env.example::
```
POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
```
Certifique-se de que o serviço PostgreSQL esteja em execução e que o banco de dados apropriado tenha sido criado. Se não estiver usando o recurso de compartilhamento, ignore esta etapa.
Projetos em andamento
Após a conclusão da instalação, execute o seguinte comando para iniciar o servidor de desenvolvimento:
```
npm run dev
```
Abra seu navegador e acesse http://localhost:3000Você pode ver a interface interativa do openai-fm.

Funções principais

O núcleo do openai-fm é a demonstração interativa de conversão de texto em fala. Aqui está o processo:

texto de entrada
Digite o texto que deseja converter em fala na caixa de texto da interface da Web. Suporta várias linhas de texto, o que é adequado para diálogos ou scripts longos. Exemplo:
```
你好！这是一个测试，展示如何将文本转为自然语音。
```
Seleção de voz e emoção
A interface fornece menus suspensos que listam as opções de voz disponíveis (por exemplo, masculina, feminina) e estilos emocionais (por exemplo, amigável, sério). Essas opções são baseadas no data/voices.json responder cantando data/vibes.json Configuração de arquivo. Depois de selecioná-lo, clique no botão "Generate" (Gerar), e o sistema chamará a API de fala da OpenAI para gerar o áudio.
Reprodução e download
O áudio gerado é reproduzido automaticamente na página. Você também pode fazer o download do arquivo de áudio, que é salvo no formato WAV por padrão e armazenado no diretório do projeto na pasta output/ com nomes de arquivos que começam com openaifm_ Início e registro de data e hora.
Função de compartilhamento
Se um banco de dados PostgreSQL estiver configurado, a voz gerada poderá ser salva no banco de dados e um link de compartilhamento poderá ser gerado. Clicar no botão "Share" retornará um URL acessível em que outros usuários poderão visualizar e reproduzir sua voz.

Personalização do desenvolvedor

O openai-fm é um projeto de código aberto, os desenvolvedores podem modificar o código conforme necessário. Por exemplo:

Adicionar nova voz:: Editorial data/voices.jsonadicionando novas configurações de voz.
Ajuste da interfaceModificar componentes do NextJS (por exemplo pages/index.js) ou estilos TailwindCSS.
Funcionalidade estendidaAdicionar novas chamadas de API ou integrar outros serviços.

Para contribuir com o código, faça uma bifurcação do repositório, crie uma ramificação e envie uma solicitação pull; leia as diretrizes de contribuição do projeto antes de fazer o commit para ter certeza de que seu código está em conformidade. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

advertência

Taxas de API: O uso da API de fala da OpenAI incorre em uma taxa, dependendo do uso. Monitore sua cota de API no painel de controle da OpenAI.
segurançaSe for implementado em um servidor público, certifique-se de que .env não é tornado público para evitar o vazamento de chaves de API.
Suporte à comunidadeSe você tiver um problema, envie um problema para o GitHub e a comunidade o ajudará.

cenário do aplicativo

Os desenvolvedores testam a API de voz
Os desenvolvedores podem usar o openai-fm para testar rapidamente a eficácia da API de fala da OpenAI, validar o desempenho de diferentes estilos de fala e emoção e otimizar as soluções de integração de aplicativos.
Produção de conteúdo educacional e de treinamento
Professores ou instrutores podem converter scripts de cursos em fala para gerar áudio natural e suave para uso em cursos on-line ou vídeos instrucionais.
Auxílios de acessibilidade
O openai-fm gera leituras de voz para usuários com deficiência visual para ajudá-los a acessar informações de texto.
Criação de conteúdo criativo
Os produtores de podcast ou criadores de conteúdo podem usar o openai-fm para gerar vozes personalizadas e criar rapidamente amostras de audição.

QA

Preciso pagar pelo openai-fm?
O projeto em si é gratuito, mas o uso da API de fala da OpenAI requer uma chave de API válida e uma taxa baseada no uso. Recomendamos verificar o site oficial da OpenAI para obter detalhes sobre preços.
Como faço para adicionar uma nova opção de voz?
Edite o diretório do projeto no diretório data/voices.json para adicionar a nova configuração de voz. Depois de reiniciar o servidor, a nova voz aparecerá no menu suspenso.
Preciso usar um banco de dados para a função de compartilhamento?
Sim, o recurso de compartilhamento requer suporte ao banco de dados PostgreSQL. Se você não configurar o banco de dados, ainda poderá gerar e reproduzir a fala normalmente.
É possível usar o openai-fm no celular?
A interface da Web do openai-fm é compatível com o design responsivo e pode ser acessada em navegadores móveis, desde que você tenha uma conexão estável com a Internet.