Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

OpenAI.fm: uma ferramenta de demonstração interativa que apresenta as APIs de fala da OpenAI

Introdução geral

O openai-fm é um projeto de código aberto hospedado no GitHub dedicado a demonstrar os recursos da API TTS (Text-to-Speech) da OpenAI. Esse projeto permite que os desenvolvedores experimentem visualmente os recursos de geração de fala da OpenAI por meio de um aplicativo da Web interativo. Ele foi desenvolvido usando a estrutura NextJS, combinada com TailwindCSS e ShadcnUI para criar uma interface limpa e moderna. Os usuários podem inserir texto, selecionar diferentes estilos de voz e emocionais para gerar uma saída de voz de alta qualidade. O código do projeto é totalmente de código aberto, seguindo a licença MIT, e os desenvolvedores são incentivados a clonar, modificar e contribuir com o código. O openai-fm é adequado para os desenvolvedores entenderem e testarem rapidamente a API de fala da OpenAI, especialmente para cenários de desenvolvimento de aplicativos que exigem funcionalidade de fala.

A OpenAI lança uma nova geração de APIs de modelo de áudio e a tecnologia de interação de fala recebe uma grande atualização-1

Endereço de demonstração: https://www.openai.fm/


 

Lista de funções

  • Conversão de texto em fala: converta o texto de entrada em uma fala natural e suave.
  • Várias opções de voz: oferece várias opções de voz para atender às necessidades de diferentes cenários.
  • Controle de estilo emocional: permite ajustar o tom emocional da voz, como amigável, sério, etc.
  • Apresentação interativa em tempo real: geração e reprodução de discursos em tempo real por meio de uma interface da Web.
  • Função de compartilhamento de banco de dados: suporte à conexão com o banco de dados PostgreSQL para salvar e compartilhar o discurso gerado.
  • Suporte de código aberto: o código-fonte completo é fornecido, permitindo que os desenvolvedores personalizem e ampliem a funcionalidade.

 

Usando a Ajuda

Processo de instalação

Para usar o openai-fm, primeiro você precisa clonar o projeto e configurar o ambiente. Aqui estão as etapas detalhadas:

  1. Obtendo a chave da API
    Visite o site da OpenAI para se registrar ou fazer login na sua conta. No painel de controle de sua conta, navegue até a página API Key Management e clique em "Create a new key" (Criar uma nova chave) para gerar e salvar sua chave de API. OPENAI_API_KEYEssa chave é usada para chamar a API de fala da OpenAI. Essa chave é usada para chamar a API de fala da OpenAI. Observação: a chave precisa ser mantida em segredo para evitar a divulgação.
  2. armazém de clones
    Abra um terminal e execute o seguinte comando para clonar o repositório openai-fm:

    git clone https://github.com/openai/openai-fm.git

Vá para o catálogo de projetos:

cd openai-fm
  1. Definição de variáveis de ambiente
    Você pode configurá-lo de duas maneiras OPENAI_API_KEY::

    • configuração globalAdicione o seguinte às variáveis de ambiente do sistema OPENAI_API_KEY.
      • Exemplo de Linux/MacOS:
        export OPENAI_API_KEY=<你的API密钥>
        
      • Os usuários do Windows podem adicionar variáveis de ambiente nas configurações do sistema.
    • Configuração dentro do projeto: Crie o .env Documentação, referência .env.exampleAdicione o seguinte:
      OPENAI_API_KEY=<你的API密钥>
      
  2. Instalação de dependências
    O projeto usa o Node.js e o npm para gerenciar dependências. Certifique-se de que você tenha o Node.js instalado (versão recomendada 16 ou superior). Execute-o no diretório raiz do projeto:

    npm install
    

    Isso instalará as dependências necessárias, como NextJS, TailwindCSS, ShadcnUI e assim por diante.

  3. (Opcional) Banco de dados de configuração
    Se precisar usar o recurso de compartilhamento, será necessário conectar-se ao banco de dados PostgreSQL. Na seção .env para adicionar informações de conexão ao banco de dados, consulte o arquivo .env.example::

    POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
    

    Certifique-se de que o serviço PostgreSQL esteja em execução e que o banco de dados apropriado tenha sido criado. Se não estiver usando o recurso de compartilhamento, ignore esta etapa.

  4. Projetos em andamento
    Após a conclusão da instalação, execute o seguinte comando para iniciar o servidor de desenvolvimento:

    npm run dev
    

    Abra seu navegador e acesse http://localhost:3000Você pode ver a interface interativa do openai-fm.

Funções principais

O núcleo do openai-fm é a demonstração interativa de conversão de texto em fala. Aqui está o processo:

  • texto de entrada
    Digite o texto que deseja converter em fala na caixa de texto da interface da Web. Suporta várias linhas de texto, o que é adequado para diálogos ou scripts longos. Exemplo:

    你好!这是一个测试,展示如何将文本转为自然语音。
    
  • Seleção de voz e emoção
    A interface fornece menus suspensos que listam as opções de voz disponíveis (por exemplo, masculina, feminina) e estilos emocionais (por exemplo, amigável, sério). Essas opções são baseadas no data/voices.json responder cantando data/vibes.json Configuração de arquivo. Depois de selecioná-lo, clique no botão "Generate" (Gerar), e o sistema chamará a API de fala da OpenAI para gerar o áudio.
  • Reprodução e download
    O áudio gerado é reproduzido automaticamente na página. Você também pode fazer o download do arquivo de áudio, que é salvo no formato WAV por padrão e armazenado no diretório do projeto na pasta output/ com nomes de arquivos que começam com openaifm_ Início e registro de data e hora.
  • Função de compartilhamento
    Se um banco de dados PostgreSQL estiver configurado, a voz gerada poderá ser salva no banco de dados e um link de compartilhamento poderá ser gerado. Clicar no botão "Share" retornará um URL acessível em que outros usuários poderão visualizar e reproduzir sua voz.

Personalização do desenvolvedor

O openai-fm é um projeto de código aberto, os desenvolvedores podem modificar o código conforme necessário. Por exemplo:

  • Adicionar nova voz:: Editorial data/voices.jsonadicionando novas configurações de voz.
  • Ajuste da interfaceModificar componentes do NextJS (por exemplo pages/index.js) ou estilos TailwindCSS.
  • Funcionalidade estendidaAdicionar novas chamadas de API ou integrar outros serviços.

Para contribuir com o código, faça uma bifurcação do repositório, crie uma ramificação e envie uma solicitação pull; leia as diretrizes de contribuição do projeto antes de fazer o commit para ter certeza de que seu código está em conformidade. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

advertência

  • Taxas de API: O uso da API de fala da OpenAI incorre em uma taxa, dependendo do uso. Monitore sua cota de API no painel de controle da OpenAI.
  • segurançaSe for implementado em um servidor público, certifique-se de que .env não é tornado público para evitar o vazamento de chaves de API.
  • Suporte à comunidadeSe você tiver um problema, envie um problema para o GitHub e a comunidade o ajudará.

 

cenário do aplicativo

  1. Os desenvolvedores testam a API de voz
    Os desenvolvedores podem usar o openai-fm para testar rapidamente a eficácia da API de fala da OpenAI, validar o desempenho de diferentes estilos de fala e emoção e otimizar as soluções de integração de aplicativos.
  2. Produção de conteúdo educacional e de treinamento
    Professores ou instrutores podem converter scripts de cursos em fala para gerar áudio natural e suave para uso em cursos on-line ou vídeos instrucionais.
  3. Auxílios de acessibilidade
    O openai-fm gera leituras de voz para usuários com deficiência visual para ajudá-los a acessar informações de texto.
  4. Criação de conteúdo criativo
    Os produtores de podcast ou criadores de conteúdo podem usar o openai-fm para gerar vozes personalizadas e criar rapidamente amostras de audição.

 

QA

  1. Preciso pagar pelo openai-fm?
    O projeto em si é gratuito, mas o uso da API de fala da OpenAI requer uma chave de API válida e uma taxa baseada no uso. Recomendamos verificar o site oficial da OpenAI para obter detalhes sobre preços.
  2. Como faço para adicionar uma nova opção de voz?
    Edite o diretório do projeto no diretório data/voices.json para adicionar a nova configuração de voz. Depois de reiniciar o servidor, a nova voz aparecerá no menu suspenso.
  3. Preciso usar um banco de dados para a função de compartilhamento?
    Sim, o recurso de compartilhamento requer suporte ao banco de dados PostgreSQL. Se você não configurar o banco de dados, ainda poderá gerar e reproduzir a fala normalmente.
  4. É possível usar o openai-fm no celular?
    A interface da Web do openai-fm é compatível com o design responsivo e pode ser acessada em navegadores móveis, desde que você tenha uma conexão estável com a Internet.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OpenAI.fm: uma ferramenta de demonstração interativa que apresenta as APIs de fala da OpenAI
pt_BRPortuguês do Brasil