Aprendizagem pessoal com IA
e orientação prática

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

Introdução geral

O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, treinado em milhões de horas de dados de voz. O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real baseado em milhões de horas de dados de voz, equipado com expressão falada antropomórfica e resposta de baixa latência de 100 ms, com suporte a interrupções naturais e suaves em tempo real. O SpeechGPT 2.0-preview é capaz de alinhar os dois modos de voz e texto e demonstrar a capacidade de controle preciso e alternância inteligente de várias emoções, vários estilos e vários tons. Ele pode não apenas simular o tom e o estado emocional de vários personagens, mas também possui uma variedade de talentos de voz, como recitação de poesia, narração de histórias e fala em dialeto. Além disso, o SpeechGPT 2.0-preview também oferece suporte à invocação de ferramentas, à pesquisa na rede e à base de conhecimento de plug-ins, proporcionando recursos avançados de expressão de voz e texto.

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real-1


 

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real-1

Endereço de demonstração: https://sp2.open-moss.com/

 

Lista de funções

  • Expressões coloquiais antropomórficas
  • Resposta de baixa latência de cem milissegundos
  • Controle multi-emoção, multi-estilo e multi-tom
  • Capacidade de interpretação de papéis
  • Talentos vocais, como recitação de poesia, narração de histórias e falar em línguas
  • Suporte para chamadas de ferramentas, pesquisas de rede e base de conhecimento de plug-ins
  • Sistema eficiente de rastreamento de dados de voz
  • Pipeline de limpeza de dados de fala versátil e eficiente
  • Um sistema de anotação de dados de fala com granularidade múltipla e espectro total
  • Modelagem semântica-acústica conjunta de codecs de fala para streaming com taxa de bits ultrabaixa

 

Usando a Ajuda

Processo de instalação

  1. Armazém de Clonagem:
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
  1. Faça o download dos pesos do modelo (requer que o git-lfs esteja instalado):
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  1. Prepare o ambiente:
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
  1. Inicie a demonstração na Web:
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Função Fluxo de operação

  1. Expressões coloquiais antropomórficasSpeechGPT 2.0-preview é capaz de simular a expressão oral humana e proporcionar uma experiência de diálogo natural e suave.
  2. Resposta de baixa latênciaO sistema responde à entrada do usuário no nível de cem milissegundos, permitindo a interação em tempo real.
  3. Controle multi-emoção, multi-estilo e multi-tomOs usuários podem controlar a emoção, o estilo e o timbre do sistema por meio de comandos, adaptando-se a diferentes cenários de diálogo.
  4. role-playing (jogo)O sistema é capaz de simular o tom de voz e o estado emocional de diferentes personagens e é adequado para uma ampla gama de cenários de aplicação.
  5. talento fonológicoSpeechGPT 2.0-preview enriquece o diálogo com uma variedade de talentos de voz, como recitação de poesia, narração de histórias e expressão de dialeto.
  6. Chamadas de ferramentas e pesquisas de redeO sistema suporta a chamada de ferramentas externas e a realização de pesquisas em rede, ampliando a funcionalidade do diálogo e o acesso às informações.
  7. Base de conhecimento do plug-inAcesso a uma base de conhecimento externa: Ao acessar uma base de conhecimento externa, o sistema é capaz de fornecer respostas mais detalhadas e profissionais.

exemplo de uso

  • controle emocionalO usuário pode digitar o comando "Tell a joke in a happy tone" (Conte uma piada em um tom alegre) e o sistema contará a piada em um tom alegre.
  • role-playing (jogo)Digite o comando "Simulate a teacher's tone of voice to explain quadratic functions" (Simular o tom de voz de um professor para explicar funções quadráticas) e o sistema explicará no tom de voz do professor.
  • talento fonológicoDigite o comando "Tell a story in dialect" e o sistema contará uma história no dialeto especificado.

Por meio das etapas e dos exemplos acima, os usuários podem experimentar plenamente as funções avançadas e os diversos cenários de aplicação do SpeechGPT 2.0-preview.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil