SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Introdução geral

O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, treinado em milhões de horas de dados de voz. O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real baseado em milhões de horas de dados de voz, equipado com expressão falada antropomórfica e resposta de baixa latência de 100 ms, com suporte a interrupções naturais e suaves em tempo real. O SpeechGPT 2.0-preview é capaz de alinhar os dois modos de voz e texto e demonstrar a capacidade de controle preciso e alternância inteligente de várias emoções, vários estilos e vários tons. Ele pode não apenas simular o tom e o estado emocional de vários personagens, mas também possui uma variedade de talentos de voz, como recitação de poesia, narração de histórias e fala em dialeto. Além disso, o SpeechGPT 2.0-preview também oferece suporte à invocação de ferramentas, à pesquisa na rede e à base de conhecimento de plug-ins, proporcionando recursos avançados de expressão de voz e texto.

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real-1

Endereço de demonstração: https://sp2.open-moss.com/

Lista de funções

Expressões coloquiais antropomórficas
Resposta de baixa latência de cem milissegundos
Controle multi-emoção, multi-estilo e multi-tom
Capacidade de interpretação de papéis
Talentos vocais, como recitação de poesia, narração de histórias e falar em línguas
Suporte para chamadas de ferramentas, pesquisas de rede e base de conhecimento de plug-ins
Sistema eficiente de rastreamento de dados de voz
Pipeline de limpeza de dados de fala versátil e eficiente
Um sistema de anotação de dados de fala com granularidade múltipla e espectro total
Modelagem semântica-acústica conjunta de codecs de fala para streaming com taxa de bits ultrabaixa

Usando a Ajuda

Processo de instalação

Armazém de Clonagem:

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

Faça o download dos pesos do modelo (requer que o git-lfs esteja instalado):

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

Prepare o ambiente:

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

Inicie a demonstração na Web:

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Função Fluxo de operação

Expressões coloquiais antropomórficasSpeechGPT 2.0-preview é capaz de simular a expressão oral humana e proporcionar uma experiência de diálogo natural e suave.
Resposta de baixa latênciaO sistema responde à entrada do usuário no nível de cem milissegundos, permitindo a interação em tempo real.
Controle multi-emoção, multi-estilo e multi-tomOs usuários podem controlar a emoção, o estilo e o timbre do sistema por meio de comandos, adaptando-se a diferentes cenários de diálogo.
role-playing (jogo)O sistema é capaz de simular o tom de voz e o estado emocional de diferentes personagens e é adequado para uma ampla gama de cenários de aplicação.
talento fonológicoSpeechGPT 2.0-preview enriquece o diálogo com uma variedade de talentos de voz, como recitação de poesia, narração de histórias e expressão de dialeto.
Chamadas de ferramentas e pesquisas de redeO sistema suporta a chamada de ferramentas externas e a realização de pesquisas em rede, ampliando a funcionalidade do diálogo e o acesso às informações.
Base de conhecimento do plug-inAcesso a uma base de conhecimento externa: Ao acessar uma base de conhecimento externa, o sistema é capaz de fornecer respostas mais detalhadas e profissionais.

exemplo de uso

controle emocionalO usuário pode digitar o comando "Tell a joke in a happy tone" (Conte uma piada em um tom alegre) e o sistema contará a piada em um tom alegre.
role-playing (jogo)Digite o comando "Simulate a teacher's tone of voice to explain quadratic functions" (Simular o tom de voz de um professor para explicar funções quadráticas) e o sistema explicará no tom de voz do professor.
talento fonológicoDigite o comando "Tell a story in dialect" e o sistema contará uma história no dialeto especificado.

Por meio das etapas e dos exemplos acima, os usuários podem experimentar plenamente as funções avançadas e os diversos cenários de aplicação do SpeechGPT 2.0-preview.