Introdução geral
O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, treinado em milhões de horas de dados de voz. O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real baseado em milhões de horas de dados de voz, equipado com expressão falada antropomórfica e resposta de baixa latência de 100 ms, com suporte a interrupções naturais e suaves em tempo real. O SpeechGPT 2.0-preview é capaz de alinhar os dois modos de voz e texto e demonstrar a capacidade de controle preciso e alternância inteligente de várias emoções, vários estilos e vários tons. Ele pode não apenas simular o tom e o estado emocional de vários personagens, mas também possui uma variedade de talentos de voz, como recitação de poesia, narração de histórias e fala em dialeto. Além disso, o SpeechGPT 2.0-preview também oferece suporte à invocação de ferramentas, à pesquisa na rede e à base de conhecimento de plug-ins, proporcionando recursos avançados de expressão de voz e texto.
Lista de funções
- Expressões coloquiais antropomórficas
- Resposta de baixa latência de cem milissegundos
- Controle multi-emoção, multi-estilo e multi-tom
- Capacidade de interpretação de papéis
- Talentos vocais, como recitação de poesia, narração de histórias e falar em línguas
- Suporte para chamadas de ferramentas, pesquisas de rede e base de conhecimento de plug-ins
- Sistema eficiente de rastreamento de dados de voz
- Pipeline de limpeza de dados de fala versátil e eficiente
- Um sistema de anotação de dados de fala com granularidade múltipla e espectro total
- Modelagem semântica-acústica conjunta de codecs de fala para streaming com taxa de bits ultrabaixa
Usando a Ajuda
Processo de instalação
- Armazém de Clonagem:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- Faça o download dos pesos do modelo (requer que o git-lfs esteja instalado):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- Prepare o ambiente:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- Inicie a demonstração na Web:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
Função Fluxo de operação
- Expressões coloquiais antropomórficasSpeechGPT 2.0-preview é capaz de simular a expressão oral humana e proporcionar uma experiência de diálogo natural e suave.
- Resposta de baixa latênciaO sistema responde à entrada do usuário no nível de cem milissegundos, permitindo a interação em tempo real.
- Controle multi-emoção, multi-estilo e multi-tomOs usuários podem controlar a emoção, o estilo e o timbre do sistema por meio de comandos, adaptando-se a diferentes cenários de diálogo.
- role-playing (jogo)O sistema é capaz de simular o tom de voz e o estado emocional de diferentes personagens e é adequado para uma ampla gama de cenários de aplicação.
- talento fonológicoSpeechGPT 2.0-preview enriquece o diálogo com uma variedade de talentos de voz, como recitação de poesia, narração de histórias e expressão de dialeto.
- Chamadas de ferramentas e pesquisas de redeO sistema suporta a chamada de ferramentas externas e a realização de pesquisas em rede, ampliando a funcionalidade do diálogo e o acesso às informações.
- Base de conhecimento do plug-inAcesso a uma base de conhecimento externa: Ao acessar uma base de conhecimento externa, o sistema é capaz de fornecer respostas mais detalhadas e profissionais.
exemplo de uso
- controle emocionalO usuário pode digitar o comando "Tell a joke in a happy tone" (Conte uma piada em um tom alegre) e o sistema contará a piada em um tom alegre.
- role-playing (jogo)Digite o comando "Simulate a teacher's tone of voice to explain quadratic functions" (Simular o tom de voz de um professor para explicar funções quadráticas) e o sistema explicará no tom de voz do professor.
- talento fonológicoDigite o comando "Tell a story in dialect" e o sistema contará uma história no dialeto especificado.
Por meio das etapas e dos exemplos acima, os usuários podem experimentar plenamente as funções avançadas e os diversos cenários de aplicação do SpeechGPT 2.0-preview.