Llasa 1~8B: um modelo de conversão de texto em fala de código aberto para geração e clonagem de fala de alta qualidade

Recursos mais recentes de IAAtualizado há 6 meses Círculo de compartilhamento de IA

Introdução geral

O Llasa-3B é um modelo de conversão de texto em fala (TTS) de código aberto desenvolvido pelo Laboratório de Áudio da Universidade de Ciência e Tecnologia de Hong Kong (HKUST Audio). O modelo é baseado na arquitetura Llama 3.2B, que foi cuidadosamente ajustada para oferecer geração de fala de alta qualidade que não só suporta vários idiomas, mas também permite a expressão emocional e a clonagem de fala personalizada. O Llasa-3B atraiu a atenção de muitos pesquisadores e desenvolvedores por sua expressividade e flexibilidade na síntese de fala natural.

Experiência: https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts

Lista de funções

conversão de texto em falaConversão de texto em um som natural e suave.
clonagem de falaO que é: Apenas 15 segundos de filmagem de áudio são necessários para clonar uma voz humana específica, incluindo timbre e emoção.
Suporte a vários idiomasO sistema suporta os idiomas chinês e inglês, com o objetivo de expandir para outros idiomas.
expressão afetivaA capacidade de injetar emoção no discurso gerado aumenta a autenticidade do discurso.
Suporte a vários modelosModelos de escala paramétrica 1B e 3B disponíveis, com modelos 8B a serem introduzidos no futuro
ponderação abertaTodos os modelos são fornecidos com pesos abertos, que podem ser usados diretamente ou ajustados duas vezes pelos desenvolvedores, e suportam Transformers e vLLM Estrutura.

Usando a Ajuda

Instalação e preparação do ambiente

Para usar o modelo Llasa-3B, primeiro você precisa preparar o ambiente a seguir:

Ambiente PythonPython 3.9 ou superior é recomendado.
Bibliotecas relacionadasRequer a instalação detorch, transformers, xcodec2etc. biblioteca.

conda create -n xcodec2 python=3.9
conda activate xcodec2
pip install transformers torch xcodec2==0.1.3

Download e carregamento de modelos

Visite Hugging Face emPágina do Llasa-3BVocê pode usar diretamente a função de download de modelos do Hugging Face:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import soundfile as sf
llasa_3b = 'HKUST-Audio/Llasa-3B'
tokenizer = AutoTokenizer.from_pretrained(llasa_3b)
model = AutoModelForCausalLM.from_pretrained(llasa_3b)
model.eval()
model.to('cuda')  # 如果有GPU

Processo de conversão de texto em fala

Texto preparado::
- Digite o texto que você deseja converter em fala.

Pré-processamento de texto::

Use um texto formatado específico para orientar o modelo de geração de fala, por exemplo:

input_text = "这是一个测试文本，请转成语音。"
formatted_text = f"<|TEXT_UNDERSTANDING_START|>{input_text}<|TEXT_UNDERSTANDING_END|>"

Gerar discurso::

Converta o texto em um token que o modelo possa entender:

chat = [
{"role": "user", "content": "Convert the text to speech:" + formatted_text},
{"role": "assistant", "content": "<|SPEECH_GENERATION_START|>"}
]
input_ids = tokenizer.apply_chat_template(chat, tokenize=True, return_tensors='pt', continue_final_message=True)
input_ids = input_ids.to('cuda')

Gerar um token de voz:

speech_end_id = tokenizer.convert_tokens_to_ids('<|SPEECH_GENERATION_END|>')
outputs = model.generate(input_ids, max_length=2048, eos_token_id=speech_end_id, do_sample=True, top_p=1, temperature=0.8)

decodificação de voz::

Converte o token gerado de volta para áudio:

from xcodec2.modeling_xcodec2 import XCodec2Model
model_path = "HKUST-Audio/xcodec2"
Codec_model = XCodec2Model.from_pretrained(model_path).eval().cuda()
generated_ids = outputs[0][input_ids.shape[1]:-1]
speech_tokens = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
speech_ids = [int(token[4:-2]) for token in speech_tokens if token.startswith('<|s_') and token.endswith('|>')]
speech_tokens_tensor = torch.tensor(speech_ids).cuda().unsqueeze(0).unsqueeze(0)
gen_wav = Codec_model.decode_code(speech_tokens_tensor)
sf.write("output.wav", gen_wav[0, 0, :].cpu().numpy(), 16000)

clonagem de fala

Grave ou prepare cerca de 15 segundos da trilha sonora original::
- Use um dispositivo de gravação ou forneça um arquivo de áudio existente.

processo de clonagem fonética::

Codificação das frequências de som originais em um livro de códigos que o modelo pode usar:

prompt_wav = sf.read("your_source_audio.wav")[0]  # 必须是16kHz采样率
vq_code_prompt = Codec_model.encode_code(torch.from_numpy(prompt_wav).unsqueeze(0).unsqueeze(0).cuda())

Adicionar dicas de áudio ao processo de geração de texto:

speech_ids_prefix = [f"<|s_{id}|>"foridin vq_code_prompt[0, 0, :].tolist()]
chat = [
{"role": "user", "content": "Convert the text to speech:" + formatted_text},
{"role": "assistant", "content": "<|SPEECH_GENERATION_START|>" + ''.join(speech_ids_prefix)}
]
# 后续步骤与文本转语音相同

advertência

Certifique-se de que o formato de entrada de áudio esteja correto, pois o Llasa-3B suporta apenas áudio de 16kHz.
O desempenho do modelo é diretamente afetado pela qualidade do texto e do áudio de entrada, garantindo a qualidade da entrada.

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

Recursos mais recentes de IA # Projeto de código aberto AI Java

6 meses atrás

01.4K

TemPolor: pesquise e gere músicas isentas de direitos autorais e locuções gratuitas para podcasts de vídeo

Recursos mais recentes de IA # AI Music

8 meses atrás

01.7K

GitDiagram：可视化GitHub代码库结构，将代码仓库转换为交互式系统架构图

GitDiagram: visualize a estrutura da sua base de código do GitHub e transforme seu repositório de código em um diagrama interativo da arquitetura do sistema.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Quadro branco de IA com infográfico

7 meses atrás

03.2K

Float: um mecanismo de busca inteligente entre idiomas para recuperar conhecimento em diferentes idiomas em sua língua materna

Recursos mais recentes de IA Ferramenta de busca # AI

6 meses atrás

01.7K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Llasa 1~8B: um modelo de conversão de texto em fala de código aberto para geração e clonagem de fala de alta qualidade

Introdução geral

Lista de funções

Usando a Ajuda

Instalação e preparação do ambiente

Fast GraphRAG: uma ferramenta de geração de aprimoramento de pesquisa gráfica altamente precisa e de baixo custo

Wepost: uma plataforma de IA que simplifica a criação e o gerenciamento de conteúdo de mídia social

Artigos relacionados

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

TemPolor: pesquise e gere músicas isentas de direitos autorais e locuções gratuitas para podcasts de vídeo

GitDiagram: visualize a estrutura da sua base de código do GitHub e transforme seu repositório de código em um diagrama interativo da arquitetura do sistema.

Float: um mecanismo de busca inteligente entre idiomas para recuperar conhecimento em diferentes idiomas em sua língua materna

Sem comentários

Últimas coleções

Artigos mais recentes

Llasa 1~8B: um modelo de conversão de texto em fala de código aberto para geração e clonagem de fala de alta qualidade

Introdução geral

Lista de funções

Usando a Ajuda

Instalação e preparação do ambiente

Fast GraphRAG: uma ferramenta de geração de aprimoramento de pesquisa gráfica altamente precisa e de baixo custo

Wepost: uma plataforma de IA que simplifica a criação e o gerenciamento de conteúdo de mídia social

Artigos relacionados

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

TemPolor: pesquise e gere músicas isentas de direitos autorais e locuções gratuitas para podcasts de vídeo

GitDiagram: visualize a estrutura da sua base de código do GitHub e transforme seu repositório de código em um diagrama interativo da arquitetura do sistema.

Float: um mecanismo de busca inteligente entre idiomas para recuperar conhecimento em diferentes idiomas em sua língua materna

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes