Aprendizagem pessoal com IA
e orientação prática

PengChengStarling: ferramenta de conversão de fala em texto multilíngue menor e mais rápida que o Whisper-Large v3

Este artigo foi atualizado em 2025-01-30 23:28, parte do conteúdo é sensível ao tempo, se for inválido, deixe uma mensagem!

Introdução geral

O pengChengStarling (PengCheng Labs) é uma ferramenta de reconhecimento automático de fala (ASR) multilíngue capaz de converter a fala em diferentes idiomas em texto correspondente. Desenvolvido com base no projeto icefall, esse kit de ferramentas oferece um processo completo de reconhecimento de fala, incluindo processamento de dados, treinamento de modelos, inferência, ajuste fino e implantação. O pengChengStarling oferece suporte ao reconhecimento de fala em streaming em oito idiomas, incluindo chinês, inglês, russo, vietnamita, japonês, tailandês, indonésio e árabe. Seus principais cenários de aplicação incluem assistentes de voz, ferramentas de tradução, geração de legendas e pesquisa por voz. O tamanho do modelo é 20% do Whisper-Large v3, e a velocidade de inferência é 7 vezes mais rápida que a do Whisper-Large v3.

Os recursos são que ele pode lidar com a entrada de fala multilíngue em uma estrutura unificada, oferecer suporte ao reconhecimento de fala em tempo real, reconhecimento durante a fala, pode ser usado como gravação de conferência internacional para texto, vídeo multilíngue gera legendas automaticamente, sistema de atendimento ao cliente em vários idiomas.

PengChengStarling: ferramenta de conversão de fala em texto em vários idiomas, compatível com reconhecimento de fala em vários idiomas-1

 

Lista de funções

  • Processamento de dados: oferece suporte ao pré-processamento de vários conjuntos de dados para gerar o formato de entrada necessário.
  • Treinamento de modelos: fornece configurações de treinamento flexíveis para dar suporte a tarefas de reconhecimento de fala multilíngue.
  • Inferência: velocidade de inferência eficiente com suporte para reconhecimento de fala em fluxo contínuo.
  • Ajuste fino: suporta o ajuste fino de modelos para atender a requisitos específicos de tarefas.
  • Implementação: fornece modelos nos formatos PyTorch e ONNX para facilitar a implementação.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem do Project Warehouse:
   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling
  1. Instale a dependência:
   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

Preparação de dados

Antes de iniciar o processo de treinamento, os dados brutos precisam primeiro ser pré-processados no formato de entrada desejado. Normalmente, isso envolve a adaptação dozipformer/prepare.pyacertou em cheiomake_*_listpara gerar o métododados.listaArquivo. Após a conclusão, o script gerará os cortes correspondentes e os recursos fbank para cada conjunto de dados, que serão usados como dados de entrada para o PengChengStarling.

treinamento de modelos

  1. Configure os parâmetros de treinamento: na seçãoconfig_trainpara configurar os parâmetros necessários para o treinamento.
  2. Iniciar o treinamento:
   . /train.sh

inferência

  1. Preparar dados de inferência: pré-processar os dados no formato desejado.
  2. Iniciar o raciocínio:
   . /eval.sh

ajuste fino

  1. Preparar dados ajustados: pré-processa os dados no formato desejado.
  2. Iniciar o ajuste fino:
   . /train.sh --finetune

implementações

O PengChengStarling fornece modelos em dois formatos: dicionário de estados PyTorch e formato ONNX. Você pode escolher o formato apropriado para a implantação de acordo com suas necessidades.


Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " PengChengStarling: ferramenta de conversão de fala em texto multilíngue menor e mais rápida que o Whisper-Large v3

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil