Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos

Introdução geral

O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idioma para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, Sul da Ásia, Sudeste Asiático e Oriente Médio, além de 22 dialetos chineses. O modelo é treinado em mais de 210.000 horas de dados de áudio, combinando conjuntos de dados proprietários e disponíveis publicamente. O Dolphin pode converter fala em texto, bem como detectar partes da fala (VAD), segmentar áudio e reconhecer idioma (LID). Ele foi projetado para ser simples, e o código e alguns dos modelos estão disponíveis gratuitamente no GitHub para desenvolvedores.

Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos-1


 

Lista de funções

  • Oferece suporte à conversão de voz em texto em 40 idiomas asiáticos e 22 dialetos chineses.
  • Fornece detecção de atividade de voz (VAD) para localizar segmentos de fala no áudio.
  • Suporte à divisão de áudio, corte o áudio longo em pequenos segmentos para processamento.
  • Implementar a identificação de idioma (LID) para determinar o idioma ou dialeto do áudio.
  • Código-fonte aberto e modelos que permitem a modificação e a personalização pelo usuário.
  • Há dois modelos, básico e pequeno, para atender a diferentes necessidades.
  • Usar um sistema de rotulagem de dois níveis que faça distinção entre idiomas e regiões (por exemplo <zh><CN>).

 

Usando a Ajuda

O processo de instalação e uso do Dolphin é simples e adequado para usuários com conhecimentos básicos de programação. Veja a seguir as etapas detalhadas.

Processo de instalação

  1. Preparação do ambiente
    Requer Python 3.8 ou superior e FFmpeg para processar áudio.

    • Verificação do Python: No terminal, digite python --version, confirmando a versão.
    • O Python não está instalado e pode ser baixado do site python.org.
    • Instale o FFmpeg: execute o comando de acordo com seu sistema:
      • Ubuntu/Debian:
        sudo apt update && sudo apt install ffmpeg
        
      • macOS:
        brew install ffmpeg
        
      • Windows:
        choco install ffmpeg
        

      As ferramentas de gerenciamento de pacotes não instaladas podem ser baixadas do site do FFmpeg.

  2. Instalando o Dolphin
    Há duas maneiras:

    • Instalar com o pip
      Digite-o no terminal:

      pip install -U dataoceanai-dolphin
      

      Isso instalará a versão estável mais recente.

    • Instalação a partir do código-fonte
      Para usar a versão de desenvolvimento mais recente, obtenha-a no GitHub:

      1. Armazém de Clonagem:
        git clone https://github.com/DataoceanAI/Dolphin.git
        
      2. Acesse o catálogo:
        cd Dolphin
        
      3. Instalação:
        pip install .
        
  3. Modelos para download
    O Dolphin tem 4 modelos, atualmente o básico (140 milhões de parâmetros) e o pequeno (372 milhões de parâmetros) estão disponíveis para download gratuito.

    • através de (uma lacuna) Cara de abraço Obter o arquivo de modelo.
    • Salvar no caminho especificado, por exemplo. /data/models/dolphin/.
    • O modelo básico é mais rápido e o modelo pequeno é mais preciso.

Uso

Há suporte para operações de linha de comando e Python.

operação de linha de comando

  1. Conversão de fala em texto
    Prepare o arquivo de áudio (por exemplo audio.wav), digite:
dolphin audio.wav

O sistema faz o download automático do modelo padrão e gera o texto. O áudio deve estar no formato WAV e pode ser convertido com o FFmpeg:

ffmpeg -i input.mp3 output.wav
  1. Especificação de modelos e caminhos
    Use o modelo pequeno:
dolphin audio.wav --model small --model_dir /data/models/dolphin/
  1. Especifique o idioma e a região
    Reconhecimento do chinês mandarim com marcadores de camada dupla:
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"
  • lang_sym é o código do idioma, como "zh" (chinês).
  • region_sym é o código de área, por exemplo, "CN" (China continental).
    Para obter uma lista completa de idiomas, consulte idiomas.md.
  1. Preencher áudio curto
    Disponível quando o áudio tem menos de 30 segundos --padding_speech true Recheio:
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true

Manipulação de código Python

  1. Carregando áudio e modelos
    É executado em Python:
import dolphin
waveform = dolphin.load_audio("audio.wav")  # 加载音频
model = dolphin.load_model("small", "/data/models/dolphin/", "cuda")  # 加载模型
  • "cuda" com GPU, sem alteração de GPU para "cpu".
  1. Reconhecimento executivo
    Processa o áudio e o envia para a saída:

    result = model(waveform)  # 转文本
    print(result.text)  # 显示结果
    
  2. Especifique o idioma e a região
    Adicionar parâmetros:

    result = model(waveform, lang_sym="zh", region_sym="CN")
    print(result.text)
    

Operação da função em destaque

  • Detecção de atividade de voz (VAD)
    Detecta automaticamente segmentos de fala e os rotula com o tempo, por exemplo:

    0.0-2.5s: 你好
    3.0-4.5s: 今天天气很好
    
  • Identificação do idioma (LID)
    Determine o idioma do áudio, por exemplo:

    dolphin audio.wav --model small --model_dir /data/models/dolphin/
    

    saída como <zh>(chinês) ou <ja>(japonês).

  • marcação bilíngue
    Distinguir entre idiomas e regiões com rotulagem de dois níveis, por exemplo <zh><CN>(em chinês mandarim),<zh><TW>(mandarim taiwanês) para aprimorar as habilidades de processamento de idiomas asiáticos.
  • arquitetura do modelo
    A arquitetura do CTC-Attention, com o E-Branchformer para o codificador e o Transformer para o decodificador, é otimizada para idiomas asiáticos.

 

cenário do aplicativo

  1. procedimentos
    Converte gravações de conferências multilíngues asiáticas em texto, adequado para reuniões internacionais ou locais.
  2. estudo do dialeto
    Analisar as características fonológicas de 22 dialetos chineses e gerar dados de pesquisa.
  3. Desenvolvimento de dispositivos inteligentes
    Integração em dispositivos inteligentes para controle de voz em idiomas asiáticos.

 

QA

  1. Quais são os idiomas suportados?
    Suporte para 40 idiomas asiáticos e 22 dialetos chineses, consulte idiomas.md.
  2. Precisa de uma GPU?
    Não é necessário. A CPU pode ser executada, mas a GPU (suporte a CUDA) é mais rápida.
  3. Qual é a diferença entre os modelos básico e pequeno?
    O modelo básico é pequeno (140 milhões de parâmetros) com uma taxa de erro de 33,31 TP3T; o modelo pequeno é grande (372 milhões de parâmetros) com uma taxa de erro de 25,21 TP3T.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos
pt_BRPortuguês do Brasil