Voxtral - Modelos de fala de código aberto da Mistral AI

Recursos mais recentes de IAPublicado há 2 meses Círculo de compartilhamento de IA

18.5K 00

O que é a Voxtral?

Voxtral, sim. IA Mistral O Voxtral é um modelo de fala de código aberto de última geração que apóia o avanço da interação natural homem-computador por meio de recursos avançados de transcrição e compreensão de fala. Disponível em duas versões, 24B para produção em massa e 3B para implantação local, o Voxtral é multilíngue, detecta automaticamente os idiomas e pode lidar com até 30 minutos de transcrição de áudio e 40 minutos de compreensão de áudio. Com funções integradas de perguntas e respostas e de resumo, o Voxtral pode gerar conteúdo estruturado sem a necessidade de um modelo de idioma adicional e pode acionar diretamente chamadas de funções de back-end para otimizar a eficiência e o custo da interação por voz. O Voxtral combina a tecnologia de aprendizagem profunda com o reconhecimento de fala e a compreensão de linguagem natural e pode ser amplamente utilizado em áreas como gravação de reuniões, atendimento ao cliente, criação de conteúdo, educação e assistentes inteligentes, ajudando a popularizar a interação por voz. Ele é amplamente utilizado em gravação de conferências, atendimento ao cliente, criação de conteúdo, educação e assistentes inteligentes, etc., ajudando a popularizar a interação por voz.

Principais recursos do Voxtral

Longa capacidade de processamento de áudioTranscrição de áudio: lida com até 30 minutos de transcrição de áudio e 40 minutos de compreensão aprofundada, facilitando o manuseio de conteúdo de formato longo.
Perguntas e respostas inteligentes e resumoSuporte ao questionamento direto do conteúdo de áudio para gerar resumos estruturados claros sem a necessidade de reconhecimento de fala adicional ou assistência de modelagem de linguagem.
Reconhecimento automático em vários idiomasSuporte a vários idiomas comuns (como inglês, francês, espanhol, etc.), podendo detectar automaticamente o idioma para atender às necessidades dos usuários em diferentes regiões.
Acionador de comando de vozA versão mais recente da API é aquela que pode acionar funções de back-end ou chamadas de API diretamente com base em comandos de voz, simplificando o processo de operação e melhorando a eficiência da interação.
Compreensão e processamento de textosCompreensão de texto avançada com suporte para entrada e processamento de texto.
Desempenho eficiente de transcriçãoTranscrição: fornece serviços de transcrição otimizados a baixo custo para aplicativos de grande escala.

Endereço do site oficial da Voxtral

Site do projeto:: https://mistral.ai/news/voxtral
Biblioteca do modelo HuggingFace::
- https://huggingface.co/mistralai/Voxtral-Small-24B-2507
- https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

Como usar o Voxtral

Visite o site oficialVisite o site do projeto Voxtral e a biblioteca de modelos HuggingFace.
Escolha a versão correta::
- Voxtral-Small-24B-2507Adequado para escala de produção com desempenho aprimorado.
- Voxtral-Mini-3B-2507Adequado para implantação local e menos intensivo em recursos.
Instalação de dependênciasCertifique-se de que o Python e as dependências necessárias estejam instalados em seu ambiente, como transformers responder cantando torch. UsarO comando a seguir instala::

pip install transformers torch

Modelos de carregamentoUsando HuggingFace's transformersA biblioteca carrega o modelo Voxtral:

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

model_name = "mistralai/Voxtral-Small-24B-2507"  # 或者 "mistralai/Voxtral-Mini-3B-2507"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

Preparar dados de áudioVerifique se o formato do arquivo de áudio é um dos formatos compatíveis (por exemplo, WAV, MP3, etc.).
- Áudio transcrito:Transcrição de áudio com o modelo Voxtral:

from transformers import pipeline

# 创建一个语音转录 pipeline
transcriber = pipeline("automatic-speech-recognition", model=model_name)

# 转录音频文件
transcription = transcriber("path/to/your/audio/file.wav")
print(transcription)

Principais pontos fortes da Voxtral

Processamento avançado de falaTranscrição de áudio: suporta até 30 minutos de transcrição de áudio e 40 minutos de compreensão aprofundada, com alta precisão de transcrição para conteúdo complexo e longo.
Suporte a vários idiomasDetecta automaticamente vários idiomas (por exemplo, inglês, espanhol, francês, etc.) sem a necessidade de alternar manualmente para atender às necessidades dos usuários em todo o mundo.
Recursos de interação eficientesFunções incorporadas de perguntas e respostas e resumo, acionando diretamente a chamada de funções de back-end, simplificando o processo de operação e melhorando a eficiência da interação.
Desempenho e custo otimizadosFornecimento de serviços de transcrição de alto desempenho que sejam econômicos, adequados para aplicativos de grande escala e reduzam a barreira ao uso.
Opções flexíveis de implementaçãoDisponível nas versões 24B e 3B para implementações locais e em escala de produção, respectivamente, e fácil de integrar.
profundidade de compreensãoSuporte para contextos de texto longo (32k tokens), combinado com reconhecimento de fala e compreensão de linguagem natural para reduzir as taxas de erro.

Para quem é o Voxtral

usuário corporativoAs equipes de atendimento ao cliente e os gravadores de reuniões usam o Voxtral para melhorar a eficiência do serviço e o resumo das reuniões.
educadorOs professores transcrevem o conteúdo do curso e fornecem perguntas e respostas em tempo real para aprimorar a interatividade do ensino.
criador de conteúdoTranscrição de conteúdo: jornalistas, produtores de podcast e criadores de vídeo transcrevem conteúdo com eficiência e aumentam a produtividade criativa.
Desenvolvedor de tecnologiaIntegração da Voxtral em projetos para desenvolver aplicativos de interação por voz.
pesquisadorProcessamento de dados de fala com o Voxtral para potencializar a pesquisa de análise de dados e linguagem.