Voxtral - Modelos de voz de código abierto de Mistral AI

Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial

51.3K 00

¿Qué es Voxtral?

Voxtral, sí. Mistral AI Voxtral es un modelo de voz de código abierto de última generación que contribuye al avance de la interacción natural entre el ser humano y el ordenador mediante potentes funciones de transcripción y comprensión del habla. Disponible en dos versiones, 24B para producción masiva y 3B para implantación local, Voxtral es multilingüe, detecta automáticamente los idiomas y puede manejar hasta 30 minutos de transcripción de audio y 40 minutos de comprensión de audio. Con funciones integradas de preguntas y respuestas y de resumen, Voxtral puede generar contenidos estructurados sin necesidad de un modelo lingüístico adicional, y puede activar directamente llamadas a funciones back-end para optimizar la eficiencia y el coste de la interacción por voz.Voxtral combina la tecnología de aprendizaje profundo con el reconocimiento del habla y la comprensión del lenguaje natural, y puede utilizarse ampliamente en ámbitos como la grabación de reuniones, la atención al cliente, la creación de contenidos, la educación y los asistentes inteligentes, contribuyendo a popularizar la interacción por voz. Se utiliza ampliamente en la grabación de conferencias, atención al cliente, creación de contenidos, educación y asistentes inteligentes, etc., ayudando a popularizar la interacción por voz.

Características principales de Voxtral

Gran capacidad de procesamiento de audio: Maneja hasta 30 minutos de transcripción de audio y 40 minutos de comprensión en profundidad, lo que facilita el manejo de contenidos largos.
Preguntas y respuestas inteligentes y resumenPermite interrogar directamente el contenido de audio para generar resúmenes claros y estructurados sin necesidad de ayuda adicional de reconocimiento de voz o modelado lingüístico.
Reconocimiento automático multilingüe: Admite muchos idiomas corrientes (como inglés, francés, español, etc.), puede detectar automáticamente el idioma para satisfacer las necesidades de los usuarios de distintas regiones.
Activador de comandos de vozLa versión más reciente de la API es la que puede activar funciones de back-end o llamadas a la API directamente a partir de comandos de voz, lo que simplifica el proceso de operación y mejora la eficacia de la interacción.
Comprensión y tratamiento de textos: Fuerte comprensión de textos con soporte para entrada y procesamiento de textos.
Transcripción eficaz: Ofrece servicios de transcripción optimizados a bajo coste para aplicaciones a gran escala.

Dirección del sitio web oficial de Voxtral

Página web del proyecto:: https://mistral.ai/news/voxtral
Biblioteca de modelos HuggingFace::
- https://huggingface.co/mistralai/Voxtral-Small-24B-2507
- https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

Cómo utilizar Voxtral

Visite el sitio web oficial: Visite el sitio web del proyecto Voxtral y la biblioteca de modelos HuggingFace.
Elija la versión adecuada::
- Voxtral-Small-24B-2507: Adecuado para la escala de producción con un rendimiento mejorado.
- Voxtral-Mini-3B-2507: Adecuado para el despliegue local y menos intensivo en recursos.
Instalación de dependenciasAsegúrese de que Python y las dependencias necesarias están instaladas en su entorno, como por ejemplo transformers responder cantando torch. UtiliceEl siguiente comando instala::

pip install transformers torch

Modelos de carga: Usando HuggingFace's transformersLa biblioteca carga el modelo Voxtral:

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

model_name = "mistralai/Voxtral-Small-24B-2507"  # 或者 "mistralai/Voxtral-Mini-3B-2507"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

Preparar datos de audioAsegúrate de que el formato del archivo de audio es uno de los admitidos (por ejemplo, WAV, MP3, etc.).
- Transcripción Audio:Transcripción de audio con el modelo Voxtral:

from transformers import pipeline

# 创建一个语音转录 pipeline
transcriber = pipeline("automatic-speech-recognition", model=model_name)

# 转录音频文件
transcription = transcriber("path/to/your/audio/file.wav")
print(transcription)

Puntos fuertes de Voxtral

Potente procesamiento de voz: Admite hasta 30 minutos de transcripción de audio y 40 minutos de comprensión en profundidad, con una gran precisión de transcripción para contenidos complejos y extensos.
Soporte multilingüe: Detecta automáticamente varios idiomas (por ejemplo, inglés, español, francés, etc.) sin necesidad de cambiar manualmente para satisfacer las necesidades de los usuarios de todo el mundo.
Capacidades de interacción eficacesFunciones integradas de preguntas y respuestas y de resumen, que activan directamente la llamada de funciones de back-end, simplificando el proceso de operación y mejorando la eficacia de la interacción.
Rendimiento y coste optimizadosProporcionar servicios de transcripción de alto rendimiento que sean rentables, adecuados para aplicaciones a gran escala y que reduzcan la barrera de uso.
Opciones de implantación flexibles: Disponible en versiones 24B y 3B para implantaciones a escala de producción y local, respectivamente, y fácil de integrar.
profundidad de entendimiento: Soporte para contextos de texto largos (32k tokens), combinado con reconocimiento de voz y comprensión del lenguaje natural para reducir la tasa de errores.

Para quién es Voxtral

usuario empresarial: Los equipos de atención al cliente y los grabadores de reuniones utilizan Voxtral para mejorar la eficacia del servicio y el resumen de las reuniones.
educadorLos profesores transcriben el contenido del curso y ofrecen preguntas y respuestas en tiempo real para mejorar la interactividad de la enseñanza.
creador de contenidos: Periodistas, productores de podcasts y creadores de vídeo transcriben contenidos de forma eficaz y aumentan la productividad creativa.
Desarrollador tecnológico: Integre Voxtral en proyectos de desarrollo de aplicaciones de interacción vocal.
investigador: Procesamiento de datos del habla con Voxtral para potenciar la investigación sobre el lenguaje y el análisis de datos.