FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

74.3K 00

Introducción general

FireRedASR es un modelo de reconocimiento del habla desarrollado y de código abierto por el equipo de Little Red Book FireRed, que se centra en proporcionar un soporte multilingüe de alta precisión para soluciones de reconocimiento automático del habla (ASR). FireRedASR se divide en dos versiones principales: FireRedASR-LLM persigue una precisión extrema y es adecuado para necesidades profesionales; FireRedASR-AED equilibra la eficiencia y el rendimiento y es adecuado para aplicaciones en tiempo real. A partir de 2025, el modelo ha establecido el récord óptimo en la prueba de chino mandarín (CER 3.05%) y ha obtenido buenos resultados en pruebas multiescenario, lo que resulta ampliamente aplicable a asistentes inteligentes, generación de subtítulos de vídeo y otros campos.

FireRedASR: Instalador de un solo clic WebUI: https://github.com/jianchang512/fireredasr-ui

Lista de funciones

Admite la conversión de voz a texto en mandarín, dialectos chinos e inglés, con una precisión de reconocimiento líder en el sector.
Ofrece la función de reconocimiento de letras de canciones, especialmente indicada para el tratamiento de contenidos multimedia.
Se incluyen dos versiones, FireRedASR-LLM y FireRedASR-AED, para satisfacer las necesidades de inferencia de alta precisión y alta eficiencia, respectivamente.
Modelos y código de razonamiento de código abierto para apoyar el desarrollo secundario comunitario y las aplicaciones personalizadas.
Puede manejar una gran variedad de escenarios de entrada de audio, como vídeos cortos, streaming en directo, entrada de voz, etc.
Admite el procesamiento de audio por lotes, adecuado para tareas de transcripción de datos a gran escala.

Utilizar la ayuda

Proceso de instalación

FireRedASR requiere ciertas configuraciones del entorno de desarrollo para funcionar, a continuación se detallan los pasos de instalación:

1.Clonación del almacén de proyectos
Abra un terminal e introduzca el siguiente comando para clonar el proyecto FireRedASR localmente:

git clone https://github.com/FireRedTeam/FireRedASR.git

Cuando haya terminado, vaya al catálogo de proyectos:

cd FireRedASR

Creación de un entorno Python
Se recomienda crear un entorno Python separado usando Conda para asegurar el aislamiento de dependencias. Ejecute el siguiente comando:

conda create --name fireredasr python=3.10

Activar el entorno:

conda activate fireredasr

Instalación de dependencias
El proyecto ofrece un requirements.txt que contiene todas las dependencias necesarias. El comando de instalación es el siguiente:

pip install -r requirements.txt

Espera a que se complete la instalación, asegúrate de que la red es fluida, puede que necesites una herramienta científica de Internet para acelerar la descarga.

Descargar modelo preentrenado

FireRedASR-AED-LDescarga el modelo preentrenado directamente de GitHub o de Hugging Face, introdúcelo en el archivo pretrained_models/FireRedASR-AED-L Carpeta.
Rojo FuegoASR-LLM-LAdemás de descargar el modelo, también es necesario descargar el modelo Qwen2-7B-Instruct en el archivo pretrained_models y en la carpeta FireRedASR-LLM-L para crear enlaces blandos:

ln -s ../Qwen2-7B-Instruct

Verificar la instalación
Ejecute el siguiente comando para comprobar si la instalación se ha realizado correctamente:

python speech2text.py --help

Si aparece un mensaje de ayuda, el entorno está configurado correctamente.

Cómo utilizarlo

FireRedASR proporciona dos maneras de utilizar la línea de comandos y la API de Python, la siguiente es una descripción detallada de las principales funciones del proceso de operación.

operación desde la línea de comandos

Transcripción de un solo archivo (modelo DEA)
Utilice FireRedASR-AED-L para procesar archivos de audio (hasta 60 segundos):

python speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L

--wav_pathEspecifica la ruta del archivo de audio.
--asr_type: Selecciona el tipo de modelo, en este caso "aed".
--model_dir: Especifica la carpeta del modelo.
La salida se muestra en el terminal, por ejemplo, el contenido del texto transcrito.

Transcripción de un solo archivo (modelo LLM)
Utilice FireRedASR-LLM-L para procesar audio (hasta 30 segundos):

python speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L

El significado del parámetro es el mismo que el anterior, y la salida es texto transcrito.

Operaciones de la API de Python

Cargar modelo y transcribir
Llame al modelo FireRedASR en un script de Python:

from fireredasr.models.fireredasr import FireRedAsr
# 初始化 AED 模型
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]
results = model.transcribe(
batch_uttid, batch_wav_path,
{"use_gpu": 1, "beam_size": 3, "nbest": 1, "decode_max_len": 0}
)
print(results)

from_pretrainedCarga el modelo especificado.
transcribir: Realiza una tarea de transcripción y devuelve el resultado como una lista de textos.

Ajuste de los parámetros para optimizar los resultados
- usar_gpu: Establece 1 para usar la aceleración de la GPU, 0 para usar la CPU.
- tamaño_haz: La anchura del haz de búsqueda, cuanto mayor sea mayor será la precisión pero más tiempo consumirá, por defecto 3.
- nbest: Devuelve el número óptimo de resultados, por defecto 1.

Función destacada Operación

reconocimiento lírico
El FireRedASR-LLM destaca en el reconocimiento de letras. Introduce el audio de la canción (asegúrate de que no dura más de 30 segundos), ejecútalo:
```
python speech2text.py --wav_path your_song.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L
```
**Salida como texto de canción con tasas de reconocimiento líderes en el sector. **
Soporte multilingüe
Para audio dialectal o en inglés, utilice directamente los comandos o API anteriores y el modelo se adaptará automáticamente. Por ejemplo, procesamiento de audio en inglés:
```
model = FireRedAsr.from_pretrained("llm","pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(["english_audio"],["path/to/english.wav"],{"use_gpu":1})
print(results)
```

advertencia

Límite de duración del audio: DEA soportado hasta 60 segundos, más allá de los cuales pueden producirse problemas alucinatorios; LLM soportado durante 30 segundos, con comportamiento extralargo indefinido.
archivo por lotes: Asegúrese de que las longitudes de audio de entrada son similares para evitar la degradación del rendimiento.
requisitos de hardware: Se recomienda utilizar la GPU para ejecutar modelos grandes, ya que la CPU puede ser más lenta.

Mediante los pasos anteriores, los usuarios pueden empezar a utilizar FireRedASR fácilmente y completar todo el proceso, desde la instalación hasta el uso, que es aplicable a una gran variedad de escenarios de reconocimiento de voz.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Erayaha AI: Revisión del cumplimiento del contenido de los contratos mediante IA para soluciones inteligentes de gestión de contratos

Últimos recursos sobre IA # AI Escritura

Hace 1 año

036.7K

BeeBee AI: Plataforma inteligente de análisis financiero, ganancias en bolsa de EE.UU., reuniones, análisis de impacto

Últimos recursos sobre IA # AI Análisis de datos financieros

hace 12mos

040.4K

Whisper GPGPU：运行在Windows的OpenAI Whisper|Whisperdesktop

Whisper GPGPU: OpenAI Whisper en Windows|Whisperdesktop

Últimos recursos sobre IA # AI Voz a texto

Hace 1 año

079.6K

JoyCaptionAlpha Two for ComfyUI：图像反推文本描述工具

JoyCaptionAlpha Dos para ComfyUI: Herramienta de Descripción de Texto por Retropropagación de Imagen

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes

Hace 1 año

038.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Cómo utilizarlo

operación desde la línea de comandos

Operaciones de la API de Python

FateTell: herramienta de adivinación artificial para usuarios extranjeros del Zhouyi Bagua

IC Light AI: versión en línea de IC-Light para sesiones fotográficas generadas por IA

Puestos relacionados

Erayaha AI: Revisión del cumplimiento del contenido de los contratos mediante IA para soluciones inteligentes de gestión de contratos

BeeBee AI: Plataforma inteligente de análisis financiero, ganancias en bolsa de EE.UU., reuniones, análisis de impacto

Whisper GPGPU: OpenAI Whisper en Windows|Whisperdesktop

JoyCaptionAlpha Dos para ComfyUI: Herramienta de Descripción de Texto por Retropropagación de Imagen

Sin comentarios

Últimas colecciones

Últimos artículos

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Cómo utilizarlo

operación desde la línea de comandos

Operaciones de la API de Python

FateTell: herramienta de adivinación artificial para usuarios extranjeros del Zhouyi Bagua

IC Light AI: versión en línea de IC-Light para sesiones fotográficas generadas por IA

Puestos relacionados

Erayaha AI: Revisión del cumplimiento del contenido de los contratos mediante IA para soluciones inteligentes de gestión de contratos

BeeBee AI: Plataforma inteligente de análisis financiero, ganancias en bolsa de EE.UU., reuniones, análisis de impacto

Whisper GPGPU: OpenAI Whisper en Windows|Whisperdesktop

JoyCaptionAlpha Dos para ComfyUI: Herramienta de Descripción de Texto por Retropropagación de Imagen

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos