FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

103.8K 00

Introducción general

FunASR es un conjunto de herramientas de reconocimiento del habla de código abierto desarrollado por el Instituto Dharma de Alibaba para tender un puente entre la investigación académica y las aplicaciones industriales. Es compatible con una amplia gama de funciones de reconocimiento del habla, como el reconocimiento del habla (ASR), la detección de extremos de voz (VAD), la recuperación de puntuación, el modelado del lenguaje, la verificación de hablantes, la separación de hablantes y el reconocimiento del habla en diálogos entre varias personas.

Admite una gran variedad de formatos de entrada de audio y vídeo, puede identificar decenas de horas de audio y vídeo de larga duración en texto con puntuación, admite cientos de solicitudes de transcripción simultánea Admite chino, inglés, japonés, cantonés y coreano.

Experiencia en línea: https://www.funasr.com/

El paquete de software de transcripción de archivos sin conexión FunASR proporciona un potente servicio de transcripción de archivos sin conexión de voz. Con un completo enlace de reconocimiento del habla, que combina la detección de extremos del habla, el reconocimiento del habla, la puntuación y otros modelos, puede reconocer docenas de horas de audio y vídeo de larga duración como texto puntuado, y admite cientos de solicitudes de transcripción simultánea. El resultado es un texto puntuado con marcas de tiempo a nivel de palabra y compatible con ITN y palabras clave definidas por el usuario. Integración en el servidor con ffmpeg y compatibilidad con diversos formatos de entrada de audio y vídeo. El paquete proporciona html, python, c++, java y c# y otros lenguajes de programación cliente , el usuario puede utilizar directamente y un mayor desarrollo.

El paquete de software de dictado de voz en tiempo real FunASR integra versiones en tiempo real de modelos de detección de extremos de voz, reconocimiento de voz, reconocimiento de voz, modelos de predicción de puntuación, etc. Gracias a la sinergia multimodelo, no sólo puede realizar el dictado de voz a texto en tiempo real, sino también corregir el texto de salida con transcripción de alta precisión al final de la frase, el texto de salida con puntuación y la compatibilidad con solicitudes múltiples. Según los distintos escenarios de usuario, admite tres modos de servicio: servicio de dictado de voz en tiempo real (online), transcripción de frases en tiempo no real (offline) y colaboración integrada en tiempo real y no real (2pass). El paquete de software ofrece diversos lenguajes de programación, como html, python, c++, java y el cliente c#, que los usuarios pueden utilizar directamente y seguir desarrollando.

Lista de funciones

Reconocimiento de voz (ASR): admite el reconocimiento de voz sin conexión y en tiempo real.
Detección del punto final de la voz (VAD): detecta el principio y el final de la señal de voz.
Recuperación de puntuación: añade puntuación automáticamente para mejorar la legibilidad del texto.
Modelos lingüísticos: admite la integración de varios modelos lingüísticos.
Verificación del orador: verifica la identidad del orador.
Separación de hablantes: distinguir el habla de distintos hablantes.
Reconocimiento de voz para varias conversaciones: admite el reconocimiento de voz para varias conversaciones simultáneas.
Inferencia y ajuste de modelos: ofrece funciones de inferencia y ajuste de modelos preentrenados.

Utilizar la ayuda

Proceso de instalación

Preparación medioambiental::
- Asegúrese de que Python 3.7 o superior está instalado.
- Instale las bibliotecas de dependencias necesarias:
```
pip install -r requirements.txt
```
Descargar modelos::
- Descargue modelos preentrenados de ModelScope o HuggingFace:
```
git clone https://github.com/modelscope/FunASR.git
cd FunASR
```
Entorno de configuración::
- Configurar variables de entorno:
```
export MODEL_DIR=/path/to/your/model
```

Proceso de utilización

reconocimiento de voz::

Utiliza la línea de comandos para el reconocimiento de voz:

python recognize.py --model paraformer --input your_audio.wav

Reconocimiento de voz mediante código Python:

from funasr import AutoModel
model = AutoModel.from_pretrained("paraformer")
result = model.recognize("your_audio.wav")
print(result)

detección de terminales de voz::

Utilice la línea de comandos para la detección de terminales de voz:
```
python vad.py --model fsmn-vad --input your_audio.wav
```

Detección de terminales de voz mediante código Python:

from funasr import AutoModel
vad_model = AutoModel.from_pretrained("fsmn-vad")
vad_result = vad_model.detect("your_audio.wav")
print(vad_result)

Recuperación de la puntuación::

Utilice la línea de comandos para recuperar la puntuación:
```
python punctuate.py --model ct-punc --input your_text.txt
```

Recuperación de la puntuación mediante código Python:

from funasr import AutoModel
punc_model = AutoModel.from_pretrained("ct-punc")
punc_result = punc_model.punctuate("your_text.txt")
print(punc_result)

Verificación del orador::

Utilice la línea de comandos para verificar el altavoz:

python verify.py --model speaker-verification --input your_audio.wav

Verificación de altavoces mediante código Python:

from funasr import AutoModel
verify_model = AutoModel.from_pretrained("speaker-verification")
verify_result = verify_model.verify("your_audio.wav")
print(verify_result)

Reconocimiento de voz multihabla::

Reconocimiento de voz para diálogos multijugador mediante la línea de comandos:
```
python multi_asr.py --model multi-talker-asr --input your_audio.wav
```

Reconocimiento de voz para conversaciones entre varias personas mediante código Python:

from funasr import AutoModel
multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
multi_asr_result = multi_asr_model.recognize("your_audio.wav")
print(multi_asr_result)

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI de texto a vídeo

Hace 1 año

042.7K

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Últimos recursos sobre IA

hace 3mos

038.9K

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

Últimos recursos sobre IA

Hace 2 semanas

015.9K

OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

Hace 1 año

036.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

UltraPixel: revolucionaria tecnología de generación de imágenes de altísima resolución con gran riqueza de detalles

BlinkShot: generación de imágenes en tiempo real escribiendo palabras clave (acceso gratuito al modelo Flux Schnell)

Puestos relacionados

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Sin comentarios

Últimas colecciones

Últimos artículos

FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

UltraPixel: revolucionaria tecnología de generación de imágenes de altísima resolución con gran riqueza de detalles

BlinkShot: generación de imágenes en tiempo real escribiendo palabras clave (acceso gratuito al modelo Flux Schnell)

Puestos relacionados

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos