CrisperWhisper: herramienta de transcripción literal de discursos precisos
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 3.2K 00
Introducción general
CrisperWhisper es una herramienta avanzada de reconocimiento de voz basada en OpenAI Whisper que se centra en la transcripción de voz rápida, precisa y palabra por palabra. CrisperWhisper mejora la precisión de la marca de tiempo ajustando el etiquetador y personalizando la pérdida de atención, y reduce las ilusiones de transcripción para garantizar que cada palabra pronunciada se registra con precisión.
Resumen del documento
CrisperWhisper es una versión mejorada del modelo de reconocimiento del habla Whisper que, mediante el ajuste del tokenizador y el uso del algoritmo de deformación temporal dinámica (DTW), permite un registro cronológico más preciso a nivel de palabra, proporciona una transcripción del habla más granular, mejora la detección de pausas y eventos de relleno de palabras en el habla y reduce la producción de alucinaciones. También reduce la generación de alucinaciones.
resúmenes
CrisperWhisper es una mejora basada en el modelo Whisper diseñada para proporcionar un registro cronológico más preciso a nivel de palabra y una transcripción de voz más granular. El modelo mejora la precisión de la marca temporal ajustando el tokenizador de Whisper para que el algoritmo DTW pueda alinear con mayor precisión los clips de audio con las palabras. Esta técnica es especialmente útil para capturar la transcripción del habla en todas las pronunciaciones, lo que es importante para la evaluación clínica del habla, el análisis del proceso de planificación lingüística y la identificación de indicadores de carga cognitiva.CrisperWhisper también mejora la atención y la adaptación al ruido en fuentes de sonido monofónicas mediante el entrenamiento y la contrarrestación del ruido, y se ha probado en varios conjuntos de datos de referencia, lo que demuestra su uso en el reconocimiento del habla, segmentación, detección de eventos de relleno y reducción de contenido ilusorio. Además, se ha publicado el código del modelo y un conjunto de datos sintéticos con marcas de tiempo precisas a nivel de palabra.
Puntos de vista
- Tokenizer mejoradoCrisperWhisper: CrisperWhisper mejora la precisión de la marca de tiempo eliminando espacios redundantes en el tokenizador y reetiquetando palabras específicas como "uh" y "um" para que el algoritmo DTW pueda alinear con mayor precisión los segmentos de audio con las palabras.
- Tecnología antirruidoEl modelo mejora la adaptación al ruido al incluir datos de fuentes ruidosas y polifónicas durante el entrenamiento, y reduce la generación de contenido ilusorio al introducir muestras de entrenamiento en blanco.
- Rendimiento superiorCrisperWhisper: CrisperWhisper se ha probado en una serie de conjuntos de datos de referencia, como AMI Meeting Corpus, TED-LIUM y LibriSpeech, y ha demostrado un excelente rendimiento en el reconocimiento del habla y el sellado de tiempo a nivel de palabra en estos conjuntos de datos.
- Código fuente abierto y conjunto de datosEl código del modelo y un conjunto de datos de habla sintética se han hecho de código abierto, lo que ayudará a investigadores y desarrolladores a seguir estudiando y mejorando las técnicas de reconocimiento del habla.
- Reducción del contenido virtualCrisperWhisper: CrisperWhisper reduce eficazmente la generación de contenido ilusorio gracias a un registro preciso de la hora y a un procesamiento específico del contenido ilusorio, lo que resulta especialmente importante para mejorar la fiabilidad de los sistemas de reconocimiento de voz.
Lista de funciones
- Marcas de tiempo precisas a nivel de palabra: Proporciona marcas de tiempo precisas incluso con rellenos y pausas del habla.
- transcripción literalRegistre cada palabra pronunciada textualmente, incluidas las palabras de relleno como "um" y "ah".
- detección de palabras de relleno: Detecta y transcribe con precisión palabras de relleno.
- Reducción de las alucinaciones: Reducción de las alucinaciones transcripcionales y mejora de la precisión.
- código abiertoEl código está a disposición del público para facilitar su visualización y uso.
Utilizar la ayuda
Proceso de instalación
- Preparación medioambiental::
- Asegúrese de tener instalado Python 3.7 o superior.
- Instale las bibliotecas de dependencias necesarias:
pip install -r requirements.txt
.
- Descargar código::
- Clonar un repositorio GitHub:
git clone https://github.com/nyrahealth/CrisperWhisper.git
.
- Clonar un repositorio GitHub:
- Ejecutar la aplicación::
- Vaya al catálogo de proyectos:
cd CrisperWhisper
. - Ejecuta la aplicación:
python app.py
.
- Vaya al catálogo de proyectos:
Normas de uso
- Uso básico::
- Tras abrir la aplicación, carga el archivo de audio que quieras transcribir.
- Selecciona el modo de transcripción (transcripción literal o estándar).
- Haga clic en el botón "Iniciar transcripción" y espere a que finalice la transcripción.
- Funciones avanzadas::
- Ajuste de la fecha y horaLa precisión de la marca de tiempo puede ajustarse en la configuración.
- detección de palabras de rellenoActiva o desactiva la detección de palabras de relleno.
- Exportar resultadosUna vez finalizada la transcripción, los resultados pueden exportarse a un archivo de texto o a otro formato.
- problemas comunes::
- transcripción inexacta: Garantiza una buena calidad de audio y evita el ruido de fondo.
- Marcas de tiempo inexactasIntente ajustar la configuración de la marca de tiempo o utilice un archivo de audio de mayor calidad.
ejemplo típico
- Ejemplo de transcripción literal::
原音频:嗯,我觉得这个项目非常有趣。 转录结果:嗯,我觉得这个项目非常有趣。 时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
- Ejemplo de detección de palabras de relleno::
原音频:嗯,我觉得这个项目非常有趣。 转录结果:嗯,我觉得这个项目非常有趣。 填充词:[0:00:01] 嗯
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...