CrisperWhisper: herramienta de transcripción literal de discursos precisos

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

68.8K 00

Introducción general

CrisperWhisper es una herramienta avanzada de reconocimiento de voz basada en OpenAI Whisper que se centra en la transcripción de voz rápida, precisa y palabra por palabra. CrisperWhisper mejora la precisión de la marca de tiempo ajustando el etiquetador y personalizando la pérdida de atención, y reduce las ilusiones de transcripción para garantizar que cada palabra pronunciada se registra con precisión.

Resumen del documento
CrisperWhisper es una versión mejorada del modelo de reconocimiento del habla Whisper que, mediante el ajuste del tokenizador y el uso del algoritmo de deformación temporal dinámica (DTW), permite un registro cronológico más preciso a nivel de palabra, proporciona una transcripción del habla más granular, mejora la detección de pausas y eventos de relleno de palabras en el habla y reduce la producción de alucinaciones. También reduce la generación de alucinaciones.
resúmenes
CrisperWhisper es una mejora basada en el modelo Whisper diseñada para proporcionar un registro cronológico más preciso a nivel de palabra y una transcripción de voz más granular. El modelo mejora la precisión de la marca temporal ajustando el tokenizador de Whisper para que el algoritmo DTW pueda alinear con mayor precisión los clips de audio con las palabras. Esta técnica es especialmente útil para capturar la transcripción del habla en todas las pronunciaciones, lo que es importante para la evaluación clínica del habla, el análisis del proceso de planificación lingüística y la identificación de indicadores de carga cognitiva.CrisperWhisper también mejora la atención y la adaptación al ruido en fuentes de sonido monofónicas mediante el entrenamiento y la contrarrestación del ruido, y se ha probado en varios conjuntos de datos de referencia, lo que demuestra su uso en el reconocimiento del habla, segmentación, detección de eventos de relleno y reducción de contenido ilusorio. Además, se ha publicado el código del modelo y un conjunto de datos sintéticos con marcas de tiempo precisas a nivel de palabra.
Puntos de vista
Tokenizer mejoradoCrisperWhisper: CrisperWhisper mejora la precisión de la marca de tiempo eliminando espacios redundantes en el tokenizador y reetiquetando palabras específicas como "uh" y "um" para que el algoritmo DTW pueda alinear con mayor precisión los segmentos de audio con las palabras.
Tecnología antirruidoEl modelo mejora la adaptación al ruido al incluir datos de fuentes ruidosas y polifónicas durante el entrenamiento, y reduce la generación de contenido ilusorio al introducir muestras de entrenamiento en blanco.
Rendimiento superiorCrisperWhisper: CrisperWhisper se ha probado en una serie de conjuntos de datos de referencia, como AMI Meeting Corpus, TED-LIUM y LibriSpeech, y ha demostrado un excelente rendimiento en el reconocimiento del habla y el sellado de tiempo a nivel de palabra en estos conjuntos de datos.
Código fuente abierto y conjunto de datosEl código del modelo y un conjunto de datos de habla sintética se han hecho de código abierto, lo que ayudará a investigadores y desarrolladores a seguir estudiando y mejorando las técnicas de reconocimiento del habla.
Reducción del contenido virtualCrisperWhisper: CrisperWhisper reduce eficazmente la generación de contenido ilusorio gracias a un registro preciso de la hora y a un procesamiento específico del contenido ilusorio, lo que resulta especialmente importante para mejorar la fiabilidad de los sistemas de reconocimiento de voz.

Lista de funciones

Marcas de tiempo precisas a nivel de palabra: Proporciona marcas de tiempo precisas incluso con rellenos y pausas del habla.
transcripción literalRegistre cada palabra pronunciada textualmente, incluidas las palabras de relleno como "um" y "ah".
detección de palabras de relleno: Detecta y transcribe con precisión palabras de relleno.
Reducción de las alucinaciones: Reducción de las alucinaciones transcripcionales y mejora de la precisión.
código abiertoEl código está a disposición del público para facilitar su visualización y uso.

Utilizar la ayuda

Proceso de instalación

Preparación medioambiental::
- Asegúrese de tener instalado Python 3.7 o superior.
- Instale las bibliotecas de dependencias necesarias:pip install -r requirements.txt.
Descargar código::
- Clonar un repositorio GitHub:git clone https://github.com/nyrahealth/CrisperWhisper.git.
Ejecutar la aplicación::
- Vaya al catálogo de proyectos:cd CrisperWhisper.
- Ejecuta la aplicación:python app.py.

Normas de uso

Uso básico::
- Tras abrir la aplicación, carga el archivo de audio que quieras transcribir.
- Selecciona el modo de transcripción (transcripción literal o estándar).
- Haga clic en el botón "Iniciar transcripción" y espere a que finalice la transcripción.
Funciones avanzadas::
- Ajuste de la fecha y horaLa precisión de la marca de tiempo puede ajustarse en la configuración.
- detección de palabras de rellenoActiva o desactiva la detección de palabras de relleno.
- Exportar resultadosUna vez finalizada la transcripción, los resultados pueden exportarse a un archivo de texto o a otro formato.
problemas comunes::
- transcripción inexacta: Garantiza una buena calidad de audio y evita el ruido de fondo.
- Marcas de tiempo inexactasIntente ajustar la configuración de la marca de tiempo o utilice un archivo de audio de mayor calidad.

ejemplo típico

Ejemplo de transcripción literal::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
时间戳：[0:00:01] 嗯，[0:00:02] 我，[0:00:03] 觉得，[0:00:04] 这个，[0:00:05] 项目，[0:00:06] 非常，[0:00:07] 有趣。

Ejemplo de detección de palabras de relleno::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
填充词：[0:00:01] 嗯

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

JustDone: el asistente de escritura que genera rápidamente contenidos originales

Últimos recursos sobre IA # AI Escritura

hace 12 meses

070.8K

Trieve: un servicio completo de infraestructura en la nube RAG que proporciona búsquedas, recomendaciones y análisis.

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

059.4K

Dreamina (es decir, Dream AI): una plataforma de creación de imágenes con IA producida por Shakeology.

Últimos recursos sobre IA # AI Imagen a Vídeo # AI generación de imágenes en línea # AI de texto a vídeo

hace 1 año

0120.8K

Tu minuto diario: mejora de la conciencia emocional y la autorreflexión mediante el diario en vídeo con IA

Últimos recursos sobre IA # AI Asistente de Eficiencia Vital

hace 1 año

050.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

CrisperWhisper: herramienta de transcripción literal de discursos precisos

Introducción general

Resumen del documento

resúmenes

Puntos de vista

Lista de funciones