CapsWriter-Offline: Herramienta de entrada de voz y transcripción de subtítulos para PC

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

60.3K 00

Introducción general

CapsWriter-Offline es una herramienta de entrada de voz y transcripción de subtítulos para PC, alojada en GitHub y creada por el desarrollador HaujetZhao. Se ejecuta completamente fuera de línea y no requiere conexión a Internet para la transcripción de voz a texto y de archivos de audio/vídeo a subtítulos, y admite tiempo de grabación ilimitado, entrada mixta de chino e inglés y reconocimiento de alta precisión. El software es fácil y eficaz de utilizar: pulsa el atajo de teclado (CapsLock por defecto) para grabar y suéltalo para introducir automáticamente el resultado del reconocimiento. Además, puede arrastrar archivos de audio y vídeo al cliente para generar subtítulos SRT, adecuados para usuarios que necesitan transcribir rápidamente.CapsWriter-Offline es de código abierto y gratuito para Windows, MacOS y Linux, y es uno de los favoritos entre aquellos que necesitan una entrada y producción de subtítulos eficiente.

Lista de funciones

entrada de voz a textoTecla de acceso rápido: pulsa la tecla de acceso rápido para grabar y suéltala para convertir automáticamente la voz en texto, ya que admite contenidos mixtos en chino e inglés.
Horas ilimitadas de transcripción: Transcripción precisa de contenidos de voz muy largos mediante técnicas de reconocimiento de segmentación y desduplicación.
Transcripción de audio y vídeo con subtítulos: Permite arrastrar archivos de audio y vídeo al cliente para generar automáticamente subtítulos en formato SRT.
sustitución de palabrasPalabras calientes: las palabras calientes en chino, inglés y basadas en reglas pueden personalizarse para mejorar la precisión del reconocimiento de palabras específicas.
Función de diario: Guarda automáticamente los resultados de las grabaciones como archivos Markdown y organiza las grabaciones por fecha.
Diario de palabras clave: Reconoce el discurso que comienza con una palabra clave específica y lo guarda como un archivo Markdown temático independiente.
Conservación de grabaciones de alta calidad: Soporta grabación a 48000 samples rate, guarda en formato MP3 con FFmpeg.
Soporte multiplataformaEs compatible con sistemas Windows, MacOS y Linux, por lo que satisface las necesidades de múltiples escenarios.

Utilizar la ayuda

Proceso de instalación

CapsWriter-Offline es un software de código abierto que los usuarios deben descargar de GitHub e instalar manualmente. A continuación se detallan los pasos:

1. Descargar software

Visite la página de GitHub.
Seleccione la versión adecuada para su sistema en la sección "Versiones":
- Windows 10 y sistemas superiores de 64 bits: Descargar CapsWriter-Offline-Windows-64bit.zip(tanto del lado del servidor como del lado del cliente) y models.zip(fichero modelo).
- Sistemas Windows 7 y superiores de 32 bits: Descargar CapsWriter-Offline-Windows-32bit-Client.zip(Sólo cliente, necesita conectarse a otros servidores de la LAN).
- MacOS/LinuxPara ello, debe compilar el código fuente usted mismo o consultar la versión empaquetada proporcionada por la comunidad.
Descomprima el archivo una vez finalizada la descarga y coloque el archivo models.zip Descomprímelo y colócalo en el directorio de software bajo models Carpeta.

2. Preparación medioambiental

Usuario de Windows::
- Asegúrese de que su sistema es Windows 10 o superior (necesario en el lado del servidor), con al menos 4 GB de RAM (sistemas de 64 bits).
- Si quieres grabar en formato MP3, tienes que instalar FFmpeg y configurar variables de entorno.
Usuarios de MacOS::
- montaje protobuf(corriendo) brew install protobuf).
- El cliente debe comenzar con el sudo permiso para ejecutar, el atajo por defecto es Mayús derecha.
Usuarios de Linux::
- montaje xclip(corriendo) sudo apt-get install xclip) para soportar la funcionalidad del portapapeles.

3. Ejecutar el software

en el servidorDescomprimir y hacer doble clic start_server.exe(Windows) o ejecute core_server.py(requiere Python 3.8-3.10 y dependencias). El modelo se carga tras el arranque (ocupa unos 2 GB de memoria y 50 segundos).
cliente (informática): Doble clic start_client.exe(Windows) o ejecute core_client.py(Requiere MacOS/Linux) sudo). Escucha el micrófono y los accesos directos predeterminados cuando se inicia.

Funciones principales

entrada de voz a texto

Iniciar el clienteDespués de ejecutar el cliente, el software escucha la tecla CapsLock por defecto (Mayús derecha para MacOS).
operación de grabación::
- Mantenga pulsada la tecla CapsLock para iniciar la grabación (se ignoran las grabaciones de menos de 0,3 segundos).
- Tras soltar la tecla, el programa convierte automáticamente la voz en texto y lo introduce en la posición actual del cursor.
Ajuste de la configuración::
- existe config.py Modificar las teclas de acceso directo en el archivo (shortcut), si pegar la salida (paste) y otros parámetros.
- Para restaurar el estado CapsLock, configure la opción restore_key establecido como True.

Transcripción de audio y vídeo con subtítulos

Preparar el documentoAsegúrese de que el cliente se ejecuta y el servidor funciona correctamente.
Arrastrar y soltar archivosArrastre los archivos de audio y vídeo (por ejemplo, MP4, WAV) a la carpeta start_client.exe Arriba.
Generar subtítulosEl software reconoce automáticamente el contenido de audio y genera un archivo SRT, que se guarda en el mismo directorio.
advertencia: Si el archivo es grande, se recomienda comprobar previamente el espacio de la memoria y del disco duro, el tiempo de reconocimiento está relacionado con la longitud del archivo.

sustitución de palabras

Editar archivo hotwordEn el directorio de software, busque el archivo hot-zh.txt(en chino),hot-en.txt(Inglés),hot-rule.txt(normas personalizadas).
Añadir palabra clave::
- Una palabra picante china por línea (por ejemplo, "inteligencia artificial"), basada en la sustitución pinyin.
- Palabras clave en inglés, una por línea (por ejemplo, "AI"), basadas en sustituciones ortográficas.
- Las reglas personalizadas están separadas por un signo igual (por ejemplo, "miliamperios hora = mAh").
Modo de entrada en vigor: No es necesario reiniciar el sistema, y el cliente carga dinámicamente palabras clave para mejorar el reconocimiento terminológico.

Función de diario

Activar la agenda: Activado por defecto, cada resultado de grabación se guardará en el 年份/月份/日期.md Documentación.
Conservación de grabaciones: Los archivos de audio se depositan automáticamente 年份/月份/assets soporta los formatos WAV o MP3.
Diario de palabras clave::
- compilador keywords.txtAñada una palabra clave (por ejemplo, "reunión") a cada línea.
- Cuando la voz empieza por una palabra clave, el resultado se guarda por separado como un 年份/月份/关键词-日期.md.
Liquidación de despidos: Ejecute el script Python incluido para eliminar los archivos de audio no referenciados por Markdown.

Demostración del flujo de operaciones

Escenario 1: Introducción rápida de notas
Abrir el cliente -> mantener pulsada la tecla CapsLock -> decir "reunión esta tarde para hablar del progreso del proyecto" -> soltar la tecla -> el texto se introduce automáticamente en el documento -> guardar como archivo de agenda.
Escenario 2: De vídeo a subtítulos
Prepare el archivo MP4 -> Arrástrelo al cliente -> Espere a que se procese (el progreso se muestra en el terminal) -> Compruebe el archivo SRT generado -> Importe al software de edición de vídeo para su uso.

advertencia

Si el servidor no se inicia, el cliente mostrará un error de conexión, es necesario asegurarse de que el servidor se está ejecutando en el 127.0.0.1:6016(dirección por defecto).
Los usuarios de MacOS tendrán que permitir privilegios de micrófono, y podrán acceder al micrófono desde el terminal como un sudo Ejecute el cliente.
Demasiadas palabras calientes pueden aumentar la latencia en 3ms/ 10.000 entradas, por lo que se recomienda racionalizar las palabras más utilizadas.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Curso gratuito sobre ingeniería de consejos ChatGPT para desarrolladores por Ernest Ng

Últimos recursos sobre IA Información sobre el curso

hace 7 meses

043.6K

Follow: un lector RSS de nueva generación con útiles funciones de resumen de inteligencia artificial y compartición de suscripciones.

Últimos recursos sobre IA # AI Servicios abiertos

hace 1 año

048.8K

InsCode: plataforma de programación en línea lanzada por CSDN, entorno de desarrollo en nube IDE en línea (no recomendado)

Últimos recursos sobre IA # AI IDE

hace 1 año

071.3K

5ire: cliente de sobremesa multiplataforma para grandes modelos con soporte para bases de conocimiento vectoriales locales

Últimos recursos sobre IA # AI Aplicación de chat localizada

hace 1 año

058.5K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

CapsWriter-Offline: Herramienta de entrada de voz y transcripción de subtítulos para PC

Introducción general

Lista de funciones