CapsWriter-Offline: Herramienta de entrada de voz y transcripción de subtítulos para PC

Introducción general

CapsWriter-Offline es una herramienta de entrada de voz y transcripción de subtítulos para PC, alojada en GitHub y creada por el desarrollador HaujetZhao. Se ejecuta completamente fuera de línea y no requiere conexión a Internet para la transcripción de voz a texto y de archivos de audio/vídeo a subtítulos, y admite tiempo de grabación ilimitado, entrada mixta de chino e inglés y reconocimiento de alta precisión. El software es fácil y eficaz de utilizar: pulsa el atajo de teclado (CapsLock por defecto) para grabar y suéltalo para introducir automáticamente el resultado del reconocimiento. Además, puede arrastrar archivos de audio y vídeo al cliente para generar subtítulos SRT, adecuados para usuarios que necesitan transcribir rápidamente.CapsWriter-Offline es de código abierto y gratuito para Windows, MacOS y Linux, y es uno de los favoritos entre aquellos que necesitan una entrada y producción de subtítulos eficiente.

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

Lista de funciones

  • entrada de voz a textoTecla de acceso rápido: pulsa la tecla de acceso rápido para grabar y suéltala para convertir automáticamente la voz en texto, ya que admite contenidos mixtos en chino e inglés.
  • Horas ilimitadas de transcripción: Transcripción precisa de contenidos de voz muy largos mediante técnicas de reconocimiento de segmentación y desduplicación.
  • Transcripción de audio y vídeo con subtítulos: Permite arrastrar archivos de audio y vídeo al cliente para generar automáticamente subtítulos en formato SRT.
  • sustitución de palabrasPalabras calientes: las palabras calientes en chino, inglés y basadas en reglas pueden personalizarse para mejorar la precisión del reconocimiento de palabras específicas.
  • Función de diario: Guarda automáticamente los resultados de las grabaciones como archivos Markdown y organiza las grabaciones por fecha.
  • Diario de palabras clave: Reconoce el discurso que comienza con una palabra clave específica y lo guarda como un archivo Markdown temático independiente.
  • Conservación de grabaciones de alta calidad: Soporta grabación a 48000 samples rate, guarda en formato MP3 con FFmpeg.
  • Soporte multiplataformaEs compatible con sistemas Windows, MacOS y Linux, por lo que satisface las necesidades de múltiples escenarios.

 

Utilizar la ayuda

Proceso de instalación

CapsWriter-Offline es un software de código abierto que los usuarios deben descargar de GitHub e instalar manualmente. A continuación se detallan los pasos:

1. Descargar software

  • Visite la página de GitHub.
  • Seleccione la versión adecuada para su sistema en la sección "Versiones":
    • Windows 10 y sistemas superiores de 64 bits: Descargar CapsWriter-Offline-Windows-64bit.zip(tanto del lado del servidor como del lado del cliente) y models.zip(fichero modelo).
    • Sistemas Windows 7 y superiores de 32 bits: Descargar CapsWriter-Offline-Windows-32bit-Client.zip(Sólo cliente, necesita conectarse a otros servidores de la LAN).
    • MacOS/LinuxPara ello, debe compilar el código fuente usted mismo o consultar la versión empaquetada proporcionada por la comunidad.
  • Descomprima el archivo una vez finalizada la descarga y coloque el archivo models.zip Descomprímelo y colócalo en el directorio de software bajo models Carpeta.

2. Preparación medioambiental

  • Usuario de Windows::
    • Asegúrese de que su sistema es Windows 10 o superior (necesario en el lado del servidor), con al menos 4 GB de RAM (sistemas de 64 bits).
    • Si quieres grabar en formato MP3, tienes que instalar FFmpeg y configurar variables de entorno.
  • Usuarios de MacOS::
    • montaje protobuf(corriendo) brew install protobuf).
    • El cliente debe comenzar con el sudo permiso para ejecutar, el atajo por defecto es Mayús derecha.
  • Usuarios de Linux::
    • montaje xclip(corriendo) sudo apt-get install xclip) para soportar la funcionalidad del portapapeles.

3. Ejecutar el software

  • en el servidorDescomprimir y hacer doble clic start_server.exe(Windows) o ejecute core_server.py(requiere Python 3.8-3.10 y dependencias). El modelo se carga tras el arranque (ocupa unos 2 GB de memoria y 50 segundos).
  • cliente (informática): Doble clic start_client.exe(Windows) o ejecute core_client.py(Requiere MacOS/Linux) sudo). Escucha el micrófono y los accesos directos predeterminados cuando se inicia.

Funciones principales

entrada de voz a texto

  1. Iniciar el clienteDespués de ejecutar el cliente, el software escucha la tecla CapsLock por defecto (Mayús derecha para MacOS).
  2. operación de grabación::
    • Mantenga pulsada la tecla CapsLock para iniciar la grabación (se ignoran las grabaciones de menos de 0,3 segundos).
    • Tras soltar la tecla, el programa convierte automáticamente la voz en texto y lo introduce en la posición actual del cursor.
  3. Ajuste de la configuración::
    • existe config.py Modificar las teclas de acceso directo en el archivo (shortcut), si pegar la salida (paste) y otros parámetros.
    • Para restaurar el estado CapsLock, configure la opción restore_key establecido como True.

Transcripción de audio y vídeo con subtítulos

  1. Preparar el documentoAsegúrese de que el cliente se ejecuta y el servidor funciona correctamente.
  2. Arrastrar y soltar archivosArrastre los archivos de audio y vídeo (por ejemplo, MP4, WAV) a la carpeta start_client.exe Arriba.
  3. Generar subtítulosEl software reconoce automáticamente el contenido de audio y genera un archivo SRT, que se guarda en el mismo directorio.
  4. advertencia: Si el archivo es grande, se recomienda comprobar previamente el espacio de la memoria y del disco duro, el tiempo de reconocimiento está relacionado con la longitud del archivo.

sustitución de palabras

  1. Editar archivo hotwordEn el directorio de software, busque el archivo hot-zh.txt(en chino),hot-en.txt(Inglés),hot-rule.txt(normas personalizadas).
  2. Añadir palabra clave::
    • Una palabra picante china por línea (por ejemplo, "inteligencia artificial"), basada en la sustitución pinyin.
    • Palabras clave en inglés, una por línea (por ejemplo, "AI"), basadas en sustituciones ortográficas.
    • Las reglas personalizadas están separadas por un signo igual (por ejemplo, "miliamperios hora = mAh").
  3. Modo de entrada en vigor: No es necesario reiniciar el sistema, y el cliente carga dinámicamente palabras clave para mejorar el reconocimiento terminológico.

Función de diario

  1. Activar la agenda: Activado por defecto, cada resultado de grabación se guardará en el 年份/月份/日期.md Documentación.
  2. Conservación de grabaciones: Los archivos de audio se depositan automáticamente 年份/月份/assets soporta los formatos WAV o MP3.
  3. Diario de palabras clave::
    • compilador keywords.txtAñada una palabra clave (por ejemplo, "reunión") a cada línea.
    • Cuando la voz empieza por una palabra clave, el resultado se guarda por separado como un 年份/月份/关键词-日期.md.
  4. Liquidación de despidos: Ejecute el script Python incluido para eliminar los archivos de audio no referenciados por Markdown.

Demostración del flujo de operaciones

  • Escenario 1: Introducción rápida de notas
    Abrir el cliente -> mantener pulsada la tecla CapsLock -> decir "reunión esta tarde para hablar del progreso del proyecto" -> soltar la tecla -> el texto se introduce automáticamente en el documento -> guardar como archivo de agenda.
  • Escenario 2: De vídeo a subtítulos
    Prepare el archivo MP4 -> Arrástrelo al cliente -> Espere a que se procese (el progreso se muestra en el terminal) -> Compruebe el archivo SRT generado -> Importe al software de edición de vídeo para su uso.

advertencia

  • Si el servidor no se inicia, el cliente mostrará un error de conexión, es necesario asegurarse de que el servidor se está ejecutando en el 127.0.0.1:6016(dirección por defecto).
  • Los usuarios de MacOS tendrán que permitir privilegios de micrófono, y podrán acceder al micrófono desde el terminal como un sudo Ejecute el cliente.
  • Demasiadas palabras calientes pueden aumentar la latencia en 3ms/ 10.000 entradas, por lo que se recomienda racionalizar las palabras más utilizadas.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...