CapsWriter-Offline: Herramienta de entrada de voz y transcripción de subtítulos para PC
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 1.6K 00
Introducción general
CapsWriter-Offline es una herramienta de entrada de voz y transcripción de subtítulos para PC, alojada en GitHub y creada por el desarrollador HaujetZhao. Se ejecuta completamente fuera de línea y no requiere conexión a Internet para la transcripción de voz a texto y de archivos de audio/vídeo a subtítulos, y admite tiempo de grabación ilimitado, entrada mixta de chino e inglés y reconocimiento de alta precisión. El software es fácil y eficaz de utilizar: pulsa el atajo de teclado (CapsLock por defecto) para grabar y suéltalo para introducir automáticamente el resultado del reconocimiento. Además, puede arrastrar archivos de audio y vídeo al cliente para generar subtítulos SRT, adecuados para usuarios que necesitan transcribir rápidamente.CapsWriter-Offline es de código abierto y gratuito para Windows, MacOS y Linux, y es uno de los favoritos entre aquellos que necesitan una entrada y producción de subtítulos eficiente.


Lista de funciones
- entrada de voz a textoTecla de acceso rápido: pulsa la tecla de acceso rápido para grabar y suéltala para convertir automáticamente la voz en texto, ya que admite contenidos mixtos en chino e inglés.
- Horas ilimitadas de transcripción: Transcripción precisa de contenidos de voz muy largos mediante técnicas de reconocimiento de segmentación y desduplicación.
- Transcripción de audio y vídeo con subtítulos: Permite arrastrar archivos de audio y vídeo al cliente para generar automáticamente subtítulos en formato SRT.
- sustitución de palabrasPalabras calientes: las palabras calientes en chino, inglés y basadas en reglas pueden personalizarse para mejorar la precisión del reconocimiento de palabras específicas.
- Función de diario: Guarda automáticamente los resultados de las grabaciones como archivos Markdown y organiza las grabaciones por fecha.
- Diario de palabras clave: Reconoce el discurso que comienza con una palabra clave específica y lo guarda como un archivo Markdown temático independiente.
- Conservación de grabaciones de alta calidad: Soporta grabación a 48000 samples rate, guarda en formato MP3 con FFmpeg.
- Soporte multiplataformaEs compatible con sistemas Windows, MacOS y Linux, por lo que satisface las necesidades de múltiples escenarios.
Utilizar la ayuda
Proceso de instalación
CapsWriter-Offline es un software de código abierto que los usuarios deben descargar de GitHub e instalar manualmente. A continuación se detallan los pasos:
1. Descargar software
- Visite la página de GitHub.
- Seleccione la versión adecuada para su sistema en la sección "Versiones":
- Windows 10 y sistemas superiores de 64 bits: Descargar
CapsWriter-Offline-Windows-64bit.zip
(tanto del lado del servidor como del lado del cliente) ymodels.zip
(fichero modelo). - Sistemas Windows 7 y superiores de 32 bits: Descargar
CapsWriter-Offline-Windows-32bit-Client.zip
(Sólo cliente, necesita conectarse a otros servidores de la LAN). - MacOS/LinuxPara ello, debe compilar el código fuente usted mismo o consultar la versión empaquetada proporcionada por la comunidad.
- Windows 10 y sistemas superiores de 64 bits: Descargar
- Descomprima el archivo una vez finalizada la descarga y coloque el archivo
models.zip
Descomprímelo y colócalo en el directorio de software bajomodels
Carpeta.
2. Preparación medioambiental
- Usuario de Windows::
- Asegúrese de que su sistema es Windows 10 o superior (necesario en el lado del servidor), con al menos 4 GB de RAM (sistemas de 64 bits).
- Si quieres grabar en formato MP3, tienes que instalar FFmpeg y configurar variables de entorno.
- Usuarios de MacOS::
- montaje
protobuf
(corriendo)brew install protobuf
). - El cliente debe comenzar con el
sudo
permiso para ejecutar, el atajo por defecto es Mayús derecha.
- montaje
- Usuarios de Linux::
- montaje
xclip
(corriendo)sudo apt-get install xclip
) para soportar la funcionalidad del portapapeles.
- montaje
3. Ejecutar el software
- en el servidorDescomprimir y hacer doble clic
start_server.exe
(Windows) o ejecutecore_server.py
(requiere Python 3.8-3.10 y dependencias). El modelo se carga tras el arranque (ocupa unos 2 GB de memoria y 50 segundos). - cliente (informática): Doble clic
start_client.exe
(Windows) o ejecutecore_client.py
(Requiere MacOS/Linux)sudo
). Escucha el micrófono y los accesos directos predeterminados cuando se inicia.
Funciones principales
entrada de voz a texto
- Iniciar el clienteDespués de ejecutar el cliente, el software escucha la tecla CapsLock por defecto (Mayús derecha para MacOS).
- operación de grabación::
- Mantenga pulsada la tecla CapsLock para iniciar la grabación (se ignoran las grabaciones de menos de 0,3 segundos).
- Tras soltar la tecla, el programa convierte automáticamente la voz en texto y lo introduce en la posición actual del cursor.
- Ajuste de la configuración::
- existe
config.py
Modificar las teclas de acceso directo en el archivo (shortcut
), si pegar la salida (paste
) y otros parámetros. - Para restaurar el estado CapsLock, configure la opción
restore_key
establecido comoTrue
.
- existe
Transcripción de audio y vídeo con subtítulos
- Preparar el documentoAsegúrese de que el cliente se ejecuta y el servidor funciona correctamente.
- Arrastrar y soltar archivosArrastre los archivos de audio y vídeo (por ejemplo, MP4, WAV) a la carpeta
start_client.exe
Arriba. - Generar subtítulosEl software reconoce automáticamente el contenido de audio y genera un archivo SRT, que se guarda en el mismo directorio.
- advertencia: Si el archivo es grande, se recomienda comprobar previamente el espacio de la memoria y del disco duro, el tiempo de reconocimiento está relacionado con la longitud del archivo.
sustitución de palabras
- Editar archivo hotwordEn el directorio de software, busque el archivo
hot-zh.txt
(en chino),hot-en.txt
(Inglés),hot-rule.txt
(normas personalizadas). - Añadir palabra clave::
- Una palabra picante china por línea (por ejemplo, "inteligencia artificial"), basada en la sustitución pinyin.
- Palabras clave en inglés, una por línea (por ejemplo, "AI"), basadas en sustituciones ortográficas.
- Las reglas personalizadas están separadas por un signo igual (por ejemplo, "miliamperios hora = mAh").
- Modo de entrada en vigor: No es necesario reiniciar el sistema, y el cliente carga dinámicamente palabras clave para mejorar el reconocimiento terminológico.
Función de diario
- Activar la agenda: Activado por defecto, cada resultado de grabación se guardará en el
年份/月份/日期.md
Documentación. - Conservación de grabaciones: Los archivos de audio se depositan automáticamente
年份/月份/assets
soporta los formatos WAV o MP3. - Diario de palabras clave::
- compilador
keywords.txt
Añada una palabra clave (por ejemplo, "reunión") a cada línea. - Cuando la voz empieza por una palabra clave, el resultado se guarda por separado como un
年份/月份/关键词-日期.md
.
- compilador
- Liquidación de despidos: Ejecute el script Python incluido para eliminar los archivos de audio no referenciados por Markdown.
Demostración del flujo de operaciones
- Escenario 1: Introducción rápida de notas
Abrir el cliente -> mantener pulsada la tecla CapsLock -> decir "reunión esta tarde para hablar del progreso del proyecto" -> soltar la tecla -> el texto se introduce automáticamente en el documento -> guardar como archivo de agenda. - Escenario 2: De vídeo a subtítulos
Prepare el archivo MP4 -> Arrástrelo al cliente -> Espere a que se procese (el progreso se muestra en el terminal) -> Compruebe el archivo SRT generado -> Importe al software de edición de vídeo para su uso.
advertencia
- Si el servidor no se inicia, el cliente mostrará un error de conexión, es necesario asegurarse de que el servidor se está ejecutando en el
127.0.0.1:6016
(dirección por defecto). - Los usuarios de MacOS tendrán que permitir privilegios de micrófono, y podrán acceder al micrófono desde el terminal como un
sudo
Ejecute el cliente. - Demasiadas palabras calientes pueden aumentar la latencia en 3ms/ 10.000 entradas, por lo que se recomienda racionalizar las palabras más utilizadas.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...