CapsWriter-Offline: инструмент для ввода речи и транскрипции субтитров для ПК

Общее введение

CapsWriter-Offline - это инструмент голосового ввода и транскрипции субтитров для ПК, размещенный на GitHub и созданный разработчиком HaujetZhao. Она работает полностью автономно и не требует подключения к Интернету для транскрипции речи в текст и аудио/видеофайлов в субтитры, поддерживает неограниченное время записи, смешанный китайский и английский ввод, а также высокую точность распознавания. Программа проста и эффективна в использовании: нажмите клавишу клавиатуры (по умолчанию CapsLock) для записи и отпустите ее, чтобы автоматически ввести результат распознавания. Кроме того, программа может перетаскивать аудио- и видеофайлы в клиент для создания субтитров SRT, что подходит для пользователей, которым нужно быстро расшифровать текст. CapsWriter-Offline является бесплатной программой с открытым исходным кодом для Windows, MacOS и Linux и является фаворитом среди тех, кому нужен эффективный ввод и создание субтитров.

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

Список функций

  • ввод речи в текст: Нажмите клавишу быстрого доступа для записи и отпустите ее, чтобы автоматически преобразовать голос в текст, поддерживая смешанный китайский и английский контент.
  • Неограниченное количество часов транскрипции: Точная транскрипция очень длинной речи с помощью методов распознавания сегментации и дедупликации.
  • Расшифровка аудио и видео с субтитрами: Поддерживает перетаскивание аудио- и видеофайлов в клиент для автоматической генерации субтитров в формате SRT.
  • горячая замена словДля повышения точности распознавания конкретных слов можно настроить китайский, английский языки и "горячие" слова на основе правил.
  • Функция дневника: Автоматическое сохранение результатов записи в виде файлов Markdown и упорядочивание записей по дате.
  • Дневник ключевых слов: Распознавание речи, начинающейся с определенного ключевого слова, и сохранение ее в виде отдельного тематического файла Markdown.
  • Сохранение высококачественных записей: Поддерживает запись с частотой 48000 выборок и сохранение в формате MP3 с помощью FFmpeg.
  • Поддержка кросс-платформыОн совместим с системами Windows, MacOS и Linux, удовлетворяя потребности различных сценариев.

 

Использование помощи

Процесс установки

CapsWriter-Offline - это программное обеспечение с открытым исходным кодом, которое пользователям необходимо загрузить с GitHub и установить вручную. Ниже приведены подробные шаги:

1. Загрузка программного обеспечения

  • Посетите страницу GitHub.
  • Выберите подходящую версию для вашей системы в разделе "Релизы":
    • Windows 10 и выше 64-битные системы: Скачать CapsWriter-Offline-Windows-64bit.zip(как на стороне сервера, так и на стороне клиента) и models.zip(файл модели).
    • Windows 7 и выше 32-битные системы: Скачать CapsWriter-Offline-Windows-32bit-Client.zip(Только клиент, необходимо подключиться к другим серверам в локальной сети).
    • MacOS/Linux: Вам необходимо самостоятельно скомпилировать исходный код или обратиться к упакованной версии, предоставленной сообществом.
  • После завершения загрузки распакуйте файл и поместите его в папку models.zip Распакуйте его и поместите в каталог программ под именем models Папка.

2. Подготовка к защите окружающей среды

  • Пользователь Windows::
    • Убедитесь, что ваша система работает под управлением Windows 10 или выше (требуется на стороне сервера) и имеет не менее 4 ГБ оперативной памяти (64-битные системы).
    • Если вы хотите записывать в формате MP3, вам нужно установить FFmpeg и настроить переменные окружения.
  • Пользователи MacOS::
    • монтаж protobuf(бег) brew install protobuf).
    • Клиенту необходимо начать с sudo разрешение на запуск, сочетание клавиш по умолчанию - правый Shift.
  • Пользователи Linux::
    • монтаж xclip(бег) sudo apt-get install xclip) для поддержки функциональности буфера обмена.

3. Запуск программного обеспечения

  • серверная часть: Распакуйте и дважды щелкните start_server.exe(Windows) или запустите core_server.py(требует Python 3.8-3.10 и зависимостей). Модель загружается после запуска (занимает около 2 ГБ памяти и 50 секунд).
  • клиент (вычислительная техника): Двойной щелчок start_client.exe(Windows) или запустите core_client.py(Требуется MacOS/Linux) sudo). При запуске он прослушивает микрофон и ярлыки по умолчанию.

Основные функции

ввод речи в текст

  1. Запуск клиента: После запуска клиента программа по умолчанию прослушивает клавишу CapsLock (правый Shift для MacOS).
  2. операция записи::
    • Нажмите и удерживайте клавишу CapsLock, чтобы начать запись (записи длительностью менее 0,3 секунды игнорируются).
    • После отпускания клавиши программа автоматически преобразует речь в текст и вводит его в текущую позицию курсора.
  3. Регулировка настроек::
    • существовать config.py Измените клавиши быстрого доступа в файле (shortcut), нужно ли вставлять вывод (paste) и другие параметры.
    • Чтобы восстановить состояние CapsLock, установите значение restore_key установить как True.

Расшифровка аудио и видео с субтитрами

  1. Подготовьте документ: Убедитесь, что клиент запущен и сервер работает правильно.
  2. Перетаскивание файлов: Перетащите аудио/видео файл (например, MP4, WAV) на start_client.exe Вверх.
  3. Создать субтитры: Программа автоматически распознает аудиоконтент и создает SRT-файл, который сохраняется в том же каталоге.
  4. предостережение: Если файл большой, рекомендуется предварительно проверить объем памяти и жесткого диска, время распознавания зависит от длины файла.

горячая замена слов

  1. Редактирование файла горячих слов: В каталоге программного обеспечения найдите файл hot-zh.txt(на китайском языке),hot-en.txt(на английском языке),hot-rule.txt(пользовательские правила).
  2. Добавить горячее слово::
    • Одно китайское горячее слово на строку (например, "искусственный интеллект"), основанное на подстановке пиньинь.
    • Английские горячие слова, по одному на строку (например, "AI"), основанные на орфографических заменах.
    • Пользовательские правила разделяются знаком равенства (например, "миллиампер-час = mAh").
  3. Способ вступления в силу: Перезагрузка не требуется, а клиент динамически загружает "горячие" слова для улучшения распознавания терминов.

Функция дневника

  1. Включение дневника: Включено по умолчанию, каждый результат записи будет сохранен в 年份/月份/日期.md Документация.
  2. Сохранение записей: Аудиофайлы автоматически помещаются на хранение 年份/月份/assets папку, поддерживает формат WAV или MP3.
  3. Дневник ключевых слов::
    • компилятор keywords.txtДобавьте ключевое слово (например, "встреча") в каждую строку.
    • Если голос начинается с ключевого слова, результат сохраняется отдельно в виде 年份/月份/关键词-日期.md.
  4. Оформление увольнения по сокращению штатов: Запустите прилагаемый Python-скрипт для удаления аудиофайлов, на которые нет ссылок в Markdown.

Демонстрация потока операций

  • Сценарий 1: Быстрый ввод заметок
    Открываем клиент -> нажимаем и удерживаем CapsLock -> говорим "встреча сегодня днем для обсуждения хода проекта" -> отпускаем клавишу -> текст автоматически вводится в документ -> сохраняем как файл дневника.
  • Сценарий 2: Видео в субтитры
    Подготовьте файл MP4 -> Перетащите его на клиент -> Дождитесь обработки (прогресс отображается в терминале) -> Проверьте созданный SRT-файл -> Импортируйте в программу для редактирования видео для использования.

предостережение

  • Если сервер не запущен, клиент выдаст ошибку соединения, вам нужно убедиться, что сервер запущен на 127.0.0.1:6016(адрес по умолчанию).
  • Пользователям MacOS нужно будет разрешить привилегии микрофона, и они смогут получить доступ к микрофону из терминала в качестве sudo Запустите клиент.
  • Слишком большое количество "горячих" слов может увеличить задержку 3 мс на 10 000 записей, поэтому рекомендуется оптимизировать общие слова.
© заявление об авторских правах

Похожие статьи

Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...