CapsWriter-Offline: инструмент для ввода речи и транскрипции субтитров для ПК
Общее введение
CapsWriter-Offline - это инструмент голосового ввода и транскрипции субтитров для ПК, размещенный на GitHub и созданный разработчиком HaujetZhao. Она работает полностью автономно и не требует подключения к Интернету для транскрипции речи в текст и аудио/видеофайлов в субтитры, поддерживает неограниченное время записи, смешанный китайский и английский ввод, а также высокую точность распознавания. Программа проста и эффективна в использовании: нажмите клавишу клавиатуры (по умолчанию CapsLock) для записи и отпустите ее, чтобы автоматически ввести результат распознавания. Кроме того, программа может перетаскивать аудио- и видеофайлы в клиент для создания субтитров SRT, что подходит для пользователей, которым нужно быстро расшифровать текст. CapsWriter-Offline является бесплатной программой с открытым исходным кодом для Windows, MacOS и Linux и является фаворитом среди тех, кому нужен эффективный ввод и создание субтитров.


Список функций
- ввод речи в текст: Нажмите клавишу быстрого доступа для записи и отпустите ее, чтобы автоматически преобразовать голос в текст, поддерживая смешанный китайский и английский контент.
- Неограниченное количество часов транскрипции: Точная транскрипция очень длинной речи с помощью методов распознавания сегментации и дедупликации.
- Расшифровка аудио и видео с субтитрами: Поддерживает перетаскивание аудио- и видеофайлов в клиент для автоматической генерации субтитров в формате SRT.
- горячая замена словДля повышения точности распознавания конкретных слов можно настроить китайский, английский языки и "горячие" слова на основе правил.
- Функция дневника: Автоматическое сохранение результатов записи в виде файлов Markdown и упорядочивание записей по дате.
- Дневник ключевых слов: Распознавание речи, начинающейся с определенного ключевого слова, и сохранение ее в виде отдельного тематического файла Markdown.
- Сохранение высококачественных записей: Поддерживает запись с частотой 48000 выборок и сохранение в формате MP3 с помощью FFmpeg.
- Поддержка кросс-платформыОн совместим с системами Windows, MacOS и Linux, удовлетворяя потребности различных сценариев.
Использование помощи
Процесс установки
CapsWriter-Offline - это программное обеспечение с открытым исходным кодом, которое пользователям необходимо загрузить с GitHub и установить вручную. Ниже приведены подробные шаги:
1. Загрузка программного обеспечения
- Посетите страницу GitHub.
- Выберите подходящую версию для вашей системы в разделе "Релизы":
- Windows 10 и выше 64-битные системы: Скачать
CapsWriter-Offline-Windows-64bit.zip
(как на стороне сервера, так и на стороне клиента) иmodels.zip
(файл модели). - Windows 7 и выше 32-битные системы: Скачать
CapsWriter-Offline-Windows-32bit-Client.zip
(Только клиент, необходимо подключиться к другим серверам в локальной сети). - MacOS/Linux: Вам необходимо самостоятельно скомпилировать исходный код или обратиться к упакованной версии, предоставленной сообществом.
- Windows 10 и выше 64-битные системы: Скачать
- После завершения загрузки распакуйте файл и поместите его в папку
models.zip
Распакуйте его и поместите в каталог программ под именемmodels
Папка.
2. Подготовка к защите окружающей среды
- Пользователь Windows::
- Убедитесь, что ваша система работает под управлением Windows 10 или выше (требуется на стороне сервера) и имеет не менее 4 ГБ оперативной памяти (64-битные системы).
- Если вы хотите записывать в формате MP3, вам нужно установить FFmpeg и настроить переменные окружения.
- Пользователи MacOS::
- монтаж
protobuf
(бег)brew install protobuf
). - Клиенту необходимо начать с
sudo
разрешение на запуск, сочетание клавиш по умолчанию - правый Shift.
- монтаж
- Пользователи Linux::
- монтаж
xclip
(бег)sudo apt-get install xclip
) для поддержки функциональности буфера обмена.
- монтаж
3. Запуск программного обеспечения
- серверная часть: Распакуйте и дважды щелкните
start_server.exe
(Windows) или запуститеcore_server.py
(требует Python 3.8-3.10 и зависимостей). Модель загружается после запуска (занимает около 2 ГБ памяти и 50 секунд). - клиент (вычислительная техника): Двойной щелчок
start_client.exe
(Windows) или запуститеcore_client.py
(Требуется MacOS/Linux)sudo
). При запуске он прослушивает микрофон и ярлыки по умолчанию.
Основные функции
ввод речи в текст
- Запуск клиента: После запуска клиента программа по умолчанию прослушивает клавишу CapsLock (правый Shift для MacOS).
- операция записи::
- Нажмите и удерживайте клавишу CapsLock, чтобы начать запись (записи длительностью менее 0,3 секунды игнорируются).
- После отпускания клавиши программа автоматически преобразует речь в текст и вводит его в текущую позицию курсора.
- Регулировка настроек::
- существовать
config.py
Измените клавиши быстрого доступа в файле (shortcut
), нужно ли вставлять вывод (paste
) и другие параметры. - Чтобы восстановить состояние CapsLock, установите значение
restore_key
установить какTrue
.
- существовать
Расшифровка аудио и видео с субтитрами
- Подготовьте документ: Убедитесь, что клиент запущен и сервер работает правильно.
- Перетаскивание файлов: Перетащите аудио/видео файл (например, MP4, WAV) на
start_client.exe
Вверх. - Создать субтитры: Программа автоматически распознает аудиоконтент и создает SRT-файл, который сохраняется в том же каталоге.
- предостережение: Если файл большой, рекомендуется предварительно проверить объем памяти и жесткого диска, время распознавания зависит от длины файла.
горячая замена слов
- Редактирование файла горячих слов: В каталоге программного обеспечения найдите файл
hot-zh.txt
(на китайском языке),hot-en.txt
(на английском языке),hot-rule.txt
(пользовательские правила). - Добавить горячее слово::
- Одно китайское горячее слово на строку (например, "искусственный интеллект"), основанное на подстановке пиньинь.
- Английские горячие слова, по одному на строку (например, "AI"), основанные на орфографических заменах.
- Пользовательские правила разделяются знаком равенства (например, "миллиампер-час = mAh").
- Способ вступления в силу: Перезагрузка не требуется, а клиент динамически загружает "горячие" слова для улучшения распознавания терминов.
Функция дневника
- Включение дневника: Включено по умолчанию, каждый результат записи будет сохранен в
年份/月份/日期.md
Документация. - Сохранение записей: Аудиофайлы автоматически помещаются на хранение
年份/月份/assets
папку, поддерживает формат WAV или MP3. - Дневник ключевых слов::
- компилятор
keywords.txt
Добавьте ключевое слово (например, "встреча") в каждую строку. - Если голос начинается с ключевого слова, результат сохраняется отдельно в виде
年份/月份/关键词-日期.md
.
- компилятор
- Оформление увольнения по сокращению штатов: Запустите прилагаемый Python-скрипт для удаления аудиофайлов, на которые нет ссылок в Markdown.
Демонстрация потока операций
- Сценарий 1: Быстрый ввод заметок
Открываем клиент -> нажимаем и удерживаем CapsLock -> говорим "встреча сегодня днем для обсуждения хода проекта" -> отпускаем клавишу -> текст автоматически вводится в документ -> сохраняем как файл дневника. - Сценарий 2: Видео в субтитры
Подготовьте файл MP4 -> Перетащите его на клиент -> Дождитесь обработки (прогресс отображается в терминале) -> Проверьте созданный SRT-файл -> Импортируйте в программу для редактирования видео для использования.
предостережение
- Если сервер не запущен, клиент выдаст ошибку соединения, вам нужно убедиться, что сервер запущен на
127.0.0.1:6016
(адрес по умолчанию). - Пользователям MacOS нужно будет разрешить привилегии микрофона, и они смогут получить доступ к микрофону из терминала в качестве
sudo
Запустите клиент. - Слишком большое количество "горячих" слов может увеличить задержку 3 мс на 10 000 записей, поэтому рекомендуется оптимизировать общие слова.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...