일반 소개
CapsWriter-Offline은 GitHub에서 호스팅되고 개발자 HaujetZhao가 만든 PC용 음성 입력 및 자막 전사 도구입니다. 완전히 오프라인으로 실행되며 음성-텍스트 및 오디오/비디오 파일-자막 트랜스크립션을 위해 인터넷 연결이 필요하지 않으며 무제한 녹음 시간, 중국어와 영어 혼합 입력, 고정밀 인식 기능을 지원합니다. 이 소프트웨어는 키보드 단축키(기본값은 CapsLock)를 눌러 녹음했다가 놓으면 인식 결과가 자동으로 입력되는 방식으로 쉽고 효율적으로 조작할 수 있습니다. 또한 오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 자막을 생성할 수 있어 빠른 필사가 필요한 사용자에게 적합하며, Windows, MacOS 및 Linux용 오픈 소스이며 무료로 제공되어 효율적인 입력 및 자막 제작이 필요한 사용자들에게 인기가 높습니다.


기능 목록
- 음성-텍스트 입력단축키를 눌러 녹음했다가 놓으면 음성을 텍스트 입력으로 자동 변환하여 중국어와 영어가 혼합된 콘텐츠를 지원합니다.
- 무제한 전사 시간세그먼트 인식 및 중복 제거 기술을 통해 매우 긴 음성 콘텐츠를 정확하게 전사합니다.
- 자막이 포함된 오디오 및 비디오 트랜스크립션오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 형식의 자막을 자동으로 생성하는 기능을 지원합니다.
- 인기 단어 대체중국어, 영어 및 규칙 기반 인기 단어를 사용자 지정하여 특정 단어의 인식 정확도를 높일 수 있습니다.
- 일기 기능녹취 결과를 마크다운 파일로 자동 저장하고 날짜별로 녹취를 정리합니다.
- 키워드 다이어리특정 키워드로 시작하는 음성을 인식하여 별도의 주제별 마크다운 파일로 저장합니다.
- 고품질 녹화 보존48000 샘플로 녹음하고 FFmpeg로 MP3 형식으로 저장하는 것을 지원합니다.
- 크로스 플랫폼 지원Windows, MacOS 및 Linux 시스템과 호환되므로 다양한 시나리오의 요구 사항을 충족합니다.
도움말 사용
설치 프로세스
CapsWriter-Offline은 오픈 소스 소프트웨어로 사용자가 GitHub에서 다운로드하여 수동으로 설치해야 합니다. 자세한 단계는 다음과 같습니다:
1. 소프트웨어 다운로드
- GitHub 페이지를 방문하세요.
- '릴리스' 섹션에서 시스템에 적합한 버전을 선택합니다:
- Windows 10 이상 64비트 시스템: 다운로드
CapsWriter-Offline-Windows-64bit.zip
(서버 측 및 클라이언트 측 모두) 및models.zip
(모델 파일). - Windows 7 이상 32비트 시스템: 다운로드
CapsWriter-Offline-Windows-32bit-Client.zip
(클라이언트만 해당, LAN의 다른 서버에 연결해야 함). - MacOS/Linux소스 코드에서 직접 컴파일하거나 커뮤니티에서 제공하는 패키지 버전을 참조해야 합니다.
- Windows 10 이상 64비트 시스템: 다운로드
- 다운로드가 완료되면 파일의 압축을 풀고
models.zip
압축을 풀고 아래의 소프트웨어 디렉터리에 넣습니다.models
폴더.
2. 환경 준비
- Windows 사용자::
- 시스템이 Windows 10 이상(서버 측에서 필수)이고 4GB 이상의 RAM(64비트 시스템)이 있는지 확인합니다.
- MP3 형식으로 녹음하려면 FFmpeg를 설치하고 환경 변수를 구성해야 합니다.
- MacOS 사용자::
- 마운팅
protobuf
(실행 중)brew install protobuf
). - 클라이언트는 다음과 같이 시작해야 합니다.
sudo
실행 권한이 있는 경우 기본 바로 가기는 오른쪽 Shift 키입니다.
- 마운팅
- Linux 사용자::
- 마운팅
xclip
(실행 중)sudo apt-get install xclip
)를 사용하여 클립보드 기능을 지원합니다.
- 마운팅
3. 소프트웨어 실행
- 서버 측압축을 풀고 더블 클릭
start_server.exe
(Windows)를 클릭하거나core_server.py
(Python 3.8-3.10 및 종속성 필요). 모델은 시작 후 로드됩니다(약 2GB의 메모리와 50초가 소요됨). - 클라이언트(컴퓨팅)더블 클릭
start_client.exe
(Windows)를 클릭하거나core_client.py
(MacOS/Linux 필수)sudo
). 시작하면 기본 마이크와 바로 가기를 듣습니다.
주요 기능
음성-텍스트 입력
- 클라이언트 시작하기: 클라이언트를 실행하면 소프트웨어가 기본적으로 CapsLock 키를 수신합니다(MacOS의 경우 오른쪽 Shift 키).
- 녹음 작업::
- CapsLock 키를 길게 눌러 녹화를 시작합니다(0.3초 미만의 녹음은 무시됩니다).
- 키를 놓으면 소프트웨어가 음성을 텍스트로 자동 변환하여 현재 커서 위치에 입력합니다.
- 설정 조정::
- 존재
config.py
파일에서 바로 가기 키를 수정합니다(shortcut
), 출력물 붙여넣기 여부(paste
) 및 기타 매개변수. - CapsLock 상태를 복원하려면 다음과 같이 설정하세요.
restore_key
로 설정True
.
- 존재
자막이 포함된 오디오 및 비디오 트랜스크립션
- 문서 준비: 클라이언트가 실행 중이고 서버가 제대로 작동하는지 확인합니다.
- 파일 끌어 놓기오디오 및 비디오 파일(예: MP4, WAV)을 드래그하여
start_client.exe
위로. - 자막 생성소프트웨어가 자동으로 오디오 콘텐츠를 인식하고 동일한 디렉터리에 저장되는 SRT 파일을 생성합니다.
- 주의파일이 큰 경우 메모리와 하드 디스크 공간을 미리 확인하는 것이 좋으며, 인식 시간은 파일 길이와 관련이 있습니다.
인기 단어 대체
- 핫워드 파일 편집소프트웨어 디렉토리에서
hot-zh.txt
(중국어),hot-en.txt
(영어),hot-rule.txt
(사용자 지정 규칙). - 핫워드 추가::
- 병음 대체를 기준으로 한 줄당 중국어 인기 단어 하나(예: "인공 지능").
- 철자 대체를 기준으로 한 줄에 하나씩 영어 인기 단어(예: "AI")를 입력합니다.
- 사용자 지정 규칙은 등호로 구분합니다(예: "밀리암페어시 = mAh").
- 발효 모드재부팅이 필요하지 않으며, 클라이언트가 핫워드를 동적으로 로드하여 용어 인식을 개선합니다.
일기 기능
- 다이어리 활성화하기기본적으로 활성화되어 있으면 각 녹화 결과가 저장됩니다.
年份/月份/日期.md
문서화. - 레코딩 보존오디오 파일이 자동으로 저장됩니다.
年份/月份/assets
폴더는 WAV 또는 MP3 형식을 지원합니다. - 키워드 다이어리::
- 컴파일러
keywords.txt
각 줄에 키워드(예: "회의")를 추가합니다. - 음성이 키워드로 시작하면 결과가 별도로 저장됩니다.
年份/月份/关键词-日期.md
.
- 컴파일러
- 중복 제거: 포함된 Python 스크립트를 실행하여 마크다운에서 참조하지 않는 오디오 파일을 제거합니다.
작업 흐름 데모
- 시나리오 1: 빠르게 노트 입력하기
클라이언트 열기 -> 캡스락 길게 누르기 -> "오늘 오후에 프로젝트 진행 상황을 논의하기 위해 회의" -> 키 놓기 -> 문서에 텍스트가 자동으로 입력 -> 다이어리 파일로 저장합니다. - 시나리오 2: 비디오에서 자막으로 전환하기
MP4 파일 준비 -> 클라이언트로 드래그 -> 처리 대기(진행률이 터미널에 표시됨) -> 생성된 SRT 파일 확인 -> 동영상 편집 소프트웨어로 가져와서 사용하세요.
주의
- 서버가 시작되지 않으면 클라이언트에 연결 오류가 표시되므로 서버가 실행 중인지 확인해야 합니다.
127.0.0.1:6016
(기본 주소). - MacOS 사용자는 마이크 권한을 허용해야 하며 터미널에서 마이크에 액세스할 수 있습니다.
sudo
클라이언트를 실행합니다. - 인기 단어가 너무 많으면 3ms/10,000개 항목의 지연 시간이 늘어날 수 있으므로 일반적인 단어를 간소화하는 것이 좋습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...