CapsWriter-Offline: PC용 음성 입력 및 자막 전사 도구

최신 AI 리소스게시됨 6 개월 전 AI 공유 서클
1.6K 00

일반 소개

CapsWriter-Offline은 GitHub에서 호스팅되고 개발자 HaujetZhao가 만든 PC용 음성 입력 및 자막 전사 도구입니다. 완전히 오프라인으로 실행되며 음성-텍스트 및 오디오/비디오 파일-자막 트랜스크립션을 위해 인터넷 연결이 필요하지 않으며 무제한 녹음 시간, 중국어와 영어 혼합 입력, 고정밀 인식 기능을 지원합니다. 이 소프트웨어는 키보드 단축키(기본값은 CapsLock)를 눌러 녹음했다가 놓으면 인식 결과가 자동으로 입력되는 방식으로 쉽고 효율적으로 조작할 수 있습니다. 또한 오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 자막을 생성할 수 있어 빠른 필사가 필요한 사용자에게 적합하며, Windows, MacOS 및 Linux용 오픈 소스이며 무료로 제공되어 효율적인 입력 및 자막 제작이 필요한 사용자들에게 인기가 높습니다.

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

CapsWriter-Offline:PC端的语音输入和字幕转录工具

 

기능 목록

  • 음성-텍스트 입력단축키를 눌러 녹음했다가 놓으면 음성을 텍스트 입력으로 자동 변환하여 중국어와 영어가 혼합된 콘텐츠를 지원합니다.
  • 무제한 전사 시간세그먼트 인식 및 중복 제거 기술을 통해 매우 긴 음성 콘텐츠를 정확하게 전사합니다.
  • 자막이 포함된 오디오 및 비디오 트랜스크립션오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 형식의 자막을 자동으로 생성하는 기능을 지원합니다.
  • 인기 단어 대체중국어, 영어 및 규칙 기반 인기 단어를 사용자 지정하여 특정 단어의 인식 정확도를 높일 수 있습니다.
  • 일기 기능녹취 결과를 마크다운 파일로 자동 저장하고 날짜별로 녹취를 정리합니다.
  • 키워드 다이어리특정 키워드로 시작하는 음성을 인식하여 별도의 주제별 마크다운 파일로 저장합니다.
  • 고품질 녹화 보존48000 샘플로 녹음하고 FFmpeg로 MP3 형식으로 저장하는 것을 지원합니다.
  • 크로스 플랫폼 지원Windows, MacOS 및 Linux 시스템과 호환되므로 다양한 시나리오의 요구 사항을 충족합니다.

 

도움말 사용

설치 프로세스

CapsWriter-Offline은 오픈 소스 소프트웨어로 사용자가 GitHub에서 다운로드하여 수동으로 설치해야 합니다. 자세한 단계는 다음과 같습니다:

1. 소프트웨어 다운로드

  • GitHub 페이지를 방문하세요.
  • '릴리스' 섹션에서 시스템에 적합한 버전을 선택합니다:
    • Windows 10 이상 64비트 시스템: 다운로드 CapsWriter-Offline-Windows-64bit.zip(서버 측 및 클라이언트 측 모두) 및 models.zip(모델 파일).
    • Windows 7 이상 32비트 시스템: 다운로드 CapsWriter-Offline-Windows-32bit-Client.zip(클라이언트만 해당, LAN의 다른 서버에 연결해야 함).
    • MacOS/Linux소스 코드에서 직접 컴파일하거나 커뮤니티에서 제공하는 패키지 버전을 참조해야 합니다.
  • 다운로드가 완료되면 파일의 압축을 풀고 models.zip 압축을 풀고 아래의 소프트웨어 디렉터리에 넣습니다. models 폴더.

2. 환경 준비

  • Windows 사용자::
    • 시스템이 Windows 10 이상(서버 측에서 필수)이고 4GB 이상의 RAM(64비트 시스템)이 있는지 확인합니다.
    • MP3 형식으로 녹음하려면 FFmpeg를 설치하고 환경 변수를 구성해야 합니다.
  • MacOS 사용자::
    • 마운팅 protobuf(실행 중) brew install protobuf).
    • 클라이언트는 다음과 같이 시작해야 합니다. sudo 실행 권한이 있는 경우 기본 바로 가기는 오른쪽 Shift 키입니다.
  • Linux 사용자::
    • 마운팅 xclip(실행 중) sudo apt-get install xclip)를 사용하여 클립보드 기능을 지원합니다.

3. 소프트웨어 실행

  • 서버 측압축을 풀고 더블 클릭 start_server.exe(Windows)를 클릭하거나 core_server.py(Python 3.8-3.10 및 종속성 필요). 모델은 시작 후 로드됩니다(약 2GB의 메모리와 50초가 소요됨).
  • 클라이언트(컴퓨팅)더블 클릭 start_client.exe(Windows)를 클릭하거나 core_client.py(MacOS/Linux 필수) sudo). 시작하면 기본 마이크와 바로 가기를 듣습니다.

주요 기능

음성-텍스트 입력

  1. 클라이언트 시작하기: 클라이언트를 실행하면 소프트웨어가 기본적으로 CapsLock 키를 수신합니다(MacOS의 경우 오른쪽 Shift 키).
  2. 녹음 작업::
    • CapsLock 키를 길게 눌러 녹화를 시작합니다(0.3초 미만의 녹음은 무시됩니다).
    • 키를 놓으면 소프트웨어가 음성을 텍스트로 자동 변환하여 현재 커서 위치에 입력합니다.
  3. 설정 조정::
    • 존재 config.py 파일에서 바로 가기 키를 수정합니다(shortcut), 출력물 붙여넣기 여부(paste) 및 기타 매개변수.
    • CapsLock 상태를 복원하려면 다음과 같이 설정하세요. restore_key 로 설정 True.

자막이 포함된 오디오 및 비디오 트랜스크립션

  1. 문서 준비: 클라이언트가 실행 중이고 서버가 제대로 작동하는지 확인합니다.
  2. 파일 끌어 놓기오디오 및 비디오 파일(예: MP4, WAV)을 드래그하여 start_client.exe 위로.
  3. 자막 생성소프트웨어가 자동으로 오디오 콘텐츠를 인식하고 동일한 디렉터리에 저장되는 SRT 파일을 생성합니다.
  4. 주의파일이 큰 경우 메모리와 하드 디스크 공간을 미리 확인하는 것이 좋으며, 인식 시간은 파일 길이와 관련이 있습니다.

인기 단어 대체

  1. 핫워드 파일 편집소프트웨어 디렉토리에서 hot-zh.txt(중국어),hot-en.txt(영어),hot-rule.txt(사용자 지정 규칙).
  2. 핫워드 추가::
    • 병음 대체를 기준으로 한 줄당 중국어 인기 단어 하나(예: "인공 지능").
    • 철자 대체를 기준으로 한 줄에 하나씩 영어 인기 단어(예: "AI")를 입력합니다.
    • 사용자 지정 규칙은 등호로 구분합니다(예: "밀리암페어시 = mAh").
  3. 발효 모드재부팅이 필요하지 않으며, 클라이언트가 핫워드를 동적으로 로드하여 용어 인식을 개선합니다.

일기 기능

  1. 다이어리 활성화하기기본적으로 활성화되어 있으면 각 녹화 결과가 저장됩니다. 年份/月份/日期.md 문서화.
  2. 레코딩 보존오디오 파일이 자동으로 저장됩니다. 年份/月份/assets 폴더는 WAV 또는 MP3 형식을 지원합니다.
  3. 키워드 다이어리::
    • 컴파일러 keywords.txt각 줄에 키워드(예: "회의")를 추가합니다.
    • 음성이 키워드로 시작하면 결과가 별도로 저장됩니다. 年份/月份/关键词-日期.md.
  4. 중복 제거: 포함된 Python 스크립트를 실행하여 마크다운에서 참조하지 않는 오디오 파일을 제거합니다.

작업 흐름 데모

  • 시나리오 1: 빠르게 노트 입력하기
    클라이언트 열기 -> 캡스락 길게 누르기 -> "오늘 오후에 프로젝트 진행 상황을 논의하기 위해 회의" -> 키 놓기 -> 문서에 텍스트가 자동으로 입력 -> 다이어리 파일로 저장합니다.
  • 시나리오 2: 비디오에서 자막으로 전환하기
    MP4 파일 준비 -> 클라이언트로 드래그 -> 처리 대기(진행률이 터미널에 표시됨) -> 생성된 SRT 파일 확인 -> 동영상 편집 소프트웨어로 가져와서 사용하세요.

주의

  • 서버가 시작되지 않으면 클라이언트에 연결 오류가 표시되므로 서버가 실행 중인지 확인해야 합니다. 127.0.0.1:6016(기본 주소).
  • MacOS 사용자는 마이크 권한을 허용해야 하며 터미널에서 마이크에 액세스할 수 있습니다. sudo 클라이언트를 실행합니다.
  • 인기 단어가 너무 많으면 3ms/10,000개 항목의 지연 시간이 늘어날 수 있으므로 일반적인 단어를 간소화하는 것이 좋습니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...