CapsWriter-Offline: PC용 음성 입력 및 자막 전사 도구

57.8K 00

일반 소개

CapsWriter-Offline은 GitHub에서 호스팅되고 개발자 HaujetZhao가 만든 PC용 음성 입력 및 자막 전사 도구입니다. 완전히 오프라인으로 실행되며 음성-텍스트 및 오디오/비디오 파일-자막 트랜스크립션을 위해 인터넷 연결이 필요하지 않으며 무제한 녹음 시간, 중국어와 영어 혼합 입력, 고정밀 인식 기능을 지원합니다. 이 소프트웨어는 키보드 단축키(기본값은 CapsLock)를 눌러 녹음했다가 놓으면 인식 결과가 자동으로 입력되는 방식으로 쉽고 효율적으로 조작할 수 있습니다. 또한 오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 자막을 생성할 수 있어 빠른 필사가 필요한 사용자에게 적합하며, Windows, MacOS 및 Linux용 오픈 소스이며 무료로 제공되어 효율적인 입력 및 자막 제작이 필요한 사용자들에게 인기가 높습니다.

기능 목록

음성-텍스트 입력단축키를 눌러 녹음했다가 놓으면 음성을 텍스트 입력으로 자동 변환하여 중국어와 영어가 혼합된 콘텐츠를 지원합니다.
무제한 전사 시간세그먼트 인식 및 중복 제거 기술을 통해 매우 긴 음성 콘텐츠를 정확하게 전사합니다.
자막이 포함된 오디오 및 비디오 트랜스크립션오디오 및 비디오 파일을 클라이언트로 드래그하여 SRT 형식의 자막을 자동으로 생성하는 기능을 지원합니다.
인기 단어 대체중국어, 영어 및 규칙 기반 인기 단어를 사용자 지정하여 특정 단어의 인식 정확도를 높일 수 있습니다.
일기 기능녹취 결과를 마크다운 파일로 자동 저장하고 날짜별로 녹취를 정리합니다.
키워드 다이어리특정 키워드로 시작하는 음성을 인식하여 별도의 주제별 마크다운 파일로 저장합니다.
고품질 녹화 보존48000 샘플로 녹음하고 FFmpeg로 MP3 형식으로 저장하는 것을 지원합니다.
크로스 플랫폼 지원Windows, MacOS 및 Linux 시스템과 호환되므로 다양한 시나리오의 요구 사항을 충족합니다.

도움말 사용

설치 프로세스

CapsWriter-Offline은 오픈 소스 소프트웨어로 사용자가 GitHub에서 다운로드하여 수동으로 설치해야 합니다. 자세한 단계는 다음과 같습니다:

1. 소프트웨어 다운로드

GitHub 페이지를 방문하세요.
'릴리스' 섹션에서 시스템에 적합한 버전을 선택합니다:
- Windows 10 이상 64비트 시스템: 다운로드 CapsWriter-Offline-Windows-64bit.zip(서버 측 및 클라이언트 측 모두) 및 models.zip(모델 파일).
- Windows 7 이상 32비트 시스템: 다운로드 CapsWriter-Offline-Windows-32bit-Client.zip(클라이언트만 해당, LAN의 다른 서버에 연결해야 함).
- MacOS/Linux소스 코드에서 직접 컴파일하거나 커뮤니티에서 제공하는 패키지 버전을 참조해야 합니다.
다운로드가 완료되면 파일의 압축을 풀고 models.zip 압축을 풀고 아래의 소프트웨어 디렉터리에 넣습니다. models 폴더.

2. 환경 준비

Windows 사용자::
- 시스템이 Windows 10 이상(서버 측에서 필수)이고 4GB 이상의 RAM(64비트 시스템)이 있는지 확인합니다.
- MP3 형식으로 녹음하려면 FFmpeg를 설치하고 환경 변수를 구성해야 합니다.
MacOS 사용자::
- 마운팅 protobuf(실행 중) brew install protobuf).
- 클라이언트는 다음과 같이 시작해야 합니다. sudo 실행 권한이 있는 경우 기본 바로 가기는 오른쪽 Shift 키입니다.
Linux 사용자::
- 마운팅 xclip(실행 중) sudo apt-get install xclip)를 사용하여 클립보드 기능을 지원합니다.

3. 소프트웨어 실행

서버 측압축을 풀고 더블 클릭 start_server.exe(Windows)를 클릭하거나 core_server.py(Python 3.8-3.10 및 종속성 필요). 모델은 시작 후 로드됩니다(약 2GB의 메모리와 50초가 소요됨).
클라이언트(컴퓨팅)더블 클릭 start_client.exe(Windows)를 클릭하거나 core_client.py(MacOS/Linux 필수) sudo). 시작하면 기본 마이크와 바로 가기를 듣습니다.

주요 기능

음성-텍스트 입력

클라이언트 시작하기: 클라이언트를 실행하면 소프트웨어가 기본적으로 CapsLock 키를 수신합니다(MacOS의 경우 오른쪽 Shift 키).
녹음 작업::
- CapsLock 키를 길게 눌러 녹화를 시작합니다(0.3초 미만의 녹음은 무시됩니다).
- 키를 놓으면 소프트웨어가 음성을 텍스트로 자동 변환하여 현재 커서 위치에 입력합니다.
설정 조정::
- 존재 config.py 파일에서 바로 가기 키를 수정합니다(shortcut), 출력물 붙여넣기 여부(paste) 및 기타 매개변수.
- CapsLock 상태를 복원하려면 다음과 같이 설정하세요. restore_key 로 설정 True.

자막이 포함된 오디오 및 비디오 트랜스크립션

문서 준비: 클라이언트가 실행 중이고 서버가 제대로 작동하는지 확인합니다.
파일 끌어 놓기오디오 및 비디오 파일(예: MP4, WAV)을 드래그하여 start_client.exe 위로.
자막 생성소프트웨어가 자동으로 오디오 콘텐츠를 인식하고 동일한 디렉터리에 저장되는 SRT 파일을 생성합니다.
주의파일이 큰 경우 메모리와 하드 디스크 공간을 미리 확인하는 것이 좋으며, 인식 시간은 파일 길이와 관련이 있습니다.

일기 기능

다이어리 활성화하기기본적으로 활성화되어 있으면 각 녹화 결과가 저장됩니다. 年份/月份/日期.md 문서화.
레코딩 보존오디오 파일이 자동으로 저장됩니다. 年份/月份/assets 폴더는 WAV 또는 MP3 형식을 지원합니다.
키워드 다이어리::
- 컴파일러 keywords.txt각 줄에 키워드(예: "회의")를 추가합니다.
- 음성이 키워드로 시작하면 결과가 별도로 저장됩니다. 年份/月份/关键词-日期.md.
중복 제거: 포함된 Python 스크립트를 실행하여 마크다운에서 참조하지 않는 오디오 파일을 제거합니다.

작업 흐름 데모

시나리오 1: 빠르게 노트 입력하기
클라이언트 열기 -> 캡스락 길게 누르기 -> "오늘 오후에 프로젝트 진행 상황을 논의하기 위해 회의" -> 키 놓기 -> 문서에 텍스트가 자동으로 입력 -> 다이어리 파일로 저장합니다.
시나리오 2: 비디오에서 자막으로 전환하기
MP4 파일 준비 -> 클라이언트로 드래그 -> 처리 대기(진행률이 터미널에 표시됨) -> 생성된 SRT 파일 확인 -> 동영상 편집 소프트웨어로 가져와서 사용하세요.

주의

서버가 시작되지 않으면 클라이언트에 연결 오류가 표시되므로 서버가 실행 중인지 확인해야 합니다. 127.0.0.1:6016(기본 주소).
MacOS 사용자는 마이크 권한을 허용해야 하며 터미널에서 마이크에 액세스할 수 있습니다. sudo 클라이언트를 실행합니다.
인기 단어가 너무 많으면 3ms/10,000개 항목의 지연 시간이 늘어날 수 있으므로 일반적인 단어를 간소화하는 것이 좋습니다.

Google AI Studio: 멀티모달 생성 모델을 구축하기 위한 최신 Google Gemini 모델 체험 및 통합

최신 AI 리소스 # AI 빅 모델 네이티브 대화 도구

1 년 전

0100.1K

TextDistiller：一键总结一整本书，高效提炼书籍内容，快速掌握核心思想

텍스트 디스틸러: 한 번의 클릭으로 책 전체를 요약하고, 책의 내용을 효율적으로 추출하고, 핵심 아이디어를 빠르게 파악할 수 있습니다.

1 년 전

049.4K

Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스

최신 AI 리소스

5개월 전

024.8K

Sagehood AI: AI 분석을 사용하여 미국 주식 시장에서 투자 결정을 간소화하고 포트폴리오를 최적화하는 방법

최신 AI 리소스 # AI 금융 데이터 분석

1 년 전

047.5K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

CapsWriter-Offline: PC용 음성 입력 및 자막 전사 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 소프트웨어 다운로드

2. 환경 준비

3. 소프트웨어 실행

주요 기능

음성-텍스트 입력

자막이 포함된 오디오 및 비디오 트랜스크립션

인기 단어 대체

일기 기능

작업 흐름 데모

주의

PDF-Extract-Kit: 오픈 소스 도구의 PDF 콘텐츠의 복잡한 구조를 추출합니다.

AingDesk: 개인용 컴퓨터에 원클릭으로 AI 모델 및 채팅 인터페이스 설치(DeepSeek 사용)

관련 문서

Google AI Studio: 멀티모달 생성 모델을 구축하기 위한 최신 Google Gemini 모델 체험 및 통합

텍스트 디스틸러: 한 번의 클릭으로 책 전체를 요약하고, 책의 내용을 효율적으로 추출하고, 핵심 아이디어를 빠르게 파악할 수 있습니다.

Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스

Sagehood AI: AI 분석을 사용하여 미국 주식 시장에서 투자 결정을 간소화하고 포트폴리오를 최적화하는 방법

댓글 없음

최신 컬렉션

최신 기사

CapsWriter-Offline: PC용 음성 입력 및 자막 전사 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 소프트웨어 다운로드

2. 환경 준비

3. 소프트웨어 실행

주요 기능

음성-텍스트 입력

자막이 포함된 오디오 및 비디오 트랜스크립션

인기 단어 대체

일기 기능

작업 흐름 데모

주의

PDF-Extract-Kit: 오픈 소스 도구의 PDF 콘텐츠의 복잡한 구조를 추출합니다.

AingDesk: 개인용 컴퓨터에 원클릭으로 AI 모델 및 채팅 인터페이스 설치(DeepSeek 사용)

관련 문서

Google AI Studio: 멀티모달 생성 모델을 구축하기 위한 최신 Google Gemini 모델 체험 및 통합

텍스트 디스틸러: 한 번의 클릭으로 책 전체를 요약하고, 책의 내용을 효율적으로 추출하고, 핵심 아이디어를 빠르게 파악할 수 있습니다.

Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스

Sagehood AI: AI 분석을 사용하여 미국 주식 시장에서 투자 결정을 간소화하고 포트폴리오를 최적화하는 방법

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사