일반 소개
AI 자막 그룹은 자동화된 동영상 자막 추출, 전사 및 번역 기능을 지원하는 데 중점을 둔 강력한 명령줄 동영상 자막 처리 툴입니다. 이 도구에는 다음과 같은 고급 AI 기술이 통합되어 있습니다. Whisper 음성 인식 모델과 다양한 번역 백엔드(예: DeepL, LLM 등)를 통해 비디오 및 오디오 콘텐츠를 효율적으로 처리하고 고품질 자막 파일을 생성할 수 있습니다. 영어, 일본어, 중국어, 한국어 및 기타 주요 언어를 포함한 여러 언어 간의 변환을 지원하며 유연한 자막 출력 옵션을 제공합니다. 오픈 소스 프로젝트로서 완전한 소스 코드를 제공할 뿐만 아니라 크로스 플랫폼 사용을 지원하며 Linux, macOS 및 기타 주요 운영 체제에서 실행할 수 있습니다.
기능 목록
- 비디오에서 오디오 콘텐츠를 자동으로 추출하고 음성을 인식합니다.
- 여러 자막 소스 지원: 오디오 인식, 컨테이너 추출, OCR 인식
- 여러 번역 백엔드와의 통합: DeepL, LLM 등
- 다양한 주류 언어와의 번역 지원
- 구성 가능한 자막 출력 형식(현재 SRT 형식 지원)
- 비디오 클립 가로채기 및 처리 지원
- 디버깅 모드 제공: 오디오 추출 전용, 전사 전용, 번역 전용 및 기타 옵션 제공
- 사용자 지정 AI 모델 경로 및 구성 지원
- 크로스 플랫폼 지원(Linux, macOS, Windows 지원 예정)
도움말 사용
1. 환경 준비
준비 중인 Windows 시스템...
Linux 시스템 설치 종속성:
- 우분투 사용자:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
- Fedora 사용자:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Arch Linux 사용자:
pacman -S clang cmake ffmpeg make pkgconf
macOS 시스템 설치 종속성:
홈브루 패키지 관리자를 사용합니다:
brew install cmake ffmpeg
2. 설치 단계
- 코드 리포지토리를 복제합니다:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
- 프로젝트를 컴파일합니다:
cargo build
- Whisper 모델을 다운로드하세요:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3. 기본 사용
이 도구는 여러 가지 구성 옵션을 제공합니다:
--input-video-path
: 입력 비디오 파일 경로 지정(필수)--source-language
: 소스 언어(기본값: ja)--target-language
대상 언어(기본값: en)--ggml-model-path
: AI 모델 경로(기본값: ggml-tiny.bin)--subtitle-output-path
: 자막 출력 경로(기본값: output.srt)
4. 번역 백엔드 구성
DeepL 번역 백엔드(기본값):
- 환경 변수 설정하기:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com # 付费API版本需要
LLM 번역 백엔드:
- 환경 변수 설정하기:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
- 사용 예시:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5. 고급 기능
- 활용
--start-time
노래로 응답--end-time
특정 비디오 클립 처리 가능 --only-extract-audio
: 오디오만 추출(디버깅용)--only-transcript
원어 자막만 제공--only-translate
: 번역 기능만- 오디오(기본값), 컨테이너, OCR 등 여러 자막 소스 옵션을 지원합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...