AI 지마쿠 구미: AI의 도움으로 동영상에 대한 다국어 자막 자동 생성 및 번역

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2.5K 00

일반 소개

AI 자막 그룹은 자동화된 동영상 자막 추출, 전사 및 번역 기능을 지원하는 데 중점을 둔 강력한 명령줄 동영상 자막 처리 툴입니다. 이 도구에는 다음과 같은 고급 AI 기술이 통합되어 있습니다. Whisper 음성 인식 모델과 다양한 번역 백엔드(예: DeepL, LLM 등)를 통해 비디오 및 오디오 콘텐츠를 효율적으로 처리하고 고품질 자막 파일을 생성할 수 있습니다. 영어, 일본어, 중국어, 한국어 및 기타 주요 언어를 포함한 여러 언어 간의 변환을 지원하며 유연한 자막 출력 옵션을 제공합니다. 오픈 소스 프로젝트로서 완전한 소스 코드를 제공할 뿐만 아니라 크로스 플랫폼 사용을 지원하며 Linux, macOS 및 기타 주요 운영 체제에서 실행할 수 있습니다.

 

기능 목록

  • 비디오에서 오디오 콘텐츠를 자동으로 추출하고 음성을 인식합니다.
  • 여러 자막 소스 지원: 오디오 인식, 컨테이너 추출, OCR 인식
  • 여러 번역 백엔드와의 통합: DeepL, LLM 등
  • 다양한 주류 언어와의 번역 지원
  • 구성 가능한 자막 출력 형식(현재 SRT 형식 지원)
  • 비디오 클립 가로채기 및 처리 지원
  • 디버깅 모드 제공: 오디오 추출 전용, 전사 전용, 번역 전용 및 기타 옵션 제공
  • 사용자 지정 AI 모델 경로 및 구성 지원
  • 크로스 플랫폼 지원(Linux, macOS, Windows 지원 예정)

 

도움말 사용

1. 환경 준비

준비 중인 Windows 시스템...

 

Linux 시스템 설치 종속성:

  • 우분투 사용자:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
  • Fedora 사용자:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Arch Linux 사용자:
pacman -S clang cmake ffmpeg make pkgconf

macOS 시스템 설치 종속성:

홈브루 패키지 관리자를 사용합니다:

brew install cmake ffmpeg

2. 설치 단계

  1. 코드 리포지토리를 복제합니다:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
  1. 프로젝트를 컴파일합니다:
cargo build
  1. Whisper 모델을 다운로드하세요:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. 기본 사용

이 도구는 여러 가지 구성 옵션을 제공합니다:

  • --input-video-path: 입력 비디오 파일 경로 지정(필수)
  • --source-language: 소스 언어(기본값: ja)
  • --target-language대상 언어(기본값: en)
  • --ggml-model-path: AI 모델 경로(기본값: ggml-tiny.bin)
  • --subtitle-output-path: 자막 출력 경로(기본값: output.srt)

4. 번역 백엔드 구성

DeepL 번역 백엔드(기본값):

  1. 환경 변수 설정하기:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM 번역 백엔드:

  1. 환경 변수 설정하기:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
  1. 사용 예시:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. 고급 기능

  • 활용--start-time노래로 응답--end-time특정 비디오 클립 처리 가능
  • --only-extract-audio: 오디오만 추출(디버깅용)
  • --only-transcript원어 자막만 제공
  • --only-translate: 번역 기능만
  • 오디오(기본값), 컨테이너, OCR 등 여러 자막 소스 옵션을 지원합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...