린리 더빙: 지능형 비디오 다국어 AI 더빙/번역 도구

88.7K 00

일반 소개

Linly-Dubbing은 고급 AI 기술을 통합하여 사용자에게 고품질의 다국어 동영상 더빙 및 자막 번역 서비스를 제공하도록 설계된 지능형 다국어 AI 더빙 및 번역 툴입니다. 이 도구는 특히 국제 교육, 글로벌 콘텐츠 현지화 등과 같은 시나리오에 적합하여 팀이 고품질 콘텐츠를 전 세계에 배포하는 데 도움이 됩니다.

기능 목록

다국어 지원글로벌화 요구 사항을 충족하기 위해 중국어 및 기타 여러 언어로 더빙 및 자막 번역을 제공합니다.
AI 음성 인식고급 AI 기술을 사용한 음성-텍스트 변환 및 화자 인식.
대규모 언어 모델링 번역최첨단 언어 모델링(예: GPT)과 결합하여 번역을 빠르고 정확하게 수행하여 전문성과 자연스러움을 보장합니다.
AI 음성 복제최첨단 음성 복제 기술을 사용하여 감정과 억양의 일관성을 유지하면서 원본 비디오 더빙과 매우 유사한 음성을 생성합니다.
디지털 인간 대 인간 립싱크 기술립싱크 기술을 통해 음성 해설이 동영상 화면과 높은 호환성을 유지하여 사실감과 상호 작용성을 높입니다.
유연한 업로드 및 번역사용자가 동영상을 업로드하고 자신만의 번역 언어와 표준을 선택할 수 있어 개인화 및 유연성을 보장합니다.
정기 업데이트더빙 및 번역의 선두를 유지하기 위해 최신 모델을 지속적으로 도입하고 있습니다.

도움말 사용

설치 프로세스

클론 창고먼저 Linly-Dubbing 저장소를 로컬 컴퓨터에 복제하고 서브모듈을 초기화합니다.

git clone https://github.com/Kedreamix/Linly-Dubbing.git --depth 1
cd Linly-Dubbing
git submodule update --init --recursive

종속성 설치: 새 Python 환경을 만들고 필요한 종속성을 설치합니다.

conda create -n linly_dubbing python=3.10 -y
conda activate linly_dubbing
cd Linly-Dubbing/
conda install ffmpeg==7.0.2 -c conda-forge
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install -r requirements_module.txt

환경 변수 구성프로젝트 루트 디렉터리에 .env 파일을 생성하고 필요한 환경 변수를 입력합니다.
```
OPENAI_API_KEY=sk-xxx
MODEL_NAME=gpt-4
HF_TOKEN=your_hugging_face_token
```
애플리케이션 실행: 필요한 모델을 다운로드하고 WebUI 인터페이스를 시작합니다.
```
bash scripts/download_models.sh
python webui.py
```

사용 프로세스

동영상 업로드웹UI 인터페이스를 통해 더빙 또는 번역할 동영상 파일을 업로드할 수 있습니다.
언어 및 기준 선택: 동영상을 업로드한 후 번역할 언어와 더빙 표준을 선택할 수 있습니다.
더빙 및 자막 생성하기시스템이 자동으로 음성 인식, 번역 및 더빙 생성을 수행하고 자막 파일 생성을 동기화합니다.
결과 다운로드생성된 더빙 동영상 및 자막 파일을 다운로드하여 추후 편집 및 사용할 수 있습니다.

주요 기능

자동 동영상 다운로드: yt-dlp 도구를 사용하여 다양한 형식과 해상도의 동영상과 오디오를 다운로드하세요.
보컬 분리고품질의 백킹 트랙과 보컬 추출을 생성하기 위해 Demucs 및 UVR5 기술을 사용하여 보컬 및 백킹 트랙을 분리합니다.
AI 음성 인식다중 화자 인식을 지원하는 WhisperX 및 FunASR을 사용하여 정확한 음성 인식 및 자막을 생성합니다.
대규모 언어 모델링 번역OpenAI API와 Qwen 모델을 결합한 고품질 다국어 번역.
AI 음성 합성Edge TTS 활용 및 CosyVoice 여러 언어와 음성 스타일을 지원하여 자연스럽고 부드러운 음성 출력을 생성하세요.
비디오 처리자막 추가, 배경 음악 삽입, 볼륨 조절, 재생 속도 수정 등을 통해 동영상 콘텐츠를 맞춤 설정할 수 있습니다.
디지털 인간 대 인간 립싱크 기술린리토커 기술을 통한 디지털 사람과 디지털 성우의 립싱크로 영상의 전문성과 시청 경험을 향상시킵니다.