Linly-Dubbing: интеллектуальный многоязычный инструмент для дубляжа и перевода видео с помощью искусственного интеллекта

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

89.6K 00

Общее введение

Linly-Dubbing - это интеллектуальный многоязычный инструмент дубляжа и перевода с искусственным интеллектом, предназначенный для предоставления пользователям высококачественных услуг по дублированию видео и переводу субтитров с использованием передовых технологий искусственного интеллекта. Этот инструмент особенно подходит для таких сценариев, как международное образование, глобальная локализация контента и т. д., помогая командам распространять высококачественный контент по всему миру.

Список функций

Поддержка нескольких языков: Обеспечивает дубляж и субтитрирование переводов на китайский и многие другие языки для удовлетворения потребностей глобализации.
ИИ распознавание речи: преобразование речи в текст и распознавание диктора с помощью передовых технологий искусственного интеллекта.
Большое языковое моделирование Перевод: В сочетании с передовым моделированием языка (например, GPT) переводы выполняются быстро и точно, обеспечивая профессионализм и естественность.
Клонирование голоса с помощью искусственного интеллекта: Используя передовую технологию клонирования голоса, он генерирует голос, который очень похож на оригинальный видеодубль, сохраняя эмоциональную и интонационную связность.
Цифровая технология синхронизации губ человека с человеком: Благодаря технологии lip-synching голос за кадром хорошо сочетается с видеоэкраном, усиливая ощущение реалистичности и интерактивности.
Гибкая загрузка и перевод: Пользователи могут загружать видео и выбирать язык и стандарт перевода, что обеспечивает персонализацию и гибкость.
регулярное обновление: Постоянное внедрение новейших моделей позволяет оставаться на переднем крае дубляжа и перевода.

Использование помощи

Процесс установки

склад клонов: Сначала клонируйте репозиторий Linly-Dubbing на свою локальную машину и инициализируйте подмодули.
```
git clone https://github.com/Kedreamix/Linly-Dubbing.git --depth 1
cd Linly-Dubbing
git submodule update --init --recursive
```

Установка зависимостей: Создайте новое окружение Python и установите необходимые зависимости.

conda create -n linly_dubbing python=3.10 -y
conda activate linly_dubbing
cd Linly-Dubbing/
conda install ffmpeg==7.0.2 -c conda-forge
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install -r requirements_module.txt

Настройка переменных среды: Создайте файл .env в корневом каталоге проекта и заполните его необходимыми переменными окружения.
```
OPENAI_API_KEY=sk-xxx
MODEL_NAME=gpt-4
HF_TOKEN=your_hugging_face_token
```
Запуск приложения: Загрузите нужную модель и запустите интерфейс WebUI.
```
bash scripts/download_models.sh
python webui.py
```

Процесс использования

Загрузить видео: Пользователи могут загружать видеофайлы для дубляжа или перевода через интерфейс WebUI.
Выбор языка и критериев: После загрузки видео пользователь может выбрать язык для перевода и стандарт дубляжа.
Создание дубляжа и субтитров: Система автоматически выполнит распознавание речи, перевод и создание дубляжа, а также синхронизирует создание файлов субтитров.
Результаты загрузки: Пользователи могут загрузить созданные файлы дублированного видео и субтитров для последующего редактирования и использования.

Основные функции

Автоматическая загрузка видео: Используйте инструмент yt-dlp для загрузки видео и аудио в различных форматах и разрешениях.
разделение голоса: Разделение вокала и бэк-треков с помощью технологий Demucs и UVR5 для создания высококачественных бэк-треков и вокальных отрывков.
ИИ распознавание речиТочное распознавание речи и создание субтитров с помощью WhisperX и FunASR, с поддержкой распознавания нескольких дикторов.
Большое языковое моделирование Перевод: Высококачественные многоязычные переводы с использованием OpenAI API и модели Qwen.
Синтез речи на основе искусственного интеллекта: Использование Edge TTS и CosyVoice Создавайте естественную и плавную речь с поддержкой нескольких языков и стилей речи.
Обработка видеоПерсонализируйте видеоматериалы, добавляя субтитры, вставляя фоновую музыку, регулируя громкость и изменяя скорость воспроизведения.
Цифровая технология синхронизации губ человека с человеком: Цифровая синхронизация губ человека с человеком с помощью технологии Linly-Talker для повышения профессионализма видео и улучшения впечатления от просмотра.