Linly-Talker: интеллектуальная диалоговая система для цифровых людей, сочетающая большие языковые модели и визуальные модели для новых интерактивных впечатлений
Общее введение
Linly-Talker - это инновационная цифровая система диалога с человеком, которая объединяет большие языковые модели (LLM) с визуальными моделями для создания нового подхода к человеко-компьютерному взаимодействию. Система объединяет множество технологий, таких как Whisper, Linly, Microsoft Speech Services и SadTalker Linly-Talker поддерживает загрузку изображений для диалога и повышает интерактивность и реалистичность за счет многораундовой системы диалога. Проект разработан компанией Kedreamix и размещен на GitHub в открытом доступе, чтобы разработчики и исследователи могли его использовать и улучшать.

Список функций
- Многораундовая диалоговая система: Поддерживает контекстно-зависимый многораундовый диалог для повышения интерактивности и реалистичности.
- Диалог загрузки изображений: Пользователи могут загружать изображения и вступать в диалог с цифровыми людьми.
- Синтез и распознавание речи: Интеграция с Microsoft TTS и FunASR для обеспечения нескольких типов речи и быстрого распознавания речи.
- Генерация субтитров для видео: Поддержка создания видеосубтитров для улучшения визуальных эффектов.
- клонирование речи: В модели GPT-SoVITS голоса можно клонировать, используя одну минуту речевых данных.
- Персонализация персонажей: Поддерживает создание персонализированных ролей с помощью множества моделей и вариантов.
- диалог в реальном времени: Интеграция с MuseTalk для базовой функциональности диалога в реальном времени.
Использование помощи
Процесс установки
- проект клонирования: Выполните следующую команду в терминале, чтобы клонировать проект:
git clone https://github.com/Kedreamix/Linly-Talker.git
- Установка зависимостей: Перейдите в каталог проекта и установите необходимые зависимости:
cd Linly-Talker
pip install -r requirements_app.txt
pip install -r requirements_webui.txt
- Конфигурационная среда: Настройте переменные окружения и сертификаты, необходимые для обеспечения правильной работы системы.
Руководство по использованию
- Запуск WebUI: Выполните следующую команду, чтобы запустить WebUI:
python webui.py
Откройте браузер, чтобы получить доступ к http://localhost:7860
Если вы хотите получить доступ к веб-интерфейсу Linly-Talker, вы можете сделать это, перейдя по следующей ссылке.
- Загрузите изображения для диалога::
- В интерфейсе WebUI нажмите кнопку "Upload Image" и выберите файл изображения для загрузки.
- После загрузки изображения система автоматически генерирует диалоговый контент, и пользователь может взаимодействовать с цифровым человеком.
- Синтез и распознавание речи::
- Введите текст в диалоговое окно, выберите тип голоса, нажмите кнопку "Generate Voice", система синтезирует голос и воспроизведет его.
- Пользователи также могут вводить свой голос через микрофон, и система автоматически распознает и генерирует текст.
- Генерация субтитров для видео::
- Загрузите видеофайлы, система автоматически сгенерирует субтитры и вставит их в видео, а пользователи смогут скачать видеофайлы с субтитрами.
- клонирование речи::
- Загрузите образец голоса целевого человека, и система, используя модель GPT-SoVITS для клонирования голоса, сгенерирует голос, похожий на голос целевого человека.
- Персонализация персонажей::
- В интерфейсе WebUI выберите опцию "Personalised Persona Generation", введите информацию о персоне, и система создаст персональную персону.
- диалог в реальном времени::
- Выбрав модуль MuseTalk, система включит функцию диалога в реальном времени, которая позволяет пользователю взаимодействовать с цифровым человеком в режиме реального времени.
Универсальная программа установки Windows
Кварк: https://pan.quark.cn/s/cc8f19c45a15
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...