VideoChat: голосовой интерактивный цифровой собеседник в реальном времени с возможностью клонирования изображения и тембра, поддержка комплексных голосовых решений и каскадных решений.

Общее введение

VideoChat - это проект цифрового человека для голосового взаимодействия в реальном времени, основанный на технологии с открытым исходным кодом и поддерживающий сквозные голосовые схемы (GLM-4-Voice - THG) и каскадные схемы (ASR-LLM-TTS-THG). Проект позволяет пользователям настраивать образ и тембр цифрового человека, поддерживает клонирование тембра и синхронизацию губ, вывод видеопотока и задержку первого пакета до 3 секунд. Пользователи могут ознакомиться с его функциональностью с помощью онлайн-демонстраций, а также развернуть и использовать его на месте с помощью подробной технической документации.

VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

Адрес для демонстрации: https://www.modelscope.cn/studios/AI-ModelScope/video_chat

 

Список функций

  • Голосовое взаимодействие в реальном времени: поддержка сквозных голосовых решений и каскадных решений
  • Индивидуальный образ и тон: пользователи могут настроить внешний вид и звук цифрового человека в соответствии со своими потребностями
  • Клонирование голоса: поддержка клонирования голоса пользователя для обеспечения персонализированного голосового опыта.
  • Низкая задержка: задержка первого пакета составляет всего 3 секунды, что обеспечивает бесперебойную интерактивную работу.
  • Проект с открытым исходным кодом: основан на технологии с открытым исходным кодом, пользователи могут свободно изменять и расширять функции

 

Использование помощи

Процесс установки

  1. Конфигурация среды
    • Операционная система: Ubuntu 22.04
    • Версия Python: 3.10
    • Версия CUDA: 12.2
    • Версия факела: 2.1.2
  2. проект клонирования
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. Создание виртуальной среды и установка зависимостей
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. Скачайте файл с весами
    • Рекомендуется использовать CreateSpace для загрузки, настроен git lfs для отслеживания весовых файлов
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. Начальные услуги
    python app.py
    

Процесс использования

  1. Настройка ключа API::
    • Если производительность локальной машины ограничена, вы можете использовать Qwen API и CosyVoice API, предоставляемые платформой обслуживания больших моделей Aliyun, Hundred Refine, наapp.pyНастройте API-ключ в
  2. локальный вывод::
    • Если вы не используете API-KEY, вы можете использовать его вsrc/llm.pyответить пениемsrc/tts.pyНастройте локальный метод вывода, чтобы удалить ненужный код вызова API.
  3. Начальные услуги::
    • быть в движенииpython app.pyНачните обслуживание.
  4. Настройка цифровых персон::
    • существовать/data/video/Каталог для добавления записанного видео с цифровым изображением человека.
    • модификации/src/thg.pyв списке avatar_list класса Muse_Talk, добавив имя изображения и bbox_shift.
    • существоватьapp.pyПосле добавления имени цифровой персоны в avatar_name в Gradio перезапустите службу и дождитесь завершения инициализации.

Подробная процедура работы

  • Индивидуальное изображение и тон: в /data/video/ каталог, чтобы добавить записанное видео с цифровым изображением человека в src/thg.py модификация Muse_Talk класс avatar_listдобавьте название изображения и bbox_shift Параметры.
  • клонирование речи: в app.py Средняя конфигурация CosyVoice API или используя Edge_TTS Выполните локальное рассуждение.
  • Комплексные голосовые решения: Использование GLM-4-Voice модели, обеспечивающие эффективную генерацию и распознавание речи.

 

  1. Зайдите по адресу локально развернутой службы и перейдите в интерфейс Gradio.
  2. Выберите или загрузите пользовательское видео с цифровыми персонами.
  3. Настройте функцию клонирования голоса для загрузки образца голоса пользователя.
  4. Начните голосовое взаимодействие в реальном времени и оцените возможности диалога с низкой задержкой.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...