CSM Voice Cloning: быстрое клонирование голоса с помощью CSM-1B

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

Общее введение

CSM Voice Cloning - это проект с открытым исходным кодом, разработанный Исайей Бьорком и размещенный на GitHub. Он основан на модели Sesame CSM-1B, которая позволяет пользователям клонировать свой собственный голос и генерировать персональный голос, просто предоставив аудиообразец. Инструмент поддерживает как локальный запуск на GPU, так и запуск в облаке Modal, что делает его подходящим для создателей контента, разработчиков и всех, кто интересуется голосовыми технологиями. Хотя результаты клонирования не самые совершенные, сгенерированный голос сохраняет некоторые характеристики целевого голоса, и эффект получается узнаваемым. Для работы требуется некоторая техническая база, например, установка Python и настройка среды, но подробное руководство официально доступно. Проект полностью бесплатный, и сообщество может вносить свой вклад в улучшение кода.

Список функций

Клонирование речи: загружайте аудиообразцы, чтобы сгенерировать речь, похожую на образец.
Преобразование текста в речь: введите текст и создайте аудиофайлы с клонированными голосами.
Локальный запуск: используйте ваш персональный графический процессор для обработки задач генерации речи.
Работает в облаке: ускоряется облачными GPU с помощью платформы Modal.
Поддержка открытого исходного кода: код является общедоступным и может быть изменен или оптимизирован пользователем.
Поддержка распространенных аудиоформатов: в качестве образцов принимаются файлы MP3 или WAV.
Регулировка параметров: позволяет пользователю изменять настройки модели, чтобы приспособить ее к различным длинам аудио.

Использование помощи

Процесс установки

Чтобы использовать CSM Voice Cloning, пользователям необходимо сначала настроить среду выполнения. Ниже приведены подробные шаги:

Запуск установки локально

Проверьте требования к аппаратному и программному обеспечению
- Требуется Python 3.10 или более поздняя версия.
- Для локальной работы требуются совместимые с NVIDIA CUDA видеокарты и достаточный объем видеопамяти.
- Убедитесь, что у вас есть подключение к Интернету для загрузки моделей и зависимостей.
Репозиторий клонированного кода
- Откройте терминал (CMD или PowerShell для Windows, Bash для Linux/Mac).
- Введите команду:
```
git clone https://github.com/isaiahbjork/csm-voice-cloning.git
cd csm-voice-cloning
```
Установка зависимостей
- Запускается в терминале:
```
pip install -r requirements.txt
```
- Это позволит установить необходимые библиотеки, такие как PyTorch, Hugging Face и т.д.

Установка облачного запуска (модальная)

Установка Modal
- Запускается в терминале:
```
pip install modal
```
Настройка модальной аутентификации
- Введите команду:
```
modal token new
```
- Следуя подсказкам, войдите в свою учетную запись Modal или создайте новую учетную запись.

Настройка учетной записи обнимающихся лиц

Зарегистрируйтесь и получите токен
- Посетите сайт Hugging Face, чтобы зарегистрироваться или войти в систему.
- существовать Страница модели Sesame CSM-1B Нажмите на "Доступ к хранилищу" и примите условия.
- Генерация API-токенов: нажмите на свой аватар в правом верхнем углу -> Настройки -> Жетоны -> Новый токен.
Установочный токен
- Способ 1: Введите в терминале:
```
export HF_TOKEN="你的令牌"
```
- Метод 2: Модификация voice_clone.py найдите файл os.environ["HF_TOKEN"]Заполните маркер.

Подготовка аудиообразцов

Запись аудио
- Запишите четкий 2-3-минутный аудиоклип, желательно без посторонних шумов.
- Сохраните в формате MP3 или WAV, например. sample.mp3.
Транскрипция текста
- расход или издержки Шепот или другой инструмент для расшифровки аудиозаписей, записывая точный текст (например, "Hello, this is my test audio").

Основные функции

Клон носителя языка (вычислительная техника)

Редактирование параметров
- показать (билет) voice_clone.py файл, измените следующее:
  - context_audio_path = "sample.mp3"(аудиодорожка).
  - context_text = "你好，这是我的测试音频"(транскрибированный текст).
  - text = "今天天气很好"(текст, который будет создан).
  - output_filename = "output.wav"(имя выходного файла).
программа бега
- Введите его в терминал:
```
python voice_clone.py
```
- Созданный звук сохраняется в папке проекта.

Облачное клонирование голоса (Modal)

Редактирование параметров
- показать (билет) modal_voice_cloning.py файл, задавая те же параметры, что и локальный:
  - context_audio_path = "sample.mp3".
  - context_text = "你好，这是我的测试音频".
  - text = "今天天气很好".
  - output_filename = "output.wav".
программа бега
- Введите его в терминал:
```
modal run modal_voice_cloning.py
```
- Modal будет использовать облачный GPU для обработки задачи и загружать выходной файл по завершении.

Настройка длины последовательности моделей

Если аудиосэмпл длинный (более 2-3 минут), могут возникнуть ошибки тензорной размерности.
Решение:
1. показать (билет) models.py Документация.
2. найти llama3_2_1B() функция, изменяющая max_seq_len Параметры:
```
def llama3_2_1B():
return llama3_2.llama3_2(max_seq_len=4096, ...)
```
3. безопасный llama3_2_100M() значение не изменилось, сохраните его и запустите заново.

Функциональное управление

Ускорение облачных вычислений (Modal)

Modal предлагает облачные GPU для тех, у кого нет мощных локальных устройств.
Простой в использовании, просто установите Modal и запустите соответствующие скрипты для более быстрой, чем локальная, обработки.

Обработка длинных аудиозаписей

По умолчанию устанавливается для образцов длительностью до 2 минут 50 секунд.
Длинное аудио требует настройки max_seq_len(как описано выше), или зажмите образец до рекомендуемой длины.

Часто задаваемые вопросы

ошибка размерности тензора
подниматься max_seq_len значения или сократить аудиосэмплы.
CUDA Out of Memory
Используйте более короткие образцы или переключитесь на прогон облака Modal.
Загрузка модели не удалась
Проверьте токены Hugging Face и сети, чтобы убедиться, что условия модели были приняты.

сценарий применения

создание контента
- Описание сцены
  Ведущие могут генерировать видеоповествование своим голосом. Загрузите аудиозапись самопрезентации, введите сценарий и создайте свой голос за считанные минуты, избавив себя от необходимости повторных записей.
Образовательная поддержка
- Описание сцены
  Преподаватель клонирует свой собственный голос и вводит лекции курса для создания учебного аудио. Студенты могут прослушивать их в любое время, что подходит для дистанционного обучения.
разработка игр
- Описание сцены
  Разработчики озвучивают игровых персонажей. Запишите несколько образцов, чтобы сгенерировать несколько фрагментов диалога для повышения реалистичности персонажа.

QA

Какой длины должен быть аудиосэмпл?
Рекомендуется 2-3 минуты. Слишком короткое время приводит к плохим результатам, слишком долгое - к изменению параметров.
Почему созданный голос не очень похож на мой?
Моделирование ограничено, сохраняя характеристики звука, но не идеально. Убедитесь, что образец чист, и попробуйте несколько раз с разными текстами.
В чем разница между Modal и локальным запуском?
Modal использует облачные GPU и является быстрым для пользователей без мощных устройств. Локальный запуск бесплатен, но требует хорошей видеокарты.