CSM Voice Cloning: быстрое клонирование голоса с помощью CSM-1B
Общее введение
CSM Voice Cloning - это проект с открытым исходным кодом, разработанный Исайей Бьорком и размещенный на GitHub. Он основан на модели Sesame CSM-1B, которая позволяет пользователям клонировать свой собственный голос и генерировать персональный голос, просто предоставив аудиообразец. Инструмент поддерживает как локальный запуск на GPU, так и запуск в облаке Modal, что делает его подходящим для создателей контента, разработчиков и всех, кто интересуется голосовыми технологиями. Хотя результаты клонирования не самые совершенные, сгенерированный голос сохраняет некоторые характеристики целевого голоса, и эффект получается узнаваемым. Для работы требуется некоторая техническая база, например, установка Python и настройка среды, но подробное руководство официально доступно. Проект полностью бесплатный, и сообщество может вносить свой вклад в улучшение кода.

Список функций
- Клонирование речи: загружайте аудиообразцы, чтобы сгенерировать речь, похожую на образец.
- Преобразование текста в речь: введите текст и создайте аудиофайлы с клонированными голосами.
- Локальный запуск: используйте ваш персональный графический процессор для обработки задач генерации речи.
- Работает в облаке: ускоряется облачными GPU с помощью платформы Modal.
- Поддержка открытого исходного кода: код является общедоступным и может быть изменен или оптимизирован пользователем.
- Поддержка распространенных аудиоформатов: в качестве образцов принимаются файлы MP3 или WAV.
- Регулировка параметров: позволяет пользователю изменять настройки модели, чтобы приспособить ее к различным длинам аудио.
Использование помощи
Процесс установки
Чтобы использовать CSM Voice Cloning, пользователям необходимо сначала настроить среду выполнения. Ниже приведены подробные шаги:
Запуск установки локально
- Проверьте требования к аппаратному и программному обеспечению
- Требуется Python 3.10 или более поздняя версия.
- Для локальной работы требуются совместимые с NVIDIA CUDA видеокарты и достаточный объем видеопамяти.
- Убедитесь, что у вас есть подключение к Интернету для загрузки моделей и зависимостей.
- Репозиторий клонированного кода
- Откройте терминал (CMD или PowerShell для Windows, Bash для Linux/Mac).
- Введите команду:
git clone https://github.com/isaiahbjork/csm-voice-cloning.git cd csm-voice-cloning
- Установка зависимостей
- Запускается в терминале:
pip install -r requirements.txt
- Это позволит установить необходимые библиотеки, такие как PyTorch, Hugging Face и т.д.
- Запускается в терминале:
Установка облачного запуска (модальная)
- Установка Modal
- Запускается в терминале:
pip install modal
- Запускается в терминале:
- Настройка модальной аутентификации
- Введите команду:
modal token new
- Следуя подсказкам, войдите в свою учетную запись Modal или создайте новую учетную запись.
- Введите команду:
Настройка учетной записи обнимающихся лиц
- Зарегистрируйтесь и получите токен
- Посетите сайт Hugging Face, чтобы зарегистрироваться или войти в систему.
- существовать Страница модели Sesame CSM-1B Нажмите на "Доступ к хранилищу" и примите условия.
- Генерация API-токенов: нажмите на свой аватар в правом верхнем углу -> Настройки -> Жетоны -> Новый токен.
- Установочный токен
- Способ 1: Введите в терминале:
export HF_TOKEN="你的令牌"
- Метод 2: Модификация
voice_clone.py
найдите файлos.environ["HF_TOKEN"]
Заполните маркер.
- Способ 1: Введите в терминале:
Подготовка аудиообразцов
- Запись аудио
- Запишите четкий 2-3-минутный аудиоклип, желательно без посторонних шумов.
- Сохраните в формате MP3 или WAV, например.
sample.mp3
.
- Транскрипция текста
- расход или издержки Шепот или другой инструмент для расшифровки аудиозаписей, записывая точный текст (например, "Hello, this is my test audio").
Основные функции
Клон носителя языка (вычислительная техника)
- Редактирование параметров
- показать (билет)
voice_clone.py
файл, измените следующее:context_audio_path = "sample.mp3"
(аудиодорожка).context_text = "你好,这是我的测试音频"
(транскрибированный текст).text = "今天天气很好"
(текст, который будет создан).output_filename = "output.wav"
(имя выходного файла).
- показать (билет)
- программа бега
- Введите его в терминал:
python voice_clone.py
- Созданный звук сохраняется в папке проекта.
- Введите его в терминал:
Облачное клонирование голоса (Modal)
- Редактирование параметров
- показать (билет)
modal_voice_cloning.py
файл, задавая те же параметры, что и локальный:context_audio_path = "sample.mp3"
.context_text = "你好,这是我的测试音频"
.text = "今天天气很好"
.output_filename = "output.wav"
.
- показать (билет)
- программа бега
- Введите его в терминал:
modal run modal_voice_cloning.py
- Modal будет использовать облачный GPU для обработки задачи и загружать выходной файл по завершении.
- Введите его в терминал:
Настройка длины последовательности моделей
- Если аудиосэмпл длинный (более 2-3 минут), могут возникнуть ошибки тензорной размерности.
- Решение:
- показать (билет)
models.py
Документация. - найти
llama3_2_1B()
функция, изменяющаяmax_seq_len
Параметры:def llama3_2_1B(): return llama3_2.llama3_2(max_seq_len=4096, ...)
- безопасный
llama3_2_100M()
значение не изменилось, сохраните его и запустите заново.
- показать (билет)
Функциональное управление
Ускорение облачных вычислений (Modal)
- Modal предлагает облачные GPU для тех, у кого нет мощных локальных устройств.
- Простой в использовании, просто установите Modal и запустите соответствующие скрипты для более быстрой, чем локальная, обработки.
Обработка длинных аудиозаписей
- По умолчанию устанавливается для образцов длительностью до 2 минут 50 секунд.
- Длинное аудио требует настройки
max_seq_len
(как описано выше), или зажмите образец до рекомендуемой длины.
Часто задаваемые вопросы
- ошибка размерности тензора
подниматьсяmax_seq_len
значения или сократить аудиосэмплы. - CUDA Out of Memory
Используйте более короткие образцы или переключитесь на прогон облака Modal. - Загрузка модели не удалась
Проверьте токены Hugging Face и сети, чтобы убедиться, что условия модели были приняты.
сценарий применения
- создание контента
- Описание сцены
Ведущие могут генерировать видеоповествование своим голосом. Загрузите аудиозапись самопрезентации, введите сценарий и создайте свой голос за считанные минуты, избавив себя от необходимости повторных записей.
- Описание сцены
- Образовательная поддержка
- Описание сцены
Преподаватель клонирует свой собственный голос и вводит лекции курса для создания учебного аудио. Студенты могут прослушивать их в любое время, что подходит для дистанционного обучения.
- Описание сцены
- разработка игр
- Описание сцены
Разработчики озвучивают игровых персонажей. Запишите несколько образцов, чтобы сгенерировать несколько фрагментов диалога для повышения реалистичности персонажа.
- Описание сцены
QA
- Какой длины должен быть аудиосэмпл?
Рекомендуется 2-3 минуты. Слишком короткое время приводит к плохим результатам, слишком долгое - к изменению параметров. - Почему созданный голос не очень похож на мой?
Моделирование ограничено, сохраняя характеристики звука, но не идеально. Убедитесь, что образец чист, и попробуйте несколько раз с разными текстами. - В чем разница между Modal и локальным запуском?
Modal использует облачные GPU и является быстрым для пользователей без мощных устройств. Локальный запуск бесплатен, но требует хорошей видеокарты.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...