CSM Voice Cloning: быстрое клонирование голоса с помощью CSM-1B

Общее введение

CSM Voice Cloning - это проект с открытым исходным кодом, разработанный Исайей Бьорком и размещенный на GitHub. Он основан на модели Sesame CSM-1B, которая позволяет пользователям клонировать свой собственный голос и генерировать персональный голос, просто предоставив аудиообразец. Инструмент поддерживает как локальный запуск на GPU, так и запуск в облаке Modal, что делает его подходящим для создателей контента, разработчиков и всех, кто интересуется голосовыми технологиями. Хотя результаты клонирования не самые совершенные, сгенерированный голос сохраняет некоторые характеристики целевого голоса, и эффект получается узнаваемым. Для работы требуется некоторая техническая база, например, установка Python и настройка среды, но подробное руководство официально доступно. Проект полностью бесплатный, и сообщество может вносить свой вклад в улучшение кода.

CSM Voice Cloning:利用CSM-1B快速克隆声音

 

Список функций

  • Клонирование речи: загружайте аудиообразцы, чтобы сгенерировать речь, похожую на образец.
  • Преобразование текста в речь: введите текст и создайте аудиофайлы с клонированными голосами.
  • Локальный запуск: используйте ваш персональный графический процессор для обработки задач генерации речи.
  • Работает в облаке: ускоряется облачными GPU с помощью платформы Modal.
  • Поддержка открытого исходного кода: код является общедоступным и может быть изменен или оптимизирован пользователем.
  • Поддержка распространенных аудиоформатов: в качестве образцов принимаются файлы MP3 или WAV.
  • Регулировка параметров: позволяет пользователю изменять настройки модели, чтобы приспособить ее к различным длинам аудио.

 

Использование помощи

Процесс установки

Чтобы использовать CSM Voice Cloning, пользователям необходимо сначала настроить среду выполнения. Ниже приведены подробные шаги:

Запуск установки локально

  1. Проверьте требования к аппаратному и программному обеспечению
    • Требуется Python 3.10 или более поздняя версия.
    • Для локальной работы требуются совместимые с NVIDIA CUDA видеокарты и достаточный объем видеопамяти.
    • Убедитесь, что у вас есть подключение к Интернету для загрузки моделей и зависимостей.
  2. Репозиторий клонированного кода
    • Откройте терминал (CMD или PowerShell для Windows, Bash для Linux/Mac).
    • Введите команду:
      git clone https://github.com/isaiahbjork/csm-voice-cloning.git
      cd csm-voice-cloning
      
  3. Установка зависимостей
    • Запускается в терминале:
      pip install -r requirements.txt
      
    • Это позволит установить необходимые библиотеки, такие как PyTorch, Hugging Face и т.д.

Установка облачного запуска (модальная)

  1. Установка Modal
    • Запускается в терминале:
      pip install modal
      
  2. Настройка модальной аутентификации
    • Введите команду:
      modal token new
      
    • Следуя подсказкам, войдите в свою учетную запись Modal или создайте новую учетную запись.

Настройка учетной записи обнимающихся лиц

  1. Зарегистрируйтесь и получите токен
    • Посетите сайт Hugging Face, чтобы зарегистрироваться или войти в систему.
    • существовать Страница модели Sesame CSM-1B Нажмите на "Доступ к хранилищу" и примите условия.
    • Генерация API-токенов: нажмите на свой аватар в правом верхнем углу -> Настройки -> Жетоны -> Новый токен.
  2. Установочный токен
    • Способ 1: Введите в терминале:
      export HF_TOKEN="你的令牌"
      
    • Метод 2: Модификация voice_clone.py найдите файл os.environ["HF_TOKEN"]Заполните маркер.

Подготовка аудиообразцов

  1. Запись аудио
    • Запишите четкий 2-3-минутный аудиоклип, желательно без посторонних шумов.
    • Сохраните в формате MP3 или WAV, например. sample.mp3.
  2. Транскрипция текста
    • расход или издержки Шепот или другой инструмент для расшифровки аудиозаписей, записывая точный текст (например, "Hello, this is my test audio").

Основные функции

Клон носителя языка (вычислительная техника)

  1. Редактирование параметров
    • показать (билет) voice_clone.py файл, измените следующее:
      • context_audio_path = "sample.mp3"(аудиодорожка).
      • context_text = "你好,这是我的测试音频"(транскрибированный текст).
      • text = "今天天气很好"(текст, который будет создан).
      • output_filename = "output.wav"(имя выходного файла).
  2. программа бега
    • Введите его в терминал:
      python voice_clone.py
      
    • Созданный звук сохраняется в папке проекта.

Облачное клонирование голоса (Modal)

  1. Редактирование параметров
    • показать (билет) modal_voice_cloning.py файл, задавая те же параметры, что и локальный:
      • context_audio_path = "sample.mp3".
      • context_text = "你好,这是我的测试音频".
      • text = "今天天气很好".
      • output_filename = "output.wav".
  2. программа бега
    • Введите его в терминал:
      modal run modal_voice_cloning.py
      
    • Modal будет использовать облачный GPU для обработки задачи и загружать выходной файл по завершении.

Настройка длины последовательности моделей

  • Если аудиосэмпл длинный (более 2-3 минут), могут возникнуть ошибки тензорной размерности.
  • Решение:
    1. показать (билет) models.py Документация.
    2. найти llama3_2_1B() функция, изменяющая max_seq_len Параметры:
      def llama3_2_1B():
      return llama3_2.llama3_2(max_seq_len=4096, ...)
      
    3. безопасный llama3_2_100M() значение не изменилось, сохраните его и запустите заново.

Функциональное управление

Ускорение облачных вычислений (Modal)

  • Modal предлагает облачные GPU для тех, у кого нет мощных локальных устройств.
  • Простой в использовании, просто установите Modal и запустите соответствующие скрипты для более быстрой, чем локальная, обработки.

Обработка длинных аудиозаписей

  • По умолчанию устанавливается для образцов длительностью до 2 минут 50 секунд.
  • Длинное аудио требует настройки max_seq_len(как описано выше), или зажмите образец до рекомендуемой длины.

Часто задаваемые вопросы

  • ошибка размерности тензора
    подниматься max_seq_len значения или сократить аудиосэмплы.
  • CUDA Out of Memory
    Используйте более короткие образцы или переключитесь на прогон облака Modal.
  • Загрузка модели не удалась
    Проверьте токены Hugging Face и сети, чтобы убедиться, что условия модели были приняты.

 

сценарий применения

  1. создание контента
    • Описание сцены
      Ведущие могут генерировать видеоповествование своим голосом. Загрузите аудиозапись самопрезентации, введите сценарий и создайте свой голос за считанные минуты, избавив себя от необходимости повторных записей.
  2. Образовательная поддержка
    • Описание сцены
      Преподаватель клонирует свой собственный голос и вводит лекции курса для создания учебного аудио. Студенты могут прослушивать их в любое время, что подходит для дистанционного обучения.
  3. разработка игр
    • Описание сцены
      Разработчики озвучивают игровых персонажей. Запишите несколько образцов, чтобы сгенерировать несколько фрагментов диалога для повышения реалистичности персонажа.

 

QA

  1. Какой длины должен быть аудиосэмпл?
    Рекомендуется 2-3 минуты. Слишком короткое время приводит к плохим результатам, слишком долгое - к изменению параметров.
  2. Почему созданный голос не очень похож на мой?
    Моделирование ограничено, сохраняя характеристики звука, но не идеально. Убедитесь, что образец чист, и попробуйте несколько раз с разными текстами.
  3. В чем разница между Modal и локальным запуском?
    Modal использует облачные GPU и является быстрым для пользователей без мощных устройств. Локальный запуск бесплатен, но требует хорошей видеокарты.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...