OpenVoice (MyShell): мгновенное клонирование речи на нескольких языках с несколькими примерами
Общее введение
OpenVoice - это универсальный метод клонирования голоса "на лету", который воспроизводит голос эталонного диктора и генерирует многоязычную речь, используя только короткие аудиоклипы диктора. Помимо воспроизведения тембра, OpenVoice позволяет точно контролировать стиль голоса, включая эмоции, акцент, ритм, паузы и интонацию.
Связанные с OpenVoice проекты преобразования текста в речь: https://github.com/myshell-ai/MeloTTS
Проект может обучать собственную речь, используя набор данных, но не имеет интерфейса для обучения. Он не похож на Instantaneous Speech Cloning и больше ориентирован на преобразование текста в речь с помощью стабильно обучаемой модели.
Список функций
Точное клонирование тона: OpenVoice может точно воспроизводить эталонные тона и генерировать речь на нескольких языках и с разными акцентами.
Гибкое управление стилем голоса: OpenVoice позволяет тонко управлять стилем голоса, включая эмоции, акцент, ритм, паузы и интонацию.
Клонирование межъязыковой речи с нуля: сгенерированная речь не обязательно должна быть на том же языке, что и эталонная, и не обязательно должна быть представлена в крупном многоязычном наборе обучающих данных.
Подвиг:
1. Точное клонирование тона. OpenVoice может точно клонировать эталонные тона и генерировать речь на нескольких языках и с разными акцентами.
2. Гибкий регулятор тембра. OpenVoice обеспечивает тонкий контроль над стилем голоса (например, эмоциями и акцентом), а также над другими стилистическими параметрами, включая ритм, паузы и интонацию.
3. клонирование межъязыковой речи с нулевой выборкой. Ни язык, на котором генерируется речь, ни язык, на который ссылается речь, не обязательно должны присутствовать в крупном многоязычном наборе данных для обучения дикторов.
Использование помощи
Подробные указания см. в инструкции по применению.
Пожалуйста, проверьте QA на часто задаваемые вопросы, мы будем регулярно обновлять список вопросов и ответов.
Применить в MyShell:Непосредственное использование сервисов мгновенного воспроизведения и синтеза речи (TTS).
Пример минимализма:Быстрое освоение OpenVoice без необходимости высокого качества.
Установка Linux:Только для исследователей и разработчиков.
Быстрое испытание в google colab
%cd /content!git clone -b dev https://github.com/camenduru/OpenVoice%cd /content/OpenVoice!apt -y install -qq aria2!aria2c --console-log-level=error -c -x 16 -s 16 -k 1M https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip -d /content -o checkpoints_1226.zip!unzip /content/checkpoints_1226.zip!pip install -q gradio==3.50.2 langid faster-whisper whisper-timestamped unidecode eng-to-ipa pypinyin cn2an!python openvoice_app.py --share
Применить в MyShell
Для большинства пользователей наиболее удобным способом использования бесплатных служб TTS и Live Voice Replication является работа непосредственно в MyShell.
Услуги TTS
Нажмите здесьи выполните следующие действия:

клонирование речи
Нажмите здесьи выполните следующие действия:

Пример минимализма
Для тех, кто хочет быстро попробовать OpenVoice и не требует слишком высокого качества или стабильности, вы можете перейти по любой из ссылок ниже:
Лептон А.И:https://www.lepton.ai/playground/openvoice
MySHell:https://app.myshell.ai/bot/z6Bvua/1702636181
Обнимающееся лицо:https://huggingface.co/spaces/myshell-ai/OpenVoice
Установка Linux
Этот раздел предназначен в первую очередь для разработчиков и исследователей, владеющих Linux, Python и PyTorch. Клонируйте этот репозиторий и выполните следующие действия:
conda create -n openvoice python=3.9
conda активировать openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .
От [здесь] загрузите контрольную точку, а затем распакуйте ее в контрольно-пропускные пункты файл (бумажный)
1. Гибкое управление стилем голоса:См. [demo_part1.ipynb]Узнайте, как OpenVoice управляет стилем клонированной речи.
2. Межъязыковое клонирование речи:Пожалуйста, обратитесь к [demo_part2.ipynb]Узнайте о демонстрации языков, видимых или не видимых в обучающем наборе MSML.
3. Демоверсия Gradio:Здесь мы предоставляем минимальную локальную симуляцию gradio. Если у вас возникли проблемы с демонстрацией gradio, мы настоятельно рекомендуем вам ознакомиться с demo_part1.ipynb
, иdemo_part2.ipynb
и [QnA] Используйте кнопку python -m openvoice_app --share
Запустите локальную демонстрацию gradio.
3. Расширенное руководство пользователя:Базовая модель речи может быть заменена любой моделью (любой язык, любой стиль), которую предпочитает пользователь. Как показано в демонстрационном примере, использование se_extractor.get_se
Методы извлечения вкраплений тона для новых базовых дикторов.
4. Предложение по созданию естественной речи:Существует множество доступных методов генерации естественной речи с помощью одного или нескольких динамиков TTS. Просто заменив базовую модель диктора на предпочитаемую модель, вы сможете довести естественность речи до желаемого уровня.
Учебник по локальному развертыванию OpenVoiceV2, процесс развертывания на Apple MacOs
Недавно проект OpenVoice обновил свою версию V2, новая модель стала более дружелюбной к китайским выводам, а тембр был несколько улучшен. На этот раз мы поделимся тем, как локально развернуть версию V2 OpenVoice в системе Apple MacOs.
Сначала загрузите zip-файл OpenVoiceV2:
OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699
Эта версия оптимизирована для MacOs, а громкость китайского голоса изменена.
После распаковки сначала скопируйте папку hub из HF_HOME в каталоге проекта в следующий каталог в вашей текущей системе:
/Users/当前用户名/.cache/huggingface
Это путь сохранения модели huggingface по умолчанию в системе Mac, если вы не скопируете его, вам придется загружать более десяти гигабайт модели для предварительного обучения с нуля, что очень хлопотно.
Затем вернитесь в корневой каталог проекта и введите команду:
conda create -n openvoice python=3.10
Создайте виртуальную среду с Python версии 3.10, обратите внимание, что версия может быть только 3.10.
Затем активируйте виртуальную среду:
conda activate openvoice
Система возвращается:
(base) ➜ OpenVoiceV2 git:(main) ✗ conda activate openvoice
(openvoice) ➜ OpenVoiceV2 git:(main) ✗
Указывает на успешную активацию.
Установка осуществляется через brew, так как для нижнего слоя требуется mecab:
brew install mecab
Начните установку зависимостей:
pip install -r requirements.txt
Поскольку OpenVoice отвечает только за извлечение фонем, преобразование речи также требует поддержки tts, и здесь основная зависимость лежит на модуле melo-tts.
Перейдите в каталог Melo:
(openvoice) ➜ OpenVoiceV2 git:(main) ✗ cd MeloTTS
(openvoice) ➜ MeloTTS git:(main) ✗
Установите зависимость MeloTTS:
pip install -e .
После успеха вам нужно скачать файл словаря отдельно:
python -m unidic download
Затем просто вернитесь в корневой каталог и запустите проект:
python app.py
Система возвращается:
(openvoice) ➜ OpenVoiceV2 git:(main) ✗ python app.py
Running on local URL: http://0.0.0.0:7860
IMPORTANT: You are using gradio version 3.48.0, however version 4.29.0 is available, please upgrade.
--------
To create a public link, set `share=True` in `launch()`.

На этом установка OpenVoice на MacOs завершена.
заключительные замечания
Одной из важнейших особенностей OpenVoice является способность выполнять межъязыковое клонирование с нулевым результатом. Он может клонировать голоса на языки, не включенные в набор обучающих данных, без необходимости предоставлять большие объемы данных для обучения дикторов на этих языках. Тем не менее, нулевое обучение обычно имеет более низкую точность для неизвестных категорий, особенно для сложных категорий, по сравнению с традиционным контролируемым обучением с богатыми мечеными данными. Опора на вспомогательную информацию может вносить шум и неточности, поэтому OpenVoice плохо работает для некоторых специфических тонов, и для решения таких проблем его необходимо точно настраивать для базовой модальности.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...