OpenVoice (MyShell): мгновенное клонирование речи на нескольких языках с несколькими примерами

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

143.3K 00

Общее введение

OpenVoice - это универсальный метод клонирования голоса "на лету", который воспроизводит голос эталонного диктора и генерирует многоязычную речь, используя только короткие аудиоклипы диктора. Помимо воспроизведения тембра, OpenVoice позволяет точно контролировать стиль голоса, включая эмоции, акцент, ритм, паузы и интонацию.

Связанные с OpenVoice проекты преобразования текста в речь: https://github.com/myshell-ai/MeloTTS

Проект может обучать собственную речь, используя набор данных, но не имеет интерфейса для обучения. Он не похож на Instantaneous Speech Cloning и больше ориентирован на преобразование текста в речь с помощью стабильно обучаемой модели.

Список функций

Точное клонирование тона: OpenVoice может точно воспроизводить эталонные тона и генерировать речь на нескольких языках и с разными акцентами.
Гибкое управление стилем голоса: OpenVoice позволяет тонко управлять стилем голоса, включая эмоции, акцент, ритм, паузы и интонацию.
Клонирование межъязыковой речи с нуля: сгенерированная речь не обязательно должна быть на том же языке, что и эталонная, и не обязательно должна быть представлена в крупном многоязычном наборе обучающих данных.

Подвиг:

1. Точное клонирование тона. OpenVoice может точно клонировать эталонные тона и генерировать речь на нескольких языках и с разными акцентами.

2. Гибкий регулятор тембра. OpenVoice обеспечивает тонкий контроль над стилем голоса (например, эмоциями и акцентом), а также над другими стилистическими параметрами, включая ритм, паузы и интонацию.

3. клонирование межъязыковой речи с нулевой выборкой. Ни язык, на котором генерируется речь, ни язык, на который ссылается речь, не обязательно должны присутствовать в крупном многоязычном наборе данных для обучения дикторов.

Использование помощи

Подробные указания см. в инструкции по применению.
Пожалуйста, проверьте QA на часто задаваемые вопросы, мы будем регулярно обновлять список вопросов и ответов.

Применить в MyShell:Непосредственное использование сервисов мгновенного воспроизведения и синтеза речи (TTS).
Пример минимализма:Быстрое освоение OpenVoice без необходимости высокого качества.
Установка Linux:Только для исследователей и разработчиков.

Быстрое испытание в google colab

%cd /content!git clone -b dev https://github.com/camenduru/OpenVoice%cd /content/OpenVoice!apt -y install -qq aria2!aria2c --console-log-level=error -c -x 16 -s 16 -k 1M https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip -d /content -o checkpoints_1226.zip!unzip /content/checkpoints_1226.zip!pip install -q gradio==3.50.2 langid faster-whisper whisper-timestamped unidecode eng-to-ipa pypinyin cn2an!python openvoice_app.py --share

Применить в MyShell

Для большинства пользователей наиболее удобным способом использования бесплатных служб TTS и Live Voice Replication является работа непосредственно в MyShell.

Услуги TTS

Нажмите здесьи выполните следующие действия:

клонирование речи

Нажмите здесьи выполните следующие действия:

Пример минимализма

Для тех, кто хочет быстро попробовать OpenVoice и не требует слишком высокого качества или стабильности, вы можете перейти по любой из ссылок ниже:

Лептон А.И:https://www.lepton.ai/playground/openvoice

MySHell:https://app.myshell.ai/bot/z6Bvua/1702636181

Обнимающееся лицо:https://huggingface.co/spaces/myshell-ai/OpenVoice

Установка Linux

Этот раздел предназначен в первую очередь для разработчиков и исследователей, владеющих Linux, Python и PyTorch. Клонируйте этот репозиторий и выполните следующие действия:

conda create -n openvoice python=3.9
conda активировать openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

От [здесь] загрузите контрольную точку, а затем распакуйте ее в контрольно-пропускные пункты файл (бумажный)

1. Гибкое управление стилем голоса:См. [demo_part1.ipynb]Узнайте, как OpenVoice управляет стилем клонированной речи.

2. Межъязыковое клонирование речи:Пожалуйста, обратитесь к [demo_part2.ipynb]Узнайте о демонстрации языков, видимых или не видимых в обучающем наборе MSML.

3. Демоверсия Gradio:Здесь мы предоставляем минимальную локальную симуляцию gradio. Если у вас возникли проблемы с демонстрацией gradio, мы настоятельно рекомендуем вам ознакомиться с demo_part1.ipynb, иdemo_part2.ipynb и [QnA] Используйте кнопку python -m openvoice_app --share Запустите локальную демонстрацию gradio.

3. Расширенное руководство пользователя:Базовая модель речи может быть заменена любой моделью (любой язык, любой стиль), которую предпочитает пользователь. Как показано в демонстрационном примере, использование se_extractor.get_se Методы извлечения вкраплений тона для новых базовых дикторов.

4. Предложение по созданию естественной речи:Существует множество доступных методов генерации естественной речи с помощью одного или нескольких динамиков TTS. Просто заменив базовую модель диктора на предпочитаемую модель, вы сможете довести естественность речи до желаемого уровня.

Учебник по локальному развертыванию OpenVoiceV2, процесс развертывания на Apple MacOs

Недавно проект OpenVoice обновил свою версию V2, новая модель стала более дружелюбной к китайским выводам, а тембр был несколько улучшен. На этот раз мы поделимся тем, как локально развернуть версию V2 OpenVoice в системе Apple MacOs.

Сначала загрузите zip-файл OpenVoiceV2:

OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699

Эта версия оптимизирована для MacOs, а громкость китайского голоса изменена.

После распаковки сначала скопируйте папку hub из HF_HOME в каталоге проекта в следующий каталог в вашей текущей системе:

/Users/当前用户名/.cache/huggingface

Это путь сохранения модели huggingface по умолчанию в системе Mac, если вы не скопируете его, вам придется загружать более десяти гигабайт модели для предварительного обучения с нуля, что очень хлопотно.

Затем вернитесь в корневой каталог проекта и введите команду:

conda create -n openvoice python=3.10

Создайте виртуальную среду с Python версии 3.10, обратите внимание, что версия может быть только 3.10.

Затем активируйте виртуальную среду:

conda activate openvoice

Система возвращается:

(base) ➜  OpenVoiceV2 git:(main) ✗ conda activate openvoice  
(openvoice) ➜  OpenVoiceV2 git:(main) ✗

Указывает на успешную активацию.

Установка осуществляется через brew, так как для нижнего слоя требуется mecab:

brew install mecab

Начните установку зависимостей:

pip install -r requirements.txt

Поскольку OpenVoice отвечает только за извлечение фонем, преобразование речи также требует поддержки tts, и здесь основная зависимость лежит на модуле melo-tts.

Перейдите в каталог Melo:

(openvoice) ➜  OpenVoiceV2 git:(main) ✗ cd MeloTTS   
(openvoice) ➜  MeloTTS git:(main) ✗

Установите зависимость MeloTTS:

pip install -e .

После успеха вам нужно скачать файл словаря отдельно:

python -m unidic download

Затем просто вернитесь в корневой каталог и запустите проект:

python app.py

Система возвращается:

(openvoice) ➜  OpenVoiceV2 git:(main) ✗ python app.py   
Running on local URL:  http://0.0.0.0:7860  
IMPORTANT: You are using gradio version 3.48.0, however version 4.29.0 is available, please upgrade.  
--------  
To create a public link, set `share=True` in `launch()`.

На этом установка OpenVoice на MacOs завершена.

заключительные замечания

Одной из важнейших особенностей OpenVoice является способность выполнять межъязыковое клонирование с нулевым результатом. Он может клонировать голоса на языки, не включенные в набор обучающих данных, без необходимости предоставлять большие объемы данных для обучения дикторов на этих языках. Тем не менее, нулевое обучение обычно имеет более низкую точность для неизвестных категорий, особенно для сложных категорий, по сравнению с традиционным контролируемым обучением с богатыми мечеными данными. Опора на вспомогательную информацию может вносить шум и неточности, поэтому OpenVoice плохо работает для некоторых специфических тонов, и для решения таких проблем его необходимо точно настраивать для базовой модальности.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Клонирование голоса AI

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

Последние ресурсы по искусственному интеллекту

2 минуты назад

029.3K

EyeLevel（GroundX）：多模态企业文档数据处理平台，从RAG源头消除LLMs幻觉

EyeLevel (GroundX): мультимодальная платформа обработки данных корпоративных документов, которая устраняет иллюзию LLM из источника RAG

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

049.4K

3MinTop: 3-минутное чтение с помощью искусственного интеллекта, быстрое понимание сути книги для воспитания привычки к чтению

Последние ресурсы по искусственному интеллекту # Инструмент для обобщения текстов и аудио/видео с использованием искусственного интеллекта # AI Помощник по повышению эффективности жизни

1 год назад

048.5K

Zed: высокопроизводительный многопользовательский редактор кода для совместной работы, разработанный Rust

Последние ресурсы по искусственному интеллекту # AI IDE # AI Java Open Source Projecct # Программирование искусственного интеллекта

1 год назад

057.7K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

OpenVoice (MyShell): мгновенное клонирование речи на нескольких языках с несколькими примерами

Общее введение

Список функций

Подвиг:

Использование помощи

Применить в MyShell

Услуги TTS

клонирование речи

Пример минимализма

Установка Linux

Учебник по локальному развертыванию OpenVoiceV2, процесс развертывания на Apple MacOs

заключительные замечания

Leonardo AI (Леонардо): ведущая платформа для создания изображений с помощью искусственного интеллекта, китайские учебники Leonardo

Getimg: универсальный творческий набор AI для создания и редактирования изображений

Похожие посты

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

EyeLevel (GroundX): мультимодальная платформа обработки данных корпоративных документов, которая устраняет иллюзию LLM из источника RAG

3MinTop: 3-минутное чтение с помощью искусственного интеллекта, быстрое понимание сути книги для воспитания привычки к чтению

Zed: высокопроизводительный многопользовательский редактор кода для совместной работы, разработанный Rust

Нет комментариев

Последние коллекции

Последние статьи

OpenVoice (MyShell): мгновенное клонирование речи на нескольких языках с несколькими примерами

Общее введение

Список функций

Подвиг:

Использование помощи

Применить в MyShell

Услуги TTS

клонирование речи

Пример минимализма

Установка Linux

Учебник по локальному развертыванию OpenVoiceV2, процесс развертывания на Apple MacOs

заключительные замечания

Leonardo AI (Леонардо): ведущая платформа для создания изображений с помощью искусственного интеллекта, китайские учебники Leonardo

Getimg: универсальный творческий набор AI для создания и редактирования изображений

Похожие посты

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

EyeLevel (GroundX): мультимодальная платформа обработки данных корпоративных документов, которая устраняет иллюзию LLM из источника RAG

3MinTop: 3-минутное чтение с помощью искусственного интеллекта, быстрое понимание сути книги для воспитания привычки к чтению

Zed: высокопроизводительный многопользовательский редактор кода для совместной работы, разработанный Rust

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи