Операционный проект с открытым исходным кодом, объединяющий несколько передовых сервисов синтеза речи

Последние ресурсы по искусственному интеллектуОбновлено 11 месяцев назад Круг обмена ИИ

Общее введение

Open-VoiceCanvas - это платформа синтеза речи с открытым исходным кодом, разработанная командой ItusiAI. Она поддерживает более 50 языков, преобразует текст в естественную речь и позволяет клонировать индивидуальный голос, загрузив аудиозапись. Проект интегрирует речевые сервисы OpenAI TTS, AWS Polly и MiniMax, а также предлагает широкий выбор тембров и регулировку скорости речи. Код 100% имеет открытый исходный код и размещен на GitHub, где пользователи могут бесплатно скачивать и изменять его. Он также поддерживает логины Google и GitHub, а также платежи Stripe для легкой разблокировки расширенных функций. Этот инструмент подходит для разработчиков, создателей контента и обычных пользователей.

Список функций

Поддерживает преобразование текста в речь на более чем 50 языках.
Предлагает различные голосовые сервисы: OpenAI TTS (естественная речь), AWS Polly (мультиязычный), MiniMax (оптимизированный для китайского языка).
Поддерживает выбор мужского и женского голоса с регулируемой скоростью речи.
Функция клонирования звука позволяет пользователям загружать аудиозаписи для создания индивидуальных мелодий.
Поддержка загрузки текстовых файлов и аудиофайлов, обработка длинных текстов без давления.
Интегрированный вход в Google и GitHub, мультиязычный интерфейс и темные/светлые темы.
Через Stripe доступны услуги подписки, включая бесплатные пробные версии, ежемесячные/ежегодные платежи и выставление счетов за объем.

Использование помощи

Open-VoiceCanvas - это мощный инструмент с открытым исходным кодом. Здесь представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

Подготовка среды
Прежде чем приступить к работе, убедитесь, что на вашем компьютере установлены следующие инструменты:
- Git: для загрузки кода.
- Node.js (рекомендуется версия 18.x или выше): обеспечивает работу фронт-энда и бэк-энда.
- npm: инструмент управления пакетами для Node.js.
  Проверьте, установлен ли он:

git --version
node --version
npm --version

Если он отсутствует, вы можете перейти на официальный сайт, чтобы загрузить и установить его.

Клонирование кода
Откройте терминал и введите следующую команду, чтобы загрузить проект:

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Перейдите в каталог проектов:

cd Open-VoiceCanvas

Установка зависимостей
Выполните следующую команду для установки необходимых библиотек:

npm install

Если сеть медленная, используйте домашнее зеркало:

npm install --registry=https://registry.npmmirror.com

Настройка переменных среды
В корневом каталоге проекта создайте файл .env добавьте следующую конфигурацию (вам нужно заменить ее своим ключом):

# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Эти ключи необходимо получить на официальных сайтах соответствующих сервисов, таких как OpenAI, AWS, MiniMax, Neon, Stripe и GitHub/Google OAuth.

Запуск миграции базы данных
Настройте базу данных и запустите:

npx prisma migrate dev

Это инициализирует базу данных PostgreSQL.

процедура срабатывания
Введите следующую команду, чтобы запустить сервер разработки:

npm run dev

После запуска браузер получает доступ к http://localhost:3000Вы можете увидеть интерфейс.

Основные функции

преобразование текста в речь

Откройте веб-страницу, войдите в систему и перейдите на главный экран.
Введите текст в поле ввода текста, например, "Здравствуйте, сегодня среда".
Выберите язык (поддерживается более 50 языков, например, китайский, английский, японский и т.д.).
Выберите голосовой сервис: OpenAI TTS, AWS Polly или MiniMax.
Выберите тембр (мужской или женский, например, "nova" от OpenAI или "Joanna" от AWS).
Настройте скорость речи (диапазон 0,5-2,0, 1,0 - нормальная).
Нажмите "Generate", чтобы просмотреть аудио через несколько секунд.
Нажмите "Загрузить", чтобы сохранить файл в формате MP3.

клонирование звука

Перейдите на страницу "Клонирование звука".
Нажмите "Upload Audio" и выберите чистый 10-20-секундный аудиоклип (формат WAV или MP3).
Введите название мелодии, например "Мой голос".
Нажмите "Клонировать" и подождите 1-2 минуты, пока процесс не завершится.
После успешного клонирования новый тембр появится в списке тембров.
Вернитесь на страницу преобразования текста в речь, выберите Clone Tone и введите текст для генерации речи.

Обработка документов

Нажмите кнопку "Загрузить текстовый файл" на главном экране.
Выберите один .txt файл, содержимое автоматически загружается в поле ввода.
Генерируйте звук после установки языка, тембра и скорости речи.
Длинный текст автоматически сегментируется для обеспечения плавной генерации.

Подписка и вход

Нажмите "Войти" в правом верхнем углу и выберите авторизацию аккаунта Google или GitHub.
Войдите в систему, чтобы просмотреть квоты на персонажей и количество клонов.
Нажмите "Подписаться" и выберите бесплатный пробный, ежемесячный (оплата помесячно) или ежегодный (оплата ежегодно) план.
Введите свои платежные данные через Stripe и откройте дополнительные возможности после завершения подписки.

предостережение

Требования к звуку: Звук, используемый для клонирования, должен быть чистым и без фоновых шумов.
безопасность ключейНе отдавайте его. .env ключ в файле.
сетевые требования: Модели должны быть загружены для первого запуска, чтобы сеть была стабильной.
Техническая поддержка: Если у вас возникнут проблемы, вы можете подать заявку на GitHub.

Выполнив эти действия, вы сможете в полной мере использовать возможности Open-VoiceCanvas. Его открытый исходный код также позволяет разработчикам настраивать его, например, добавлять новые голосовые сервисы или изменять интерфейс.

сценарий применения

создание контента
Ведущие могут использовать его для создания многоязычного дикторского текста и экономии времени записи.
Описание сценария: пользователь YouTuber создает видеокомментарии на китайском и английском языках и напрямую загружает аудиозаписи для редактирования.
Образовательная поддержка
Преподаватели переводят учебники в речь, чтобы создать обучающее аудио.
Описание сценария: Преподаватель английского языка загружает текст и генерирует аудиозаписи с американским произношением, чтобы студенты могли потренироваться в прослушивании.
Персонализированные приложения
Разработчики клонируют собственные голоса, чтобы создать уникальных голосовых помощников.
Описание сценария: программист клонирует голос и интегрирует его в систему "умного дома", чтобы передавать погоду своим голосом.
рекреационное использование
Пользователи генерируют смешные голоса, чтобы поделиться ими с друзьями.
Сценарий: кто-то генерирует аудиозапись "С днем рождения" голосом своего друга в качестве подарка-сюрприза.

QA

Какие голосовые услуги поддерживаются?
Поддержка OpenAI TTS (естественная речь), AWS Polly (мультиязычный) и MiniMax (оптимизированный для китайского языка).
Что нужно, чтобы клонировать голос?
Нужно 10-20 секунд чистого звука в формате WAV или MP3 с минимальным количеством фонового шума.
В чем разница между бесплатной и платной версиями?
В бесплатной версии есть ограничения по количеству персонажей и клонов, в платной - больше квот и вариантов тональности.
Как устранить сбой при запуске?
Проверьте версию Node.js (рекомендуется 18.x), чтобы убедиться, что переменные окружения настроены правильно и зависимости полностью установлены.