Операционный проект с открытым исходным кодом, объединяющий несколько передовых сервисов синтеза речи
Общее введение
Open-VoiceCanvas - это платформа синтеза речи с открытым исходным кодом, разработанная командой ItusiAI. Она поддерживает более 50 языков, преобразует текст в естественную речь и позволяет клонировать индивидуальный голос, загрузив аудиозапись. Проект интегрирует речевые сервисы OpenAI TTS, AWS Polly и MiniMax, а также предлагает широкий выбор тембров и регулировку скорости речи. Код 100% имеет открытый исходный код и размещен на GitHub, где пользователи могут бесплатно скачивать и изменять его. Он также поддерживает логины Google и GitHub, а также платежи Stripe для легкой разблокировки расширенных функций. Этот инструмент подходит для разработчиков, создателей контента и обычных пользователей.

Список функций
- Поддерживает преобразование текста в речь на более чем 50 языках.
- Предлагает различные голосовые сервисы: OpenAI TTS (естественная речь), AWS Polly (мультиязычный), MiniMax (оптимизированный для китайского языка).
- Поддерживает выбор мужского и женского голоса с регулируемой скоростью речи.
- Функция клонирования звука позволяет пользователям загружать аудиозаписи для создания индивидуальных мелодий.
- Поддержка загрузки текстовых файлов и аудиофайлов, обработка длинных текстов без давления.
- Интегрированный вход в Google и GitHub, мультиязычный интерфейс и темные/светлые темы.
- Через Stripe доступны услуги подписки, включая бесплатные пробные версии, ежемесячные/ежегодные платежи и выставление счетов за объем.
Использование помощи
Open-VoiceCanvas - это мощный инструмент с открытым исходным кодом. Здесь представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.
Процесс установки
- Подготовка среды
Прежде чем приступить к работе, убедитесь, что на вашем компьютере установлены следующие инструменты:- Git: для загрузки кода.
- Node.js (рекомендуется версия 18.x или выше): обеспечивает работу фронт-энда и бэк-энда.
- npm: инструмент управления пакетами для Node.js.
Проверьте, установлен ли он:
git --version
node --version
npm --version
Если он отсутствует, вы можете перейти на официальный сайт, чтобы загрузить и установить его.
- Клонирование кода
Откройте терминал и введите следующую команду, чтобы загрузить проект:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
Перейдите в каталог проектов:
cd Open-VoiceCanvas
- Установка зависимостей
Выполните следующую команду для установки необходимых библиотек:
npm install
Если сеть медленная, используйте домашнее зеркало:
npm install --registry=https://registry.npmmirror.com
- Настройка переменных среды
В корневом каталоге проекта создайте файл.env
добавьте следующую конфигурацию (вам нужно заменить ее своим ключом):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
Эти ключи необходимо получить на официальных сайтах соответствующих сервисов, таких как OpenAI, AWS, MiniMax, Neon, Stripe и GitHub/Google OAuth.
- Запуск миграции базы данных
Настройте базу данных и запустите:
npx prisma migrate dev
Это инициализирует базу данных PostgreSQL.
- процедура срабатывания
Введите следующую команду, чтобы запустить сервер разработки:
npm run dev
После запуска браузер получает доступ к http://localhost:3000
Вы можете увидеть интерфейс.
Основные функции
преобразование текста в речь
- Откройте веб-страницу, войдите в систему и перейдите на главный экран.
- Введите текст в поле ввода текста, например, "Здравствуйте, сегодня среда".
- Выберите язык (поддерживается более 50 языков, например, китайский, английский, японский и т.д.).
- Выберите голосовой сервис: OpenAI TTS, AWS Polly или MiniMax.
- Выберите тембр (мужской или женский, например, "nova" от OpenAI или "Joanna" от AWS).
- Настройте скорость речи (диапазон 0,5-2,0, 1,0 - нормальная).
- Нажмите "Generate", чтобы просмотреть аудио через несколько секунд.
- Нажмите "Загрузить", чтобы сохранить файл в формате MP3.
клонирование звука
- Перейдите на страницу "Клонирование звука".
- Нажмите "Upload Audio" и выберите чистый 10-20-секундный аудиоклип (формат WAV или MP3).
- Введите название мелодии, например "Мой голос".
- Нажмите "Клонировать" и подождите 1-2 минуты, пока процесс не завершится.
- После успешного клонирования новый тембр появится в списке тембров.
- Вернитесь на страницу преобразования текста в речь, выберите Clone Tone и введите текст для генерации речи.
Обработка документов
- Нажмите кнопку "Загрузить текстовый файл" на главном экране.
- Выберите один
.txt
файл, содержимое автоматически загружается в поле ввода. - Генерируйте звук после установки языка, тембра и скорости речи.
- Длинный текст автоматически сегментируется для обеспечения плавной генерации.
Подписка и вход
- Нажмите "Войти" в правом верхнем углу и выберите авторизацию аккаунта Google или GitHub.
- Войдите в систему, чтобы просмотреть квоты на персонажей и количество клонов.
- Нажмите "Подписаться" и выберите бесплатный пробный, ежемесячный (оплата помесячно) или ежегодный (оплата ежегодно) план.
- Введите свои платежные данные через Stripe и откройте дополнительные возможности после завершения подписки.
предостережение
- Требования к звуку: Звук, используемый для клонирования, должен быть чистым и без фоновых шумов.
- безопасность ключейНе отдавайте его.
.env
ключ в файле. - сетевые требования: Модели должны быть загружены для первого запуска, чтобы сеть была стабильной.
- Техническая поддержка: Если у вас возникнут проблемы, вы можете подать заявку на GitHub.
Выполнив эти действия, вы сможете в полной мере использовать возможности Open-VoiceCanvas. Его открытый исходный код также позволяет разработчикам настраивать его, например, добавлять новые голосовые сервисы или изменять интерфейс.
сценарий применения
- создание контента
Ведущие могут использовать его для создания многоязычного дикторского текста и экономии времени записи.
Описание сценария: пользователь YouTuber создает видеокомментарии на китайском и английском языках и напрямую загружает аудиозаписи для редактирования. - Образовательная поддержка
Преподаватели переводят учебники в речь, чтобы создать обучающее аудио.
Описание сценария: Преподаватель английского языка загружает текст и генерирует аудиозаписи с американским произношением, чтобы студенты могли потренироваться в прослушивании. - Персонализированные приложения
Разработчики клонируют собственные голоса, чтобы создать уникальных голосовых помощников.
Описание сценария: программист клонирует голос и интегрирует его в систему "умного дома", чтобы передавать погоду своим голосом. - рекреационное использование
Пользователи генерируют смешные голоса, чтобы поделиться ими с друзьями.
Сценарий: кто-то генерирует аудиозапись "С днем рождения" голосом своего друга в качестве подарка-сюрприза.
QA
- Какие голосовые услуги поддерживаются?
Поддержка OpenAI TTS (естественная речь), AWS Polly (мультиязычный) и MiniMax (оптимизированный для китайского языка). - Что нужно, чтобы клонировать голос?
Нужно 10-20 секунд чистого звука в формате WAV или MP3 с минимальным количеством фонового шума. - В чем разница между бесплатной и платной версиями?
В бесплатной версии есть ограничения по количеству персонажей и клонов, в платной - больше квот и вариантов тональности. - Как устранить сбой при запуске?
Проверьте версию Node.js (рекомендуется 18.x), чтобы убедиться, что переменные окружения настроены правильно и зависимости полностью установлены.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...