Операционный проект с открытым исходным кодом, объединяющий несколько передовых сервисов синтеза речи

Общее введение

Open-VoiceCanvas - это платформа синтеза речи с открытым исходным кодом, разработанная командой ItusiAI. Она поддерживает более 50 языков, преобразует текст в естественную речь и позволяет клонировать индивидуальный голос, загрузив аудиозапись. Проект интегрирует речевые сервисы OpenAI TTS, AWS Polly и MiniMax, а также предлагает широкий выбор тембров и регулировку скорости речи. Код 100% имеет открытый исходный код и размещен на GitHub, где пользователи могут бесплатно скачивать и изменять его. Он также поддерживает логины Google и GitHub, а также платежи Stripe для легкой разблокировки расширенных функций. Этот инструмент подходит для разработчиков, создателей контента и обычных пользователей.

集成多种先进语音合成服务的开源运营项目

 

Список функций

  • Поддерживает преобразование текста в речь на более чем 50 языках.
  • Предлагает различные голосовые сервисы: OpenAI TTS (естественная речь), AWS Polly (мультиязычный), MiniMax (оптимизированный для китайского языка).
  • Поддерживает выбор мужского и женского голоса с регулируемой скоростью речи.
  • Функция клонирования звука позволяет пользователям загружать аудиозаписи для создания индивидуальных мелодий.
  • Поддержка загрузки текстовых файлов и аудиофайлов, обработка длинных текстов без давления.
  • Интегрированный вход в Google и GitHub, мультиязычный интерфейс и темные/светлые темы.
  • Через Stripe доступны услуги подписки, включая бесплатные пробные версии, ежемесячные/ежегодные платежи и выставление счетов за объем.

 

Использование помощи

Open-VoiceCanvas - это мощный инструмент с открытым исходным кодом. Здесь представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

  1. Подготовка среды
    Прежде чем приступить к работе, убедитесь, что на вашем компьютере установлены следующие инструменты:

    • Git: для загрузки кода.
    • Node.js (рекомендуется версия 18.x или выше): обеспечивает работу фронт-энда и бэк-энда.
    • npm: инструмент управления пакетами для Node.js.
      Проверьте, установлен ли он:
git --version
node --version
npm --version

Если он отсутствует, вы можете перейти на официальный сайт, чтобы загрузить и установить его.

  1. Клонирование кода
    Откройте терминал и введите следующую команду, чтобы загрузить проект:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Перейдите в каталог проектов:

cd Open-VoiceCanvas
  1. Установка зависимостей
    Выполните следующую команду для установки необходимых библиотек:
npm install

Если сеть медленная, используйте домашнее зеркало:

npm install --registry=https://registry.npmmirror.com
  1. Настройка переменных среды
    В корневом каталоге проекта создайте файл .env добавьте следующую конфигурацию (вам нужно заменить ее своим ключом):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Эти ключи необходимо получить на официальных сайтах соответствующих сервисов, таких как OpenAI, AWS, MiniMax, Neon, Stripe и GitHub/Google OAuth.

  1. Запуск миграции базы данных
    Настройте базу данных и запустите:
npx prisma migrate dev

Это инициализирует базу данных PostgreSQL.

  1. процедура срабатывания
    Введите следующую команду, чтобы запустить сервер разработки:
npm run dev

После запуска браузер получает доступ к http://localhost:3000Вы можете увидеть интерфейс.

Основные функции

преобразование текста в речь

  1. Откройте веб-страницу, войдите в систему и перейдите на главный экран.
  2. Введите текст в поле ввода текста, например, "Здравствуйте, сегодня среда".
  3. Выберите язык (поддерживается более 50 языков, например, китайский, английский, японский и т.д.).
  4. Выберите голосовой сервис: OpenAI TTS, AWS Polly или MiniMax.
  5. Выберите тембр (мужской или женский, например, "nova" от OpenAI или "Joanna" от AWS).
  6. Настройте скорость речи (диапазон 0,5-2,0, 1,0 - нормальная).
  7. Нажмите "Generate", чтобы просмотреть аудио через несколько секунд.
  8. Нажмите "Загрузить", чтобы сохранить файл в формате MP3.

клонирование звука

  1. Перейдите на страницу "Клонирование звука".
  2. Нажмите "Upload Audio" и выберите чистый 10-20-секундный аудиоклип (формат WAV или MP3).
  3. Введите название мелодии, например "Мой голос".
  4. Нажмите "Клонировать" и подождите 1-2 минуты, пока процесс не завершится.
  5. После успешного клонирования новый тембр появится в списке тембров.
  6. Вернитесь на страницу преобразования текста в речь, выберите Clone Tone и введите текст для генерации речи.

Обработка документов

  1. Нажмите кнопку "Загрузить текстовый файл" на главном экране.
  2. Выберите один .txt файл, содержимое автоматически загружается в поле ввода.
  3. Генерируйте звук после установки языка, тембра и скорости речи.
  4. Длинный текст автоматически сегментируется для обеспечения плавной генерации.

Подписка и вход

  1. Нажмите "Войти" в правом верхнем углу и выберите авторизацию аккаунта Google или GitHub.
  2. Войдите в систему, чтобы просмотреть квоты на персонажей и количество клонов.
  3. Нажмите "Подписаться" и выберите бесплатный пробный, ежемесячный (оплата помесячно) или ежегодный (оплата ежегодно) план.
  4. Введите свои платежные данные через Stripe и откройте дополнительные возможности после завершения подписки.

предостережение

  • Требования к звуку: Звук, используемый для клонирования, должен быть чистым и без фоновых шумов.
  • безопасность ключейНе отдавайте его. .env ключ в файле.
  • сетевые требования: Модели должны быть загружены для первого запуска, чтобы сеть была стабильной.
  • Техническая поддержка: Если у вас возникнут проблемы, вы можете подать заявку на GitHub.

Выполнив эти действия, вы сможете в полной мере использовать возможности Open-VoiceCanvas. Его открытый исходный код также позволяет разработчикам настраивать его, например, добавлять новые голосовые сервисы или изменять интерфейс.

 

сценарий применения

  1. создание контента
    Ведущие могут использовать его для создания многоязычного дикторского текста и экономии времени записи.
    Описание сценария: пользователь YouTuber создает видеокомментарии на китайском и английском языках и напрямую загружает аудиозаписи для редактирования.
  2. Образовательная поддержка
    Преподаватели переводят учебники в речь, чтобы создать обучающее аудио.
    Описание сценария: Преподаватель английского языка загружает текст и генерирует аудиозаписи с американским произношением, чтобы студенты могли потренироваться в прослушивании.
  3. Персонализированные приложения
    Разработчики клонируют собственные голоса, чтобы создать уникальных голосовых помощников.
    Описание сценария: программист клонирует голос и интегрирует его в систему "умного дома", чтобы передавать погоду своим голосом.
  4. рекреационное использование
    Пользователи генерируют смешные голоса, чтобы поделиться ими с друзьями.
    Сценарий: кто-то генерирует аудиозапись "С днем рождения" голосом своего друга в качестве подарка-сюрприза.

 

QA

  1. Какие голосовые услуги поддерживаются?
    Поддержка OpenAI TTS (естественная речь), AWS Polly (мультиязычный) и MiniMax (оптимизированный для китайского языка).
  2. Что нужно, чтобы клонировать голос?
    Нужно 10-20 секунд чистого звука в формате WAV или MP3 с минимальным количеством фонового шума.
  3. В чем разница между бесплатной и платной версиями?
    В бесплатной версии есть ограничения по количеству персонажей и клонов, в платной - больше квот и вариантов тональности.
  4. Как устранить сбой при запуске?
    Проверьте версию Node.js (рекомендуется 18.x), чтобы убедиться, что переменные окружения настроены правильно и зависимости полностью установлены.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...