OpenAI Edge TTS: бесплатный API преобразования текста в речь с помощью Edge TTS, совместимый с форматами OpenAI.

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

71.2K 00

Общее введение

OpenAI Edge TTS - это проект с открытым исходным кодом, который предоставляет OpenAI-совместимый API для преобразования текста в речь (TTS), который использует онлайн-сервис преобразования текста Microsoft Edge, чтобы позволить пользователям генерировать высококачественную речь. OpenAI Edge TTS поддерживает широкий спектр опций речи и скоростей воспроизведения, а также способен генерировать широкий спектр аудиоформатов. OpenAI Edge TTS поддерживает широкий спектр вариантов речи и скоростей воспроизведения, а также способен генерировать множество аудиоформатов. Сервис может быть развернут через Docker или Python для быстрого и удобного доступа.

OpenAI Edge TTS：利用 Edge TTS 的免费文本转语音API，兼容 OpenAI 格式

Список функций

Совместимые с OpenAI конечные точки: Поддерживает ту же структуру запросов и поведение, что и конечные точки OpenAI TTS.
Поддержка нескольких голосов: Сопоставление речи OpenAI с речью, эквивалентной Edge TTS.
Гибкие аудиоформаты: Поддерживает MP3, Opus, AAC, FLAC, WAV, PCM и многие другие аудиоформаты.
Регулируемая скорость воспроизведения: Скорость воспроизведения можно регулировать в диапазоне от 0,25x до 4,0x.
Прямой выбор голоса Edge TTS: Любой голос Edge TTS может быть задан с помощью голосового сопоставления OpenAI или напрямую.

Использование помощи

Процесс установки

Развертывание с помощью Docker (рекомендуется)

склад клонов::

   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

Создание файла переменной среды: Создать в корневом каталоге проекта .env файл, содержащий следующие переменные:

   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True

Запуск Docker Compose::

   docker compose up --build

Для работы в фоновом режиме используйте -d Параметры:

   docker compose up -d

Развертывание с помощью Python

склад клонов::

   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

Настройка виртуальной среды::

   python3 -m venv venv
source venv/bin/activate

Установка зависимостей::

   pip install -r requirements.txt

Создание файла переменной среды: Создать в корневом каталоге проекта .env файл, содержащий указанные выше переменные.
Операционный сервер::

   python app/main.py

Инструкция по применению

Доступ к API: После завершения развертывания сервер будет запущен http://localhost:5050Доступ к конечной точке API можно получить, отправив HTTP-запрос. Доступ к конечным точкам API можно получить, отправив HTTP-запрос по адресу /v1/audio/speech.
Создайте речь: отправляет POST-запрос на /v1/audio/speechТело запроса содержит следующие данные в формате JSON:

   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}

Регулировка скорости воспроизведения: Модификация speed параметр, варьирующийся от 0,25 до 4,0.
Выберите голос: Использование voice Параметр задает голос, поддерживаются следующие голоса alloy, echo, fable, onyx, nova, shimmer и т.д.
аудиоформат: Использование format Параметр задает аудиоформат, который поддерживает mp3, opus, aac, flac, wav, pcm и т.д.