OpenAI.fm: интерактивный демонстрационный инструмент, демонстрирующий речевые API OpenAI

Последние ресурсы по искусственному интеллектуОпубликовано 12 месяцев назад Круг обмена ИИ

116.9K 00

Общее введение

openai-fm - это проект с открытым исходным кодом, размещенный на GitHub и предназначенный для демонстрации возможностей OpenAI Text-to-Speech (TTS) API. Этот проект позволяет разработчикам наглядно ознакомиться с возможностями генерации речи OpenAI с помощью интерактивного веб-приложения. Оно было разработано с использованием фреймворка NextJS в сочетании с TailwindCSS и ShadcnUI для создания чистого и современного интерфейса. Пользователи могут вводить текст, выбирать различные голосовые и эмоциональные стили для генерации высококачественной речи. Код проекта полностью открыт, следуя лицензии MIT, разработчикам предлагается клонировать, изменять и вносить свой вклад в код. openai-fm подходит для разработчиков, чтобы быстро понять и протестировать речевой API OpenAI, особенно для сценариев разработки приложений, требующих речевой функциональности.

Адрес для демонстрации: https://www.openai.fm/

Список функций

Преобразование текста в речь: преобразование вводимого текста в естественную и плавную речь.
Несколько вариантов голосовой связи: Обеспечивает несколько вариантов голосовой связи для удовлетворения потребностей различных сценариев.
Управление эмоциональным стилем: поддерживает настройку эмоционального тона голоса, например, дружелюбный, серьезный и т.д.
Интерактивная презентация в реальном времени: генерация и воспроизведение речи в реальном времени через веб-интерфейс.
Функция совместного использования базы данных: поддержка подключения к базе данных PostgreSQL для сохранения и совместного использования сгенерированной речи.
Поддержка открытого исходного кода: предоставляется полный исходный код, что позволяет разработчикам настраивать и расширять функциональность.

Использование помощи

Процесс установки

Чтобы использовать openai-fm, сначала нужно клонировать проект и настроить окружение. Ниже приведены подробные шаги:

Получение ключа API
Посетите сайт OpenAI, чтобы зарегистрироваться или войти в свой аккаунт. На панели управления вашей учетной записью перейдите на страницу управления ключами API и нажмите на кнопку "Создать новый ключ", чтобы сгенерировать и сохранить ваш ключ OPENAI_API_KEYЭтот ключ используется для вызова речевого API OpenAI. Этот ключ используется для вызова речевого API OpenAI. примечание: ключ необходимо держать в секрете, чтобы избежать разглашения.
склад клонов
Откройте терминал и выполните следующую команду, чтобы клонировать репозиторий openai-fm:
```
git clone https://github.com/openai/openai-fm.git
```

Перейдите в каталог проектов:

cd openai-fm

Установка переменных окружения
Вы можете настроить его двумя способами OPENAI_API_KEY::
- глобальная настройка: Добавьте следующее в переменные окружения вашей системы OPENAI_API_KEY.
  - Linux/MacOS Пример:
```
export OPENAI_API_KEY=<你的API密钥>
```
  - Пользователи Windows могут добавить переменные окружения в системные настройки.
- Настройка в рамках проекта: Создать .env Документация, справочник .env.exampleДобавьте следующее:
```
OPENAI_API_KEY=<你的API密钥>
```
Установка зависимостей
Проект использует Node.js и npm для управления зависимостями. Убедитесь, что у вас установлен Node.js (рекомендуется версия 16 или выше). Запустите его из корневого каталога проекта:
```
npm install
```
Это позволит установить необходимые зависимости, такие как NextJS, TailwindCSS, ShadcnUI и так далее.
(Необязательно) База данных конфигурации
Если вам нужно использовать функцию совместного доступа, необходимо подключиться к базе данных PostgreSQL. В .env файл, чтобы добавить информацию о подключении к базе данных, см. .env.example::
```
POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
```
Убедитесь, что служба PostgreSQL запущена и что создана соответствующая база данных. Если вы не используете функцию совместного доступа, этот шаг можно пропустить.
Текущие проекты
После завершения установки выполните следующую команду, чтобы запустить сервер разработки:
```
npm run dev
```
Откройте браузер и посетите http://localhost:3000Вы можете увидеть интерактивный интерфейс openai-fm.

Основные функции

Основу openai-fm составляет интерактивная демонстрация преобразования текста в речь. Вот процесс:

текст ввода
Введите текст, который вы хотите преобразовать в речь, в текстовое поле веб-интерфейса. Поддерживает несколько строк текста, подходит для длинных диалогов или сценариев. Пример:
```
你好！这是一个测试，展示如何将文本转为自然语音。
```
Выбор голоса и эмоций
В интерфейсе есть выпадающие меню, в которых перечислены доступные варианты голоса (например, мужской, женский) и эмоциональные стили (например, дружелюбный, серьезный). Эти варианты основаны на data/voices.json ответить пением data/vibes.json Конфигурация файла. Выбрав его, нажмите кнопку "Generate", и система вызовет OpenAI Speech API для генерации звука.
Воспроизведение и загрузка
Сгенерированное аудио автоматически воспроизводится на странице. Вы также можете скачать аудиофайл, который по умолчанию сохраняется в формате WAV и хранится в каталоге проекта в папке output/ папку, с именами файлов, начинающимися с openaifm_ Начало и отметка времени.
Функция разделения
Если настроена база данных PostgreSQL, сгенерированный голос можно сохранить в базе данных и создать ссылку для общего доступа. Нажав на кнопку "Поделиться", вы получите доступный URL-адрес, по которому другие пользователи смогут просмотреть и воспроизвести ваш голос.

Персонализация разработчика

openai-fm - это проект с открытым исходным кодом, разработчики могут изменять код по мере необходимости. Например:

Добавить новый голос:: Редакция data/voices.jsonДобавление новых голосовых конфигураций.
Настройка интерфейса: Модифицируйте компоненты NextJS (например. pages/index.js) или стили TailwindCSS.
Расширенная функциональность: Добавьте новые вызовы API или интегрируйте другие сервисы.

Чтобы внести свой вклад, сделайте форк репозитория, создайте ветку и отправьте запрос на выгрузку; перед тем как вносить свой вклад, ознакомьтесь с правилами проекта, чтобы убедиться, что ваш код соответствует требованиям. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

предостережение

Плата за API: Использование речевого API OpenAI связано с определенными расходами, которые зависят от объема использования. Пожалуйста, следите за квотой API на панели OpenAI.
безопасность: При развертывании на общедоступном сервере убедитесь, что .env файл не публикуется, чтобы предотвратить утечку ключей API.
Поддержка общества: Если у вас возникли проблемы, напишите об этом на GitHub, и сообщество поможет вам.

сценарий применения

Разработчики тестируют голосовой API
Разработчики могут использовать openai-fm для быстрого тестирования эффективности OpenAI Speech API, проверки работы различных стилей речи и эмоций, а также для оптимизации решений по интеграции приложений.
Производство контента для образования и обучения
Преподаватели и тренеры могут преобразовывать сценарии курсов в речь для создания естественного, плавного звука для использования в онлайн-курсах или обучающих видео.
Средства обеспечения доступности
openai-fm генерирует голосовое чтение для слабовидящих пользователей, чтобы помочь им получить доступ к текстовой информации.
Создание креативного контента
Продюсеры подкастов или создатели контента могут использовать openai-fm для генерации персонализированных голосов и быстрого создания образцов для прослушивания.

QA

Нужно ли мне платить за openai-fm?
Сам проект бесплатный, но для использования OpenAI Speech API требуется действительный ключ API и плата в зависимости от использования. Мы рекомендуем ознакомиться с информацией о ценах на официальном сайте OpenAI.
Как добавить новую голосовую опцию?
Отредактируйте каталог проекта в data/voices.json файл, чтобы добавить новую конфигурацию голоса. После перезапуска сервера новый голос появится в раскрывающемся меню.
Нужно ли использовать базу данных для функции совместного доступа?
Да, функция совместного доступа требует поддержки базы данных PostgreSQL. Если вы не настроите базу данных, вы все равно сможете генерировать и воспроизводить речь в обычном режиме.
Можно ли использовать openai-fm на мобильном?
Веб-интерфейс openai-fm поддерживает отзывчивый дизайн и может быть доступен в мобильных браузерах при наличии стабильного интернет-соединения.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct