Text2Voice: графический интерфейс преобразования текста в речь на основе кремниевых потоковых API

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

57.2K 00

Общее введение

Text2Voice - это инструмент с открытым исходным кодом, который обеспечивает функцию преобразования текста в речь на основе API мобильности на базе кремния и имеет чистый графический интерфейс пользователя (GUI), что является его лучшей особенностью. Он был создан разработчиком Шелдоном Ли на GitHub, чтобы позволить пользователям легко превращать текст в речь с помощью интерфейса. Проект разработан на языке Python и использует фреймворк PyQt6 для создания интуитивно понятного интерфейса. По своей сути проект использует API для преобразования текста в звуковую речь в режиме реального времени, с поддержкой нескольких языков, таких как китайский и английский, а также возможностью выбора различных тонов. Код открыт, любой может скачать, запустить или изменить, подходит для людей, которые хотят быстро генерировать речь или разработчиков. Проект имеет стабильную версию, практические функции, вы можете приступить к работе после установки.

Список функций

Преобразование китайского, английского и других многоязычных текстов в речь с помощью графического интерфейса.
Предоставляет широкий выбор голосовых мелодий.
Поддерживает управление воспроизведением аудио в реальном времени, включая воспроизведение, паузу и остановку.
Отображает простое и красивое графическое окно управления.
Автоматическое управление создаваемыми аудиофайлами.
Поддержка сегментации длинного текста в речь.

Использование помощи

Text2Voice опирается на Python и API Silicon Flow, поэтому перед его использованием необходимо установить среду и настроить ключ. Ниже приведены подробные шаги, которые помогут вам быстро начать работу.

Процесс установки

Подготовка системного окружения
Убедитесь, что ваш компьютер соответствует требованиям: Windows, macOS или Linux, 2 ГБ или более оперативной памяти и стабильное интернет-соединение.
- Установка Python: доступ https://www.python.org/Если вы хотите установить Python, загрузите версию 3.8 или выше, а во время установки установите флажок "Добавить Python в PATH".
- Установка Git: посещение https://git-scm.com/Загрузите и установите.
Скачать код проекта
Откройте терминал (CMD для Windows, Terminal для Mac/Linux) и запустите его:

git clone https://github.com/axdlee/text2voice.git

Затем перейдите в каталог проекта:

cd text2voice

Настройка виртуальной среды (рекомендуется)
Создайте и активируйте виртуальные среды, чтобы избежать конфликтов зависимостей:

python -m venv venv

Окна.
```
venv\Scripts\activate
```
Mac/Linux.
```
source venv/bin/activate
```

Установка зависимостей
Зависимости проекта перечислены в requirements.txt в разделе "Установка", выполните следующую команду для установки:

pip install -r requirements.txt

Это позволит установить необходимые библиотеки, такие как PyQt6, Requests, Pygame и так далее.

Настройка ключей API
В корневом каталоге проекта создайте файл .env файл со следующим содержимым:

SILICON_API_KEY=你的API密钥

Ключ API следует получить на сайте Silicon Mobility, заполнить и сохранить.

программа бега
Введите его в терминал:

python main.py

Когда программа запускается, появляется графический интерфейс.

Как использовать основные функции

Запуск графического интерфейса
быть в движении python main.py После этого вы увидите окно с полем ввода текста и кнопками управления.
Установка ключа API
Нажмите на кнопку "Настройки" в интерфейсе, введите .env Сохраните ключ API Silicon Mobility в файле, чтобы сохранить настройки.
текст ввода
Введите или вставьте текст, который вы хотите преобразовать в речь, в текстовое поле, например, "Привет, это тест".
Выбор тона
Выберите тон голоса из выпадающего меню, например мужской или женский (точные параметры определяются API).
преобразование в речь
Нажмите на кнопку "Преобразовать в речь", и программа обработает текст с помощью Silicon Mobility API для создания звука.
Воспроизвести аудио
После завершения конвертирования воспользуйтесь кнопкой "Play" на интерфейсе, чтобы прослушать аудиозапись, которая может управляться кнопками "Pause" или "Stop".

Основные функции Процедура работы

Преобразование сегментации длинного текста с помощью графического интерфейса
Если текст превышает 5000 слов, программа автоматически обработает его по сегментам. Введите полный текст прямо в интерфейс, нажмите кнопку "Преобразовать в голос", и программа будет генерировать звук сегмент за сегментом. Вы можете использовать кнопку воспроизведения для прослушивания каждого сегмента.
Управление аудиофайлами
Созданный звук временно сохраняется в temp папка. Эти файлы автоматически удаляются при выходе из программы. Если вы хотите сохранить их, перед выходом можно вручную переместить их в другое место.
Управление воспроизведением в реальном времени
Конвертированное аудио поддерживает работу в режиме реального времени. Нажмите кнопку "Play", чтобы начать прослушивание, и "Pause" или "Stop" в любое время, все операции выполняются в графическом интерфейсе.

предостережение

Сеть должна быть стабильной, поскольку ее функциональность зависит от API мобильности на базе кремния.
Во избежание ошибок API рекомендуется, чтобы одно преобразование не превышало 5000 символов.
Ключи API должны храниться в секрете и не распространяться публично.
Если интерфейс не отвечает, проверьте правильность ключа, сети и зависимостей.

Выполнив эти действия, вы сможете преобразовать текст в речь с помощью графического интерфейса Text2Voice. Разработчики также могут модифицировать код для настройки интерфейса или функциональности.

сценарий применения

Учебные пособия
Преобразование текста в речь с графическим интерфейсом для удобства прослушивания и обучения.
создание контента
Генерируйте речь для видео или подкастов с помощью простой и экономной работы.
Поддержка доступности
Помогает людям с ослабленным зрением получать доступ к информации, преобразуя текст в речь с помощью интерфейса.

QA

Какие языки поддерживаются?
Поддерживаются несколько языков, в том числе китайский и английский, что определяется API Silicon Mobility.
Почему интерфейс не отвечает?
Это может быть ошибка API-ключа, проблема с сетью или неправильно установленная зависимость. Проверьте и повторите попытку.
Где хранятся аудиофайлы?
Временно хранится в temp папку, которая автоматически очищается после закрытия программы.