MLX-Audio: инструмент преобразования текста в речь на основе MLX Framework от Apple

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

98.9K 00

Общее введение

MLX-Audio - это инструмент с открытым исходным кодом, разработанный на базе фреймворка Apple MLX и ориентированный на преобразование текста в речь (TTS) и речи в речь (STS). Он использует вычислительную мощность Apple Silicon, таких как чипы серии M, для создания эффективных и быстрых решений для синтеза речи. Будь то преобразование текста в естественную, плавную речь или генерация нового аудио на основе существующей речи, MLX-Audio может сделать все. Разработанный на GitHub пользователем Blaizzy (Prince Canuma), инструмент призван предоставить разработчикам, исследователям и индивидуальным пользователям высокопроизводительный инструмент для генерации речи под управлением macOS. Проект с открытым исходным кодом, пользователи могут свободно загружать, изменять и вносить свой вклад в код, что делает его идеальным для сценариев, требующих локальной обработки речи.

Список функций

Передача текста в речь (TTS): Быстро преобразует введенный текст в естественную речь, поддерживая широкий выбор моделей.
Переход от речи к речи (STS): Генерирование нового аудиоконтента на основе имеющихся образцов речи.
Эффективное рассуждение: Оптимизирован для Apple Silicon, обеспечивая высокую производительность генерации речи.
Поддержка нескольких моделей: Поддерживает множество предварительно обученных моделей синтеза речи для удовлетворения различных потребностей.
Персонализация с открытым исходным кодом: Предоставляется полный исходный код, и пользователи могут настроить функциональность или оптимизировать модель в соответствии со своими потребностями.
локальная операция: Нет необходимости полагаться на облако, все операции можно выполнять на личных устройствах для защиты конфиденциальности.

Использование помощи

Процесс установки

MLX-Audio - это инструмент на базе Python с простым процессом установки, который опирается на код из репозиториев GitHub и некоторые необходимые библиотеки Python. Ниже приведены подробные шаги по установке:

Обеспечить готовность окружающей среды
- Системные требования: macOS (рекомендуется для устройств с чипами серии M, такими как M1, M2 и т. д.).
- Установите Python 3.8 или более позднюю версию (рекомендуется Homebrew):brew install python).
- Установите Git (для клонирования репозиториев):brew install git.
Клон MLX-Audio Warehouse
Откройте терминал и введите следующую команду, чтобы загрузить исходный код:
```
git clone https://github.com/Blaizzy/mlx-audio.git
```

После завершения загрузки перейдите в каталог проекта:

cd mlx-audio

Установка зависимостей
Проекты обычно предоставляют requirements.txt файл, в котором перечислены необходимые библиотеки Python. Выполните следующую команду, чтобы установить их:
```
pip install -r requirements.txt
```
Если у вас нет этого файла, обратитесь к официальному README, общие зависимости могут включать mlx(фреймворк машинного обучения Apple) и библиотеки для обработки звука, такие как numpy возможно soundfile.
Проверка установки
После завершения установки запустите простую тестовую команду, чтобы убедиться, что среда настроена правильно:
```
python -m mlx_audio.tts.generate --text "Hello, world"
```
В случае успеха вы услышите сгенерированную речь, или же в текущей директории будет создан аудиофайл.

Как использовать MLX-Audio

MLX-Audio предоставляет два способа использования интерфейса командной строки (CLI) и сценария Python, и ниже приводится подробное описание работы основных функций.

Передача текста в речь (TTS)

Это основная функция MLX-Audio для преобразования текста в речь.

процедура::
1. Подготовленный текст: Определите, какой текст вы хотите преобразовать, например, "Hello, welcome to the MLX-Audio experience".
2. Выполнить команду: Введите его в терминале:
```
python -m mlx_audio.tts.generate --text "你好，欢迎体验 MLX-Audio" --output "welcome.wav"
```
  - --text: Указывает текст для ввода.
  - --output: Укажите имя выходного аудиофайла (необязательно, по умолчанию файл будет создан в текущем каталоге).
3. Результаты проверки: После выполнения команды сгенерированный аудиофайл (напр. welcome.wav) будет сохранен в текущем каталоге и открыт с помощью плеера для прослушивания голоса.
Дополнительные параметры::
- Укажите модель: если поддерживается несколько моделей, их можно указать с помощью параметра --model Выбор параметров, например:
```
python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
```
- Настройка скорости или высоты тона речи: в зависимости от README или описания кода могут поддерживаться дополнительные параметры (например. --speed возможно --pitch), в зависимости от реализации.

Переход от речи к речи (STS)

Эта функция позволяет пользователям генерировать новый голосовой контент на основе существующего аудио.

процедура::
1. Подготовка входного аудиосигнала: Убедитесь, что у вас есть аудиофайл в формате WAV (например. input.wav), которые могут быть записаны на мобильный телефон или получены из других источников.
2. Выполнить команду: Введите следующую команду:
```
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
```
  - --input: Указывает путь к входному аудиофайлу.
  - --output: Указывает путь к выходному файлу.
3. Результаты проверки: Сгенерированный новый звук сохраняется как output.wavВы можете проверить эффект с помощью проигрывателя.
предостережение::
- Качество входного звука влияет на выходной, поэтому рекомендуется использовать чистую запись.
- Если вам необходимо настроить сгенерированное содержимое, могут потребоваться дополнительные параметры, см. проектную документацию.

Пользовательская разработка

Поскольку MLX-Audio является проектом с открытым исходным кодом, пользователи могут модифицировать код для достижения большего количества функций.

перейти::
1. Откройте папку проекта и с помощью текстового редактора (например, VS Code) просмотрите файл mlx_audio Файлы Python в каталоге.
2. При необходимости измените код, например, добавьте поддержку новых речевых моделей или настройте логику генерации.
3. Сохраните и запустите тест:
```
python your_script.py
```

Детали функционального потока операций

Быстрое генерирование речи

взять: Вы хотите быстро проверить действие инструмента.
рабочие процессы::
1. Откройте терминал и перейдите в раздел mlx-audio Каталог.
2. Введите простую команду TTS:
```
python -m mlx_audio.tts.generate --text "测试语音生成"
```
3. Подождите несколько секунд (в зависимости от длины текста и производительности устройства), и аудиофайл будет сгенерирован автоматически.
в конце концов: Создать аудиофайл с именем по умолчанию (например. output.wav), просто воспроизведите его напрямую.

Работа с длинными текстами

взять: Необходимо преобразовать статью в речь.
рабочие процессы::
1. Сохраните текст в виде файла (например. text.txt), содержание может состоять из нескольких абзацев.
2. Используйте команду для чтения файла:
```
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
```
  - --file: Укажите путь к текстовому файлу (проверьте, поддерживает ли проект этот параметр, если нет, используйте Python-скрипт для чтения файла и его вызова).
3. Проверьте сгенерированный article.wavПри этом голос должен быть естественным и беглым.

Пакетная генерация

взять: Необходимо генерировать речь для нескольких текстов.
рабочие процессы::
1. Напишите простой сценарий на Python (например. batch_generate.py):
```
from mlx_audio.tts import generate
texts = ["文本1", "文本2", "文本3"]
for i, text in enumerate(texts):
generate(text=text, output=f"output_{i}.wav")
```
2. Запустите скрипт:
```
python batch_generate.py
```
3. Проверьте наличие нескольких созданных аудиофайлов.

наконечник

оптимизация производительности: При работе на кремниевых устройствах серии M убедитесь, что никакие другие высоконагруженные задачи не занимают ресурсы для достижения оптимальной скорости.
Проблемы отладки: Если вы столкнулись с ошибкой (например, отсутствующей зависимостью), проверьте вывод терминала и следуйте подсказкам, чтобы установить отсутствующую библиотеку.
Поддержка общества: Если функциональность не ясна, отправьте проблему на GitHub или ознакомьтесь с существующим обсуждением.

Выполнив эти действия, пользователи смогут легко начать работу с MLX-Audio, независимо от того, генерируют ли они простую речь или разрабатывают сложные приложения.