MLX-Audio: инструмент преобразования текста в речь на основе MLX Framework от Apple
Общее введение
MLX-Audio - это инструмент с открытым исходным кодом, разработанный на базе фреймворка Apple MLX и ориентированный на преобразование текста в речь (TTS) и речи в речь (STS). Он использует вычислительную мощность Apple Silicon, таких как чипы серии M, для создания эффективных и быстрых решений для синтеза речи. Будь то преобразование текста в естественную, плавную речь или генерация нового аудио на основе существующей речи, MLX-Audio может сделать все. Разработанный на GitHub пользователем Blaizzy (Prince Canuma), инструмент призван предоставить разработчикам, исследователям и индивидуальным пользователям высокопроизводительный инструмент для генерации речи под управлением macOS. Проект с открытым исходным кодом, пользователи могут свободно загружать, изменять и вносить свой вклад в код, что делает его идеальным для сценариев, требующих локальной обработки речи.
Список функций
- Передача текста в речь (TTS): Быстро преобразует введенный текст в естественную речь, поддерживая широкий выбор моделей.
- Переход от речи к речи (STS): Генерирование нового аудиоконтента на основе имеющихся образцов речи.
- Эффективное рассуждение: Оптимизирован для Apple Silicon, обеспечивая высокую производительность генерации речи.
- Поддержка нескольких моделей: Поддерживает множество предварительно обученных моделей синтеза речи для удовлетворения различных потребностей.
- Персонализация с открытым исходным кодом: Предоставляется полный исходный код, и пользователи могут настроить функциональность или оптимизировать модель в соответствии со своими потребностями.
- локальная операция: Нет необходимости полагаться на облако, все операции можно выполнять на личных устройствах для защиты конфиденциальности.
Использование помощи
Процесс установки
MLX-Audio - это инструмент на базе Python с простым процессом установки, который опирается на код из репозиториев GitHub и некоторые необходимые библиотеки Python. Ниже приведены подробные шаги по установке:
- Обеспечить готовность окружающей среды
- Системные требования: macOS (рекомендуется для устройств с чипами серии M, такими как M1, M2 и т. д.).
- Установите Python 3.8 или более позднюю версию (рекомендуется Homebrew):
brew install python
). - Установите Git (для клонирования репозиториев):
brew install git
.
- Клон MLX-Audio Warehouse
Откройте терминал и введите следующую команду, чтобы загрузить исходный код:git clone https://github.com/Blaizzy/mlx-audio.git
После завершения загрузки перейдите в каталог проекта:
cd mlx-audio
- Установка зависимостей
Проекты обычно предоставляютrequirements.txt
файл, в котором перечислены необходимые библиотеки Python. Выполните следующую команду, чтобы установить их:pip install -r requirements.txt
Если у вас нет этого файла, обратитесь к официальному README, общие зависимости могут включать
mlx
(фреймворк машинного обучения Apple) и библиотеки для обработки звука, такие какnumpy
возможноsoundfile
. - Проверка установки
После завершения установки запустите простую тестовую команду, чтобы убедиться, что среда настроена правильно:python -m mlx_audio.tts.generate --text "Hello, world"
В случае успеха вы услышите сгенерированную речь, или же в текущей директории будет создан аудиофайл.
Как использовать MLX-Audio
MLX-Audio предоставляет два способа использования интерфейса командной строки (CLI) и сценария Python, и ниже приводится подробное описание работы основных функций.
Передача текста в речь (TTS)
Это основная функция MLX-Audio для преобразования текста в речь.
- процедура::
- Подготовленный текст: Определите, какой текст вы хотите преобразовать, например, "Hello, welcome to the MLX-Audio experience".
- Выполнить команду: Введите его в терминале:
python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
--text
: Указывает текст для ввода.--output
: Укажите имя выходного аудиофайла (необязательно, по умолчанию файл будет создан в текущем каталоге).
- Результаты проверки: После выполнения команды сгенерированный аудиофайл (напр.
welcome.wav
) будет сохранен в текущем каталоге и открыт с помощью плеера для прослушивания голоса.
- Дополнительные параметры::
- Укажите модель: если поддерживается несколько моделей, их можно указать с помощью параметра
--model
Выбор параметров, например:python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
- Настройка скорости или высоты тона речи: в зависимости от README или описания кода могут поддерживаться дополнительные параметры (например.
--speed
возможно--pitch
), в зависимости от реализации.
- Укажите модель: если поддерживается несколько моделей, их можно указать с помощью параметра
Переход от речи к речи (STS)
Эта функция позволяет пользователям генерировать новый голосовой контент на основе существующего аудио.
- процедура::
- Подготовка входного аудиосигнала: Убедитесь, что у вас есть аудиофайл в формате WAV (например.
input.wav
), которые могут быть записаны на мобильный телефон или получены из других источников. - Выполнить команду: Введите следующую команду:
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
--input
: Указывает путь к входному аудиофайлу.--output
: Указывает путь к выходному файлу.
- Результаты проверки: Сгенерированный новый звук сохраняется как
output.wav
Вы можете проверить эффект с помощью проигрывателя.
- Подготовка входного аудиосигнала: Убедитесь, что у вас есть аудиофайл в формате WAV (например.
- предостережение::
- Качество входного звука влияет на выходной, поэтому рекомендуется использовать чистую запись.
- Если вам необходимо настроить сгенерированное содержимое, могут потребоваться дополнительные параметры, см. проектную документацию.
Пользовательская разработка
Поскольку MLX-Audio является проектом с открытым исходным кодом, пользователи могут модифицировать код для достижения большего количества функций.
- перейти::
- Откройте папку проекта и с помощью текстового редактора (например, VS Code) просмотрите файл
mlx_audio
Файлы Python в каталоге. - При необходимости измените код, например, добавьте поддержку новых речевых моделей или настройте логику генерации.
- Сохраните и запустите тест:
python your_script.py
- Откройте папку проекта и с помощью текстового редактора (например, VS Code) просмотрите файл
Детали функционального потока операций
Быстрое генерирование речи
- взять: Вы хотите быстро проверить действие инструмента.
- рабочие процессы::
- Откройте терминал и перейдите в раздел
mlx-audio
Каталог. - Введите простую команду TTS:
python -m mlx_audio.tts.generate --text "测试语音生成"
- Подождите несколько секунд (в зависимости от длины текста и производительности устройства), и аудиофайл будет сгенерирован автоматически.
- Откройте терминал и перейдите в раздел
- в конце концов: Создать аудиофайл с именем по умолчанию (например.
output.wav
), просто воспроизведите его напрямую.
Работа с длинными текстами
- взять: Необходимо преобразовать статью в речь.
- рабочие процессы::
- Сохраните текст в виде файла (например.
text.txt
), содержание может состоять из нескольких абзацев. - Используйте команду для чтения файла:
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
--file
: Укажите путь к текстовому файлу (проверьте, поддерживает ли проект этот параметр, если нет, используйте Python-скрипт для чтения файла и его вызова).
- Проверьте сгенерированный
article.wav
При этом голос должен быть естественным и беглым.
- Сохраните текст в виде файла (например.
Пакетная генерация
- взять: Необходимо генерировать речь для нескольких текстов.
- рабочие процессы::
- Напишите простой сценарий на Python (например.
batch_generate.py
):from mlx_audio.tts import generate texts = ["文本1", "文本2", "文本3"] for i, text in enumerate(texts): generate(text=text, output=f"output_{i}.wav")
- Запустите скрипт:
python batch_generate.py
- Проверьте наличие нескольких созданных аудиофайлов.
- Напишите простой сценарий на Python (например.
наконечник
- оптимизация производительности: При работе на кремниевых устройствах серии M убедитесь, что никакие другие высоконагруженные задачи не занимают ресурсы для достижения оптимальной скорости.
- Проблемы отладки: Если вы столкнулись с ошибкой (например, отсутствующей зависимостью), проверьте вывод терминала и следуйте подсказкам, чтобы установить отсутствующую библиотеку.
- Поддержка общества: Если функциональность не ясна, отправьте проблему на GitHub или ознакомьтесь с существующим обсуждением.
Выполнив эти действия, пользователи смогут легко начать работу с MLX-Audio, независимо от того, генерируют ли они простую речь или разрабатывают сложные приложения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...