MLX-Audio: инструмент преобразования текста в речь на основе MLX Framework от Apple

Общее введение

MLX-Audio - это инструмент с открытым исходным кодом, разработанный на базе фреймворка Apple MLX и ориентированный на преобразование текста в речь (TTS) и речи в речь (STS). Он использует вычислительную мощность Apple Silicon, таких как чипы серии M, для создания эффективных и быстрых решений для синтеза речи. Будь то преобразование текста в естественную, плавную речь или генерация нового аудио на основе существующей речи, MLX-Audio может сделать все. Разработанный на GitHub пользователем Blaizzy (Prince Canuma), инструмент призван предоставить разработчикам, исследователям и индивидуальным пользователям высокопроизводительный инструмент для генерации речи под управлением macOS. Проект с открытым исходным кодом, пользователи могут свободно загружать, изменять и вносить свой вклад в код, что делает его идеальным для сценариев, требующих локальной обработки речи.

 

Список функций

  • Передача текста в речь (TTS): Быстро преобразует введенный текст в естественную речь, поддерживая широкий выбор моделей.
  • Переход от речи к речи (STS): Генерирование нового аудиоконтента на основе имеющихся образцов речи.
  • Эффективное рассуждение: Оптимизирован для Apple Silicon, обеспечивая высокую производительность генерации речи.
  • Поддержка нескольких моделей: Поддерживает множество предварительно обученных моделей синтеза речи для удовлетворения различных потребностей.
  • Персонализация с открытым исходным кодом: Предоставляется полный исходный код, и пользователи могут настроить функциональность или оптимизировать модель в соответствии со своими потребностями.
  • локальная операция: Нет необходимости полагаться на облако, все операции можно выполнять на личных устройствах для защиты конфиденциальности.

 

Использование помощи

Процесс установки

MLX-Audio - это инструмент на базе Python с простым процессом установки, который опирается на код из репозиториев GitHub и некоторые необходимые библиотеки Python. Ниже приведены подробные шаги по установке:

  1. Обеспечить готовность окружающей среды
    • Системные требования: macOS (рекомендуется для устройств с чипами серии M, такими как M1, M2 и т. д.).
    • Установите Python 3.8 или более позднюю версию (рекомендуется Homebrew):brew install python).
    • Установите Git (для клонирования репозиториев):brew install git.
  2. Клон MLX-Audio Warehouse
    Откройте терминал и введите следующую команду, чтобы загрузить исходный код:

    git clone https://github.com/Blaizzy/mlx-audio.git

После завершения загрузки перейдите в каталог проекта:

cd mlx-audio
  1. Установка зависимостей
    Проекты обычно предоставляют requirements.txt файл, в котором перечислены необходимые библиотеки Python. Выполните следующую команду, чтобы установить их:

    pip install -r requirements.txt
    

    Если у вас нет этого файла, обратитесь к официальному README, общие зависимости могут включать mlx(фреймворк машинного обучения Apple) и библиотеки для обработки звука, такие как numpy возможно soundfile.

  2. Проверка установки
    После завершения установки запустите простую тестовую команду, чтобы убедиться, что среда настроена правильно:

    python -m mlx_audio.tts.generate --text "Hello, world"
    

    В случае успеха вы услышите сгенерированную речь, или же в текущей директории будет создан аудиофайл.

Как использовать MLX-Audio

MLX-Audio предоставляет два способа использования интерфейса командной строки (CLI) и сценария Python, и ниже приводится подробное описание работы основных функций.

Передача текста в речь (TTS)

Это основная функция MLX-Audio для преобразования текста в речь.

  • процедура::
    1. Подготовленный текст: Определите, какой текст вы хотите преобразовать, например, "Hello, welcome to the MLX-Audio experience".
    2. Выполнить команду: Введите его в терминале:
      python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
      
      • --text: Указывает текст для ввода.
      • --output: Укажите имя выходного аудиофайла (необязательно, по умолчанию файл будет создан в текущем каталоге).
    3. Результаты проверки: После выполнения команды сгенерированный аудиофайл (напр. welcome.wav) будет сохранен в текущем каталоге и открыт с помощью плеера для прослушивания голоса.
  • Дополнительные параметры::
    • Укажите модель: если поддерживается несколько моделей, их можно указать с помощью параметра --model Выбор параметров, например:
      python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
      
    • Настройка скорости или высоты тона речи: в зависимости от README или описания кода могут поддерживаться дополнительные параметры (например. --speed возможно --pitch), в зависимости от реализации.

Переход от речи к речи (STS)

Эта функция позволяет пользователям генерировать новый голосовой контент на основе существующего аудио.

  • процедура::
    1. Подготовка входного аудиосигнала: Убедитесь, что у вас есть аудиофайл в формате WAV (например. input.wav), которые могут быть записаны на мобильный телефон или получены из других источников.
    2. Выполнить команду: Введите следующую команду:
      python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
      
      • --input: Указывает путь к входному аудиофайлу.
      • --output: Указывает путь к выходному файлу.
    3. Результаты проверки: Сгенерированный новый звук сохраняется как output.wavВы можете проверить эффект с помощью проигрывателя.
  • предостережение::
    • Качество входного звука влияет на выходной, поэтому рекомендуется использовать чистую запись.
    • Если вам необходимо настроить сгенерированное содержимое, могут потребоваться дополнительные параметры, см. проектную документацию.

Пользовательская разработка

Поскольку MLX-Audio является проектом с открытым исходным кодом, пользователи могут модифицировать код для достижения большего количества функций.

  • перейти::
    1. Откройте папку проекта и с помощью текстового редактора (например, VS Code) просмотрите файл mlx_audio Файлы Python в каталоге.
    2. При необходимости измените код, например, добавьте поддержку новых речевых моделей или настройте логику генерации.
    3. Сохраните и запустите тест:
      python your_script.py
      

Детали функционального потока операций

Быстрое генерирование речи

  • взять: Вы хотите быстро проверить действие инструмента.
  • рабочие процессы::
    1. Откройте терминал и перейдите в раздел mlx-audio Каталог.
    2. Введите простую команду TTS:
      python -m mlx_audio.tts.generate --text "测试语音生成"
      
    3. Подождите несколько секунд (в зависимости от длины текста и производительности устройства), и аудиофайл будет сгенерирован автоматически.
  • в конце концов: Создать аудиофайл с именем по умолчанию (например. output.wav), просто воспроизведите его напрямую.

Работа с длинными текстами

  • взять: Необходимо преобразовать статью в речь.
  • рабочие процессы::
    1. Сохраните текст в виде файла (например. text.txt), содержание может состоять из нескольких абзацев.
    2. Используйте команду для чтения файла:
      python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
      
      • --file: Укажите путь к текстовому файлу (проверьте, поддерживает ли проект этот параметр, если нет, используйте Python-скрипт для чтения файла и его вызова).
    3. Проверьте сгенерированный article.wavПри этом голос должен быть естественным и беглым.

Пакетная генерация

  • взять: Необходимо генерировать речь для нескольких текстов.
  • рабочие процессы::
    1. Напишите простой сценарий на Python (например. batch_generate.py):
      from mlx_audio.tts import generate
      texts = ["文本1", "文本2", "文本3"]
      for i, text in enumerate(texts):
      generate(text=text, output=f"output_{i}.wav")
      
    2. Запустите скрипт:
      python batch_generate.py
      
    3. Проверьте наличие нескольких созданных аудиофайлов.

наконечник

  • оптимизация производительности: При работе на кремниевых устройствах серии M убедитесь, что никакие другие высоконагруженные задачи не занимают ресурсы для достижения оптимальной скорости.
  • Проблемы отладки: Если вы столкнулись с ошибкой (например, отсутствующей зависимостью), проверьте вывод терминала и следуйте подсказкам, чтобы установить отсутствующую библиотеку.
  • Поддержка общества: Если функциональность не ясна, отправьте проблему на GitHub или ознакомьтесь с существующим обсуждением.

Выполнив эти действия, пользователи смогут легко начать работу с MLX-Audio, независимо от того, генерируют ли они простую речь или разрабатывают сложные приложения.

© заявление об авторских правах

Похожие статьи

Paper Reviewer:自动生成arXiv论文的综合评审并转化为博客文章

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...