Hibiki: модель перевода речи в реальном времени, потоковый перевод, сохраняющий характеристики оригинального голоса

Общее введение

Hibiki - это высокоточная модель речевого перевода в реальном времени, разработанная компанией Kyutai Labs. В отличие от традиционных офлайн-переводчиков, Hibiki генерирует естественный речевой перевод на целевой язык и обеспечивает перевод текста в режиме реального времени по мере того, как пользователь говорит. Модель использует многопоточную архитектуру, которая одновременно обрабатывает входной речевой поток и генерирует целевую речь, обеспечивая последовательный и точный перевод. Hibiki выравнивает исходную и целевую речь и текст с помощью контролируемого обучения и использует синтетические методы генерации данных, чтобы обеспечить высокое качество перевода при ограниченном количестве реальных данных.

Hibiki опирается на контролируемое обучение с использованием выровненной исходной и целевой речи и текста одного и того же диктора. Из-за недостаточного количества таких данных мы полагаемся на синтетическую генерацию данных. Согласование на уровне слов между исходным и целевым транскриптами выполняется с помощью слабо контролируемого подхода контекстного выравнивания с использованием готовой системы машинного перевода MADLAD. Полученные правила выравнивания (слово появляется в целевом языке только тогда, когда его можно предсказать в исходном языке) применяются путем вставки тишины или синтеза целевой речи с помощью управляемого голосом TTS с учетом выравнивания.

Hibiki:实时语音翻译模型,保留原声特点的流式翻译

 

Список функций

  • перевод речи в реальном времени: Генерируйте естественный речевой перевод на целевой язык в режиме реального времени, пока пользователь говорит.
  • перевод текста: Обеспечивает перевод текста, синхронизированный с речью.
  • Многопоточная архитектура (вычислительная техника): Одновременно обрабатывает входной речевой поток и генерирует целевую речь для обеспечения последовательного и точного перевода.
  • высокая точностьОбеспечение высокого качества переводов с помощью методов контролируемого обучения и создания синтетических данных.
  • фонетический перенос: Дополнительная функция передачи голоса для более естественного перевода.

 

Использование помощи

Процесс установки

PyTorch

  1. монтаж moshi Упаковка:
    pip install -U moshi
    
  2. Загрузите файл примера:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Запустите перевод:
    python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
    
    • Необязательные параметры --cfg-coef Значение по умолчанию равно 1. Чем выше значение, тем ближе сгенерированная речь к оригинальной, поэтому рекомендуемое значение - 3.

MLX

  1. монтаж moshi_mlx пакет (требуется версия не ниже 0.2.1):
    pip install -U moshi_mlx
    
  2. Загрузите файл примера:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Запустите перевод:
    python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
    
    • Необязательные параметры --cfg-coef Значение по умолчанию равно 1. Чем выше значение, тем ближе сгенерированная речь к оригинальной, поэтому рекомендуемое значение - 3.

MLX-Swift

  • kyutai-labs/moshi-swift Репозиторий содержит реализацию MLX-Swift, которая работает на iPhone и была протестирована на iPhone 16 Pro. Обратите внимание, что этот код все еще находится в экспериментальной стадии.

Ржавчина

  1. входить hibiki-rs Каталог:
    cd hibiki-rs
    
  2. Загрузите файл примера:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Запустите перевод:
    cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
    
    • пользоваться --features cuda Запуск на графическом процессоре NVIDIA или использование --features metal Работает на компьютере Mac.

моделирование

Мы выпустили две модели для перевода с французского на английский:

  • Хибики 2B: Для PyTorch и MLX с 16 потоками RVQ.
  • Хибики 1B: Для PyTorch и MLX, с 8 потоками RVQ, идеально подходит для рассуждений на стороне устройства.

Список моделей:

  • Хибики 2B для PyTorch (bf16):kyutai/hibiki-2b-pytorch-bf16
  • Хибики 1B для PyTorch (bf16):kyutai/hibiki-1b-pytorch-bf16
  • Хибики 2B для MLX (bf16):kyutai/hibiki-2b-mlx-bf16
  • Хибики 1B для MLX (bf16):kyutai/hibiki-1b-mlx-bf16

Все модели выпущены под лицензией CC-BY 4.0.

Процесс использования

  1. модель грунтования: Запустите модель после завершения процесса установки.
  2. Входной голос: Ввод речи на исходном языке через микрофон.
  3. перевод в реальном времени: Hibiki генерирует речевой перевод на целевой язык в режиме реального времени и одновременно отображает текстовый перевод.
  4. Регулировка настроек: Настройте такие параметры, как передача голоса, для более естественного перевода.

Основные функции

  • перевод речи в реальном времени: После запуска модели введите свой голос прямо в микрофон, и Hibiki переведет его автоматически.
  • перевод текстаОдновременно с голосовым переводом Hibiki генерирует текстовый перевод, который отображается в интерфейсе.
  • фонетический перенос: Включите функцию передачи голоса в настройках, чтобы сделать переведенный голос более соответствующим естественному произношению целевого языка.

Подробная процедура работы

  1. модель грунтования: Запустите модель после завершения процесса установки, чтобы убедиться, что все зависимости были установлены правильно.
  2. Входной голос: Введите свой голос на исходном языке через микрофон, и Hibiki автоматически начнет перевод.
  3. Посмотреть результаты перевода: Просмотр в реальном времени сгенерированных речевых и текстовых переводов на целевой язык в интерфейсе.
  4. Регулировка настроек: Настройте такие функции, как передача голоса, в настройках, если это необходимо для оптимального перевода.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...