Hibiki: модель перевода речи в реальном времени, потоковый перевод, сохраняющий характеристики оригинального голоса
Общее введение
Hibiki - это высокоточная модель речевого перевода в реальном времени, разработанная компанией Kyutai Labs. В отличие от традиционных офлайн-переводчиков, Hibiki генерирует естественный речевой перевод на целевой язык и обеспечивает перевод текста в режиме реального времени по мере того, как пользователь говорит. Модель использует многопоточную архитектуру, которая одновременно обрабатывает входной речевой поток и генерирует целевую речь, обеспечивая последовательный и точный перевод. Hibiki выравнивает исходную и целевую речь и текст с помощью контролируемого обучения и использует синтетические методы генерации данных, чтобы обеспечить высокое качество перевода при ограниченном количестве реальных данных.
Hibiki опирается на контролируемое обучение с использованием выровненной исходной и целевой речи и текста одного и того же диктора. Из-за недостаточного количества таких данных мы полагаемся на синтетическую генерацию данных. Согласование на уровне слов между исходным и целевым транскриптами выполняется с помощью слабо контролируемого подхода контекстного выравнивания с использованием готовой системы машинного перевода MADLAD. Полученные правила выравнивания (слово появляется в целевом языке только тогда, когда его можно предсказать в исходном языке) применяются путем вставки тишины или синтеза целевой речи с помощью управляемого голосом TTS с учетом выравнивания.

Список функций
- перевод речи в реальном времени: Генерируйте естественный речевой перевод на целевой язык в режиме реального времени, пока пользователь говорит.
- перевод текста: Обеспечивает перевод текста, синхронизированный с речью.
- Многопоточная архитектура (вычислительная техника): Одновременно обрабатывает входной речевой поток и генерирует целевую речь для обеспечения последовательного и точного перевода.
- высокая точностьОбеспечение высокого качества переводов с помощью методов контролируемого обучения и создания синтетических данных.
- фонетический перенос: Дополнительная функция передачи голоса для более естественного перевода.
Использование помощи
Процесс установки
PyTorch
- монтаж
moshi
Упаковка:pip install -U moshi
- Загрузите файл примера:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- Запустите перевод:
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
- Необязательные параметры
--cfg-coef
Значение по умолчанию равно 1. Чем выше значение, тем ближе сгенерированная речь к оригинальной, поэтому рекомендуемое значение - 3.
- Необязательные параметры
MLX
- монтаж
moshi_mlx
пакет (требуется версия не ниже 0.2.1):pip install -U moshi_mlx
- Загрузите файл примера:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- Запустите перевод:
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
- Необязательные параметры
--cfg-coef
Значение по умолчанию равно 1. Чем выше значение, тем ближе сгенерированная речь к оригинальной, поэтому рекомендуемое значение - 3.
- Необязательные параметры
MLX-Swift
kyutai-labs/moshi-swift
Репозиторий содержит реализацию MLX-Swift, которая работает на iPhone и была протестирована на iPhone 16 Pro. Обратите внимание, что этот код все еще находится в экспериментальной стадии.
Ржавчина
- входить
hibiki-rs
Каталог:cd hibiki-rs
- Загрузите файл примера:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- Запустите перевод:
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
- пользоваться
--features cuda
Запуск на графическом процессоре NVIDIA или использование--features metal
Работает на компьютере Mac.
- пользоваться
моделирование
Мы выпустили две модели для перевода с французского на английский:
- Хибики 2B: Для PyTorch и MLX с 16 потоками RVQ.
- Хибики 1B: Для PyTorch и MLX, с 8 потоками RVQ, идеально подходит для рассуждений на стороне устройства.
Список моделей:
- Хибики 2B для PyTorch (bf16):
kyutai/hibiki-2b-pytorch-bf16
- Хибики 1B для PyTorch (bf16):
kyutai/hibiki-1b-pytorch-bf16
- Хибики 2B для MLX (bf16):
kyutai/hibiki-2b-mlx-bf16
- Хибики 1B для MLX (bf16):
kyutai/hibiki-1b-mlx-bf16
Все модели выпущены под лицензией CC-BY 4.0.
Процесс использования
- модель грунтования: Запустите модель после завершения процесса установки.
- Входной голос: Ввод речи на исходном языке через микрофон.
- перевод в реальном времени: Hibiki генерирует речевой перевод на целевой язык в режиме реального времени и одновременно отображает текстовый перевод.
- Регулировка настроек: Настройте такие параметры, как передача голоса, для более естественного перевода.
Основные функции
- перевод речи в реальном времени: После запуска модели введите свой голос прямо в микрофон, и Hibiki переведет его автоматически.
- перевод текстаОдновременно с голосовым переводом Hibiki генерирует текстовый перевод, который отображается в интерфейсе.
- фонетический перенос: Включите функцию передачи голоса в настройках, чтобы сделать переведенный голос более соответствующим естественному произношению целевого языка.
Подробная процедура работы
- модель грунтования: Запустите модель после завершения процесса установки, чтобы убедиться, что все зависимости были установлены правильно.
- Входной голос: Введите свой голос на исходном языке через микрофон, и Hibiki автоматически начнет перевод.
- Посмотреть результаты перевода: Просмотр в реальном времени сгенерированных речевых и текстовых переводов на целевой язык в интерфейсе.
- Регулировка настроек: Настройте такие функции, как передача голоса, в настройках, если это необходимо для оптимального перевода.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...