Hibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrt

Neueste AI-RessourcenAktualisiert vor 7 Monaten AI-Austauschkreis

13.4K 00

Allgemeine Einführung

Hibiki ist ein von Kyutai Labs entwickeltes Echtzeit-Sprachübersetzungsmodell mit hoher Wiedergabetreue. Im Gegensatz zu herkömmlichen Offline-Übersetzern erzeugt Hibiki natürliche Sprachübersetzungen in der Zielsprache und liefert die Textübersetzung in Echtzeit, während der Benutzer spricht. Das Modell verwendet eine Multi-Stream-Architektur, die gleichzeitig den Eingangssprachstrom verarbeitet und die Zielsprache generiert, um kohärente und genaue Übersetzungen zu gewährleisten. Hibiki gleicht die Ausgangs- und Zielsprache und den Text durch überwachtes Training ab und verwendet Techniken zur Erzeugung synthetischer Daten, um qualitativ hochwertige Übersetzungen mit begrenzten realen Daten zu gewährleisten.

Hibiki stützt sich auf überwachtes Training von abgeglichener Quell- und Zielsprache und -text desselben Sprechers. Aufgrund der unzureichenden Menge an solchen Daten verlassen wir uns auf die Generierung synthetischer Daten. Der Abgleich auf Wortebene zwischen Ausgangs- und Zieltranskripten wird mit einem schwach überwachten Ansatz des kontextuellen Alignments unter Verwendung des Standardübersetzungssystems MADLAD durchgeführt. Die abgeleiteten Alignment-Regeln (ein Wort kommt in der Zielsprache nur dann vor, wenn es aus der Ausgangssprache vorhergesagt werden kann) werden angewandt, indem Stille eingefügt oder die Zielsprache mit Hilfe sprachgesteuerter, alignementfähiger TTS synthetisiert wird.

Funktionsliste

Echtzeit-SprachübersetzungGenerieren Sie eine natürliche Sprachübersetzung der Zielsprache in Echtzeit, während der Benutzer spricht.
TextübersetzungBietet eine mit der Sprache synchronisierte Textübersetzung.
Multistream-Architektur (Datenverarbeitung)Die gleichzeitige Verarbeitung des Eingangssprachstroms und die Generierung der Zielsprache gewährleisten eine kohärente und genaue Übersetzung.
High FidelityGewährleistung einer hohen Übersetzungsqualität durch überwachtes Training und Techniken zur Erzeugung synthetischer Daten.
phonetische ÜbertragungOptionale Sprachübertragungsfunktion für eine natürlichere Übersetzungsstimme.

Hilfe verwenden

Einbauverfahren

PyTorch

Montage moshi Paket:
```
pip install -U moshi
```

Laden Sie die Beispieldatei herunter:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Führen Sie die Übersetzung aus:
```
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
```
- Optionale Parameter --cfg-coef Der Standardwert ist 1. Je höher der Wert, desto näher ist die generierte Sprache an der Originalsprache, der empfohlene Wert ist 3.

MLX

Montage moshi_mlx Paket (erfordert mindestens Version 0.2.1):
```
pip install -U moshi_mlx
```

Laden Sie die Beispieldatei herunter:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Führen Sie die Übersetzung aus:
```
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
```
- Optionale Parameter --cfg-coef Der Standardwert ist 1. Je höher der Wert, desto näher ist die generierte Sprache an der Originalsprache, der empfohlene Wert ist 3.

MLX-Swift

kyutai-labs/moshi-swift Das Repository enthält eine Implementierung von MLX-Swift, die auf dem iPhone läuft und auf dem iPhone 16 Pro getestet wurde. Beachten Sie, dass sich dieser Code noch in der experimentellen Phase befindet.

Rost

gehen in hibiki-rs Katalog:
```
cd hibiki-rs
```

Laden Sie die Beispieldatei herunter:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Führen Sie die Übersetzung aus:
```
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
```
- ausnutzen --features cuda Die Ausführung auf einem NVIDIA-Grafikprozessor oder mit dem --features metal Läuft auf einem Mac.

Modellierung

Wir haben zwei Modelle für die Übersetzung Französisch-Englisch veröffentlicht:

Hibiki 2BFür PyTorch und MLX mit 16 RVQ-Streams.
Hibiki 1BFür PyTorch und MLX, mit 8 RVQ-Streams, ideal für geräteseitiges Reasoning.

Modellliste:

Hibiki 2B für PyTorch (bf16):kyutai/hibiki-2b-pytorch-bf16
Hibiki 1B für PyTorch (bf16):kyutai/hibiki-1b-pytorch-bf16
Hibiki 2B für MLX (bf16):kyutai/hibiki-2b-mlx-bf16
Hibiki 1B für MLX (bf16):kyutai/hibiki-1b-mlx-bf16

Alle Modelle sind unter der CC-BY 4.0-Lizenz veröffentlicht.

Verwendungsprozess

GrundierungsmodellStarten Sie das Modell nach dem Installationsvorgang.
Eingabe StimmeEingabe von Sprache in der Ausgangssprache über das Mikrofon.
Echtzeit-ÜbersetzungHibiki erzeugt eine Echtzeit-Sprachübersetzung in der Zielsprache und zeigt gleichzeitig die Textübersetzung an.
Anpassung der EinstellungenEinstellungen wie Sprachübertragung anpassen, um eine natürlichere Übersetzung zu erhalten.

Hauptfunktionen

Echtzeit-SprachübersetzungNach dem Start des Modells geben Sie Ihre Stimme direkt in das Mikrofon ein und Hibiki übersetzt sie automatisch.
TextübersetzungHibiki erstellt gleichzeitig mit der Sprachübersetzung eine Textübersetzung, die auf der Benutzeroberfläche angezeigt wird.
phonetische ÜbertragungAktivieren Sie die Sprachübertragungsfunktion in den Einstellungen, um die übersetzte Stimme besser an die natürliche Aussprache der Zielsprache anzupassen.

Detaillierte Vorgehensweise

GrundierungsmodellStarten Sie das Modell nach der Installation, um sicherzustellen, dass alle Abhängigkeiten korrekt installiert wurden.
Eingabe Stimme: Geben Sie Ihre Stimme in der Ausgangssprache über das Mikrofon ein und Hibiki beginnt automatisch mit der Übersetzung.
Übersetzungsergebnisse anzeigenSprach- und Textübersetzungen in Echtzeit in der Zielsprache auf der Benutzeroberfläche anzeigen.
Anpassung der Einstellungen: Passen Sie Funktionen wie die Sprachübertragung in den Einstellungen nach Bedarf an, um eine optimale Übersetzung zu erzielen.