ZipVoice - Xiaomis quelloffene Sprachsynthese-Modellfamilie

Neueste AI-RessourcenAktualisiert vor 1 Tag AI-Austauschkreis

2.4K 00

Was ist ZipVoice?

ZipVoice ist eine Reihe von Sprachsynthesemodellen (TTS), die auf der Flow Matching-Architektur von Xiaomi basieren, darunter ZipVoice (ein Null-Sample-Single-Speaker-Sprachsynthesemodell) und ZipVoice-Dialog (ein Null-Sample-Dialog-Sprachsynthesemodell) Die ZipVoice-Modellreihe erreicht eine leichtgewichtige Modellierung und Inferenzbeschleunigung durch die Einführung der Zipformer-Architektur, die ursprünglich für die automatische Spracherkennung (ASR) entwickelt wurde Die ZipVoice-Modellfamilie erreicht eine leichtgewichtige Modellierung und Inferenzbeschleunigung durch die Einführung der Zipformer-Architektur, die ursprünglich für die automatische Spracherkennung (ASR) entwickelt wurde, als Backbone-Netzwerk. Im Vergleich zu DiT-basierten Sprachsynthesemodellen reduziert ZipVoice die Anzahl der Parameter um etwa 63% bei ähnlicher Leistung. Die Modellreihe zeichnet sich durch objektive Metriken wie Sprecherähnlichkeit, Wortfehlerrate und UTMOS sowie subjektive Metriken wie CMOS, SMOS usw. aus und erreicht das SOTA-Leistungsniveau von Sprachsynthesemodellen mit Nullproben.

Merkmale von ZipVoice

Leicht und schnellZipVoice-Distill: Mit nur 123M Modellparametern ist ZipVoice-Distill schnell und für den Einsatz in ressourcenbeschränkten Umgebungen geeignet. Die destillierte Version, ZipVoice-Distill, ist schneller, mit einer leichten Leistungsverschlechterung, aber immer noch mit einer hohen Qualität der Ausgabe.
Klonen von Sprache in hoher QualitätEs zeichnet sich durch eine hohe Sprecherähnlichkeit, Natürlichkeit und Verständlichkeit der Sprache aus. Es erzeugt Sprache, die dem Originalsprecher sehr ähnlich ist, und eignet sich für eine Vielzahl von Sprachinteraktionsszenarien.
Unterstützung mehrerer SprachenEs unterstützt sowohl Chinesisch als auch Englisch, was den Anforderungen der Sprachsynthese in verschiedenen Sprachumgebungen gerecht wird.
Multimodale SpracherzeugungZipVoice-Dialog generiert Zweipersonengespräche in Mono, während ZipVoice-Dialog-Stereo Stereogespräche generiert, indem jedem Sprecher ein separater Kanal zugewiesen wird, was die Natürlichkeit und das Eintauchen in das Gespräch verbessert.
Open Source und BenutzerfreundlichkeitDie Modelldateien, der Trainingscode und der Inferenzcode wurden vollständig als Open Source zur Verfügung gestellt, um die Weiterentwicklung und Anpassung durch Entwickler zu erleichtern. Detaillierte Installations- und Nutzungsrichtlinien werden bereitgestellt, um die Schwelle für die Nutzung zu senken.

Die wichtigsten Vorteile von ZipVoice

Effiziente Modellierung auf der Grundlage von ZipformerZum ersten Mal wurde die Zipformer-Architektur, die ursprünglich für die automatische Spracherkennung (ASR) entwickelt wurde, für die TTS-Aufgabe eingesetzt. Diese Innovation hat es ZipVoice ermöglicht, die Anzahl der Modellparameter drastisch zu reduzieren und die Effizienz des Modelltrainings und der Inferenz zu verbessern, während gleichzeitig eine hohe Qualität der Sprachsynthese beibehalten wurde.
durchschnittliche Upsampling-StrategieDie durchschnittliche Up-Sampling-Methode des Sprach-Text-Abgleichs wird verwendet, um den Abgleichprozess zu vereinfachen, die Stabilität und Konvergenzgeschwindigkeit des Abgleichs zu verbessern und die Verständlichkeit und Klarheit der Sprache effektiv zu erhöhen, so dass die synthetisierte Sprache den Inhalt des Eingabetextes genauer wiedergibt.
Verfahren der StromdestillationDie Stream-Destillationstechnik reduziert die Sampling-Schritte weiter und eliminiert den Inferenz-Overhead, der mit unklassifizierter Klassifikatorführung verbunden ist, so dass das Modell mit PyTorch-Code-Inferenz in einem einzigen Thread der CPU nahezu Echtzeitgeschwindigkeiten (RTF ≈ 1) erreichen kann, was den Echtzeitcharakter der Sprachsynthese erheblich verbessert.
klein aber feinZipVoice-Distill: Mit nur 123M Modellparametern ist ZipVoice-Distill schnell und für den Einsatz in ressourcenbeschränkten Umgebungen geeignet. Seine destillierte Version, ZipVoice-Distill, ist sogar noch schneller, mit einer leichten Leistungsverschlechterung, aber immer noch mit einer hohen Qualität der Ausgabe.
Klonen von Sprache in hoher QualitätEs zeichnet sich durch Sprecherähnlichkeit, Natürlichkeit und Verständlichkeit aus und ist in der Lage, Sprache zu erzeugen, die dem Originalsprecher sehr ähnlich ist, was für eine Vielzahl von Sprachinteraktionsszenarien geeignet ist.

Was ist die offizielle Website von ZipVoice?

Projekt-Website:: https://zipvoice.github.io/
GitHub-Repository:: https://github.com/k2-fsa/ZipVoice
HuggingFace-Modellbibliothek:: https://huggingface.co/k2-fsa/ZipVoice
arXiv Technisches Papier:: https://arxiv.org/pdf/2506.13053

Für wen ist ZipVoice gedacht?

Entwickler von SprachtechnologieZipVoice's Open-Source-Modelldateien, Trainingscode und Inferenzcode bieten Entwicklern reichhaltige Ressourcen für sekundäre Entwicklung und Anpassung, geeignet für Personen mit einer gewissen technischen Grundlage, die im Bereich der Sprachsynthese innovativ sein und sich weiterentwickeln möchten.
Forscher für künstliche IntelligenzInnovative Praktiken des Modells im Bereich der Sprachsynthese, wie die Einführung der Zipformer-Architektur und die Anwendung der Stream-Destillation-Methode, liefern den Forschern neue Forschungsideen und experimentelle Plattformen, die die Entwicklung der Sprachsynthesetechnologie fördern.
Entwickler intelligenter SprachassistentenZipVoice: Die hochwertige Sprachsynthese und die Mehrsprachenunterstützung von ZipVoice ermöglichen eine natürlichere und reibungslosere Sprachinteraktion für intelligente Sprachassistenten, die sich für die Entwicklung von intelligenten Sprachassistenten für Nutzer verschiedener Sprachen eignen.
Ersteller von Audio-InhaltenZipVoice kann schnell qualitativ hochwertige Sprache für Hörbücher, Hörspiele und andere Audioinhalte generieren und so die Effizienz der Inhaltsproduktion steigern und die Produktionskosten senken.
Praktiker im Bereich der BildungIn Sprachlern- und Online-Bildungsszenarien kann ZipVoice Standard-Sprachdemonstrationen erzeugen, um den Unterricht zu unterstützen und den Schülern zu helfen, die Aussprache und den Ausdruck der Sprache besser zu erlernen, was sich für Szenarien eignet, die eine mehrsprachige Unterrichtsunterstützung erfordern.
Entwickler von UnternehmensanwendungenDas schlanke Design und die schnellen Argumentationsfähigkeiten von ZipVoice ermöglichen einen effizienten Einsatz in Unternehmensumgebungen und verbessern die Benutzererfahrung für Unternehmen, die Sprachsynthese in Unternehmensanwendungen wie Kundendienstsysteme, intelligente Touren usw. integrieren müssen.