Allgemeine Einführung
AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Das zentrale Highlight ist die Universal-Serie von Modellen, vor allem die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text-Modell bis heute ist. universal-2 baut auf der Grundlage von Universal-1, mit mehr als 12,5 Millionen Stunden mehrsprachige Audio-Trainingsdaten, und ist in der Lage, genau zu erfassen die Komplexität der realen Gespräche und liefern hochpräzise Audio-Daten. Universal-2 baut auf Universal-1 mit mehr als 12,5 Millionen Stunden mehrsprachiger Audio-Trainingsdaten auf und ist in der Lage, die Komplexität realer Dialoge genau zu erfassen und hochpräzise Audiodaten zu liefern. Im Vergleich zu Universal-1 verbessert Universal-2 die Erkennung von Eigennamen (z.B. Namen, Marken) um 241 TP3T, die Erkennung von gemischt numerisch-alphabetischen Inhalten (z.B. Telefonnummern, Mailboxen) um 211 TP3T und die Textformatierung (z.B. Interpunktion, Großschreibung) um 151 TP3T, wodurch die "letzte Meile" der Genauigkeit des traditionellen Modells deutlich reduziert wird. "AssemblyAI macht diese Spitzentechnologien über einfach zu verwendende APIs für globale Nutzer zugänglich und wurde von Spotify, Fireflies und anderen Unternehmen genutzt, um intelligente Sprachprodukte für Bereiche wie die Aufzeichnung von Meetings und die Analyse von Inhalten zu entwickeln.
Funktionsliste
- Sprache-zu-TextKonvertieren Sie Audiodateien oder Live-Audiostreams in hochpräzisen Text und unterstützen Sie dabei mehrere Sprachen und mehrere Audioformate.
- Lautsprecher-ErkennungAutomatisches Erkennen verschiedener Sprecher im Audio für Mehrpersonen-Dialogszenarien.
- Sentiment-AnalyseAnalyse emotionaler Tendenzen in der Sprache, wie z.B. positiv, negativ oder neutral, um das Benutzererlebnis zu verbessern.
- Echtzeit-TranskriptionBietet eine Echtzeit-Sprache-zu-Text-Funktionalität mit niedriger Latenz, die sich für Voice Agents oder Live-Untertitel eignet.
- Audio Intelligence ModellierungUmfasst erweiterte Funktionen wie Inhaltsüberprüfung, Themenerkennung, Stichwortsuche und mehr.
- LeMUR-RahmenVerarbeitung von transkribiertem Text mithilfe eines umfangreichen Sprachmodells, mit Unterstützung für die Erstellung von Zusammenfassungen, Fragen und Antworten und mehr.
- Untertitel GenerationUnterstützt den Export von Untertiteldateien im SRT- oder VTT-Format zur einfachen Erstellung von Videoinhalten.
- PII-DatenschutzAutomatisches Erkennen und Blockieren von sensiblen Informationen in Audiodateien, wie z. B. Namen oder Telefonnummern.
Hilfe verwenden
AssemblyAI ist ein Cloud-basierter API-Dienst, der keine lokale Installation erfordert, um auf seine leistungsstarken Funktionen zuzugreifen. Hier finden Sie einen detaillierten Leitfaden, der Ihnen den Einstieg erleichtert und Sie tiefer in die Möglichkeiten des Dienstes einführt.
Registrieren und Abrufen von API-Schlüsseln
- Besuchen Sie die offizielle Website: Öffnen Sie Ihren Browser und geben Sie
https://www.assemblyai.com/
Gehen Sie zur Startseite. - Registrieren Sie sich für ein KontoKlicken Sie auf "Anmelden" in der oberen rechten Ecke und geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein, um den Registrierungsprozess abzuschließen. Nach der Registrierung werden Sie automatisch in das Dashboard aufgenommen.
- Holen Sie sich den SchlüsselAPI-Schlüssel: Suchen Sie den Bereich "API-Schlüssel" auf dem Dashboard und klicken Sie auf "Kopieren", um den Schlüssel zu kopieren. Dies ist die einzige Zugangsberechtigung für den Aufruf der API und sollte sicher aufbewahrt werden.
- Kostenlose Testversion: Kostenloses Guthaben für neue Nutzer, keine Notwendigkeit, sofort eine Zahlungsmethode zu binden.
Kernfunktion Betrieb
Das Herzstück von AssemblyAI ist die API-Integration. Im Folgenden wird ein Beispiel für die Verwendung der Universal-Modellfamilie in Python gegeben. Sie können auch andere Sprachen (z.B. Java, Node.js) verwenden, indem Sie die Dokumentation auf der Website konsultieren.
Sprache zu Text (Universal-2)
- vorläufigVergewissern Sie sich, dass eine Audiodatei vorhanden ist (z. B.
probe.mp3
) oder URL-Link. - Installieren des SDKLäuft im Terminal:
Pip-Installation von assemblyai
- Code-Beispiel::
assemblyai als aai importieren
aai.settings.api_key = "Ihr API-Schlüssel" # Ersetzen Sie durch Ihren Schlüssel
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("beispiel.mp3")
print(transcript.text) # Geben Sie einen Text wie "It's a beautiful day" aus.
- Universal-2 StärkenStandardmäßig wird das Universal-2-Modell verwendet, das Eigennamen (z. B. "Zhang Wei") und formatierte Zahlen (z. B. "6. März 2025") genauer erkennt als Universal-1, oft in Sekundenschnelle. Die Verarbeitungszeit beträgt in der Regel nur wenige Sekunden.
Echtzeit-Transkription
- Anwendbare SzenarienLive-Streaming, Telekonferenzen und andere Echtzeitanforderungen.
- Code-Beispiel::
von assemblyai import RealtimeTranscriber import asyncio async def on_data(data). print(data.text) #-Echtzeit-Textausgabe transcriber = RealtimeTranscriber( api_key="Ihr API-Schlüssel", sample_rate=16000, on_data=on_data on_data=on_data ) async def start(): await transcriber.connect() await transcriber.stream() # beginnt mit dem Empfang von Audioströmen asyncio.run(start())
- ArbeitsablaufSprechen Sie nach dem Lauf in das Mikrofon und der Text wird in Echtzeit angezeigt. Die geringe Latenzzeit der Universal-2 sorgt für schnelle und genaue Ergebnisse.
Lautsprecher-Erkennung
- Methode zur Freigabe::
config = aai.TranscriptionConfig(speaker_labels=True) transcript = transcriber.transcribe("sample.mp3", config=config) for utterance in transcript. print(f "Sprecher {Aussage.Sprecher}: {Aussage.Text}")
- Beispiele für Ergebnisse::
Sprecher A: Hallo, um wie viel Uhr ist das Treffen heute? Sprecher B: Um zwei Uhr nachmittags.
- auf etw. aufmerksam machenUniversal-2 bietet eine konsistentere Leistung in Gesprächen mit mehreren Personen und reduziert Verwirrung.
Sentiment-Analyse
- Methode zur Freigabe::
config = aai.TranscriptionConfig(sentiment_analysis=True) transcript = transcriber.transcribe("beispiel.mp3", config=config) for result in transcript.sentiment_analysis: print(f "sample.mp3", config=config) print(f "Text: {Ergebnis.Text}, Stimmung: {Ergebnis.Stimmung}")
- Beispiele für Ergebnisse::
Text: Ich mag dieses Produkt sehr, Stimmung: POSITIV Text: Der Service ist ein bisschen langsam, Stimmung: NEGATIVE
Untertitel Generation
- Betriebscode::
transcript = transcriber.transcribe("sample.mp3") with open("untertitel.srt", "w") as f. f.write(transcript.export_subtitles_srt())
- am Ende: Erzeugen
.srt
Datei, die direkt in eine Videobearbeitungssoftware importiert werden kann.
Merkmale: LeMUR Framework
- Funktion EinführungLeMUR kombiniert groß angelegte Sprachmodellierung mit der Verarbeitung von Transkriptionsergebnissen, z.B. zur Erstellung von Abstracts.
- Verfahren::
- Besorgen Sie sich eine ID für die Abschrift:
transcript = transcriber.transcribe("sample.mp3") transcript_id = transcript.id
- Erstellen Sie eine Zusammenfassung:
from assemblyai import Lemur lemur = Lemur(api_key="Ihr API-Schlüssel") summary = lemur.summarise(transcript_id) print(zusammenfassung.antwort)
- Beispiel Output: "Der Fortschritt des Projekts wurde auf der Sitzung besprochen und soll nächste Woche abgeschlossen werden."
- Besorgen Sie sich eine ID für die Abschrift:
caveat
- Unterstützte FormateKompatibel mit 33 Audio-/Videoformaten wie MP3, WAV, etc.
- Spracheinstellungen99+ Sprachen werden unterstützt und können über
language_code="zh"
Geben Sie Chinesisch an. - AbrechnungAbrechnung pro Audiostunde, Preise siehe offizielle Website.
Wenn Sie diese Schritte befolgen, können Sie die leistungsstarken Funktionen der Universal-2 voll ausschöpfen, um effiziente Sprachanwendungen zu erstellen.