AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio Intelligence-Analyseplattform

Allgemeine Einführung

AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Das zentrale Highlight ist die Universal-Serie von Modellen, vor allem die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text-Modell bis heute ist. universal-2 baut auf der Grundlage von Universal-1, mit mehr als 12,5 Millionen Stunden mehrsprachige Audio-Trainingsdaten, und ist in der Lage, genau zu erfassen die Komplexität der realen Gespräche und liefern hochpräzise Audio-Daten. Universal-2 baut auf Universal-1 mit mehr als 12,5 Millionen Stunden mehrsprachiger Audio-Trainingsdaten auf und ist in der Lage, die Komplexität realer Dialoge genau zu erfassen und hochpräzise Audiodaten zu liefern. Im Vergleich zu Universal-1 verbessert Universal-2 die Erkennung von Eigennamen (z.B. Namen, Marken) um 241 TP3T, die Erkennung von gemischt numerisch-alphabetischen Inhalten (z.B. Telefonnummern, Mailboxen) um 211 TP3T und die Textformatierung (z.B. Interpunktion, Großschreibung) um 151 TP3T, wodurch die "letzte Meile" der Genauigkeit des traditionellen Modells deutlich reduziert wird. "AssemblyAI macht diese Spitzentechnologien über einfach zu verwendende APIs für globale Nutzer zugänglich und wurde von Spotify, Fireflies und anderen Unternehmen genutzt, um intelligente Sprachprodukte für Bereiche wie die Aufzeichnung von Meetings und die Analyse von Inhalten zu entwickeln.

AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio-Intelligenz-Analyseplattform-1


 

Funktionsliste

  • Sprache-zu-TextKonvertieren Sie Audiodateien oder Live-Audiostreams in hochpräzisen Text und unterstützen Sie dabei mehrere Sprachen und mehrere Audioformate.
  • Lautsprecher-ErkennungAutomatisches Erkennen verschiedener Sprecher im Audio für Mehrpersonen-Dialogszenarien.
  • Sentiment-AnalyseAnalyse emotionaler Tendenzen in der Sprache, wie z.B. positiv, negativ oder neutral, um das Benutzererlebnis zu verbessern.
  • Echtzeit-TranskriptionBietet eine Echtzeit-Sprache-zu-Text-Funktionalität mit niedriger Latenz, die sich für Voice Agents oder Live-Untertitel eignet.
  • Audio Intelligence ModellierungUmfasst erweiterte Funktionen wie Inhaltsüberprüfung, Themenerkennung, Stichwortsuche und mehr.
  • LeMUR-RahmenVerarbeitung von transkribiertem Text mithilfe eines umfangreichen Sprachmodells, mit Unterstützung für die Erstellung von Zusammenfassungen, Fragen und Antworten und mehr.
  • Untertitel GenerationUnterstützt den Export von Untertiteldateien im SRT- oder VTT-Format zur einfachen Erstellung von Videoinhalten.
  • PII-DatenschutzAutomatisches Erkennen und Blockieren von sensiblen Informationen in Audiodateien, wie z. B. Namen oder Telefonnummern.

 

Hilfe verwenden

AssemblyAI ist ein Cloud-basierter API-Dienst, der keine lokale Installation erfordert, um auf seine leistungsstarken Funktionen zuzugreifen. Hier finden Sie einen detaillierten Leitfaden, der Ihnen den Einstieg erleichtert und Sie tiefer in die Möglichkeiten des Dienstes einführt.

Registrieren und Abrufen von API-Schlüsseln

  1. Besuchen Sie die offizielle Website: Öffnen Sie Ihren Browser und geben Sie https://www.assemblyai.com/Gehen Sie zur Startseite.
  2. Registrieren Sie sich für ein KontoKlicken Sie auf "Anmelden" in der oberen rechten Ecke und geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein, um den Registrierungsprozess abzuschließen. Nach der Registrierung werden Sie automatisch in das Dashboard aufgenommen.
  3. Holen Sie sich den SchlüsselAPI-Schlüssel: Suchen Sie den Bereich "API-Schlüssel" auf dem Dashboard und klicken Sie auf "Kopieren", um den Schlüssel zu kopieren. Dies ist die einzige Zugangsberechtigung für den Aufruf der API und sollte sicher aufbewahrt werden.
  4. Kostenlose Testversion: Kostenloses Guthaben für neue Nutzer, keine Notwendigkeit, sofort eine Zahlungsmethode zu binden.

Kernfunktion Betrieb

Das Herzstück von AssemblyAI ist die API-Integration. Im Folgenden wird ein Beispiel für die Verwendung der Universal-Modellfamilie in Python gegeben. Sie können auch andere Sprachen (z.B. Java, Node.js) verwenden, indem Sie die Dokumentation auf der Website konsultieren.

Sprache zu Text (Universal-2)

  • vorläufigVergewissern Sie sich, dass eine Audiodatei vorhanden ist (z. B. probe.mp3) oder URL-Link.
  • Installieren des SDKLäuft im Terminal:
Pip-Installation von assemblyai
  • Code-Beispiel::
assemblyai als aai importieren
aai.settings.api_key = "Ihr API-Schlüssel" # Ersetzen Sie durch Ihren Schlüssel
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("beispiel.mp3")
print(transcript.text) # Geben Sie einen Text wie "It's a beautiful day" aus.
  • Universal-2 StärkenStandardmäßig wird das Universal-2-Modell verwendet, das Eigennamen (z. B. "Zhang Wei") und formatierte Zahlen (z. B. "6. März 2025") genauer erkennt als Universal-1, oft in Sekundenschnelle. Die Verarbeitungszeit beträgt in der Regel nur wenige Sekunden.

Echtzeit-Transkription

  • Anwendbare SzenarienLive-Streaming, Telekonferenzen und andere Echtzeitanforderungen.
  • Code-Beispiel::
    von assemblyai import RealtimeTranscriber
    import asyncio
    async def on_data(data).
    print(data.text) #-Echtzeit-Textausgabe
    transcriber = RealtimeTranscriber(
    api_key="Ihr API-Schlüssel",
    sample_rate=16000, on_data=on_data
    on_data=on_data
    )
    async def start():
    await transcriber.connect()
    await transcriber.stream() # beginnt mit dem Empfang von Audioströmen
    asyncio.run(start())
    
  • ArbeitsablaufSprechen Sie nach dem Lauf in das Mikrofon und der Text wird in Echtzeit angezeigt. Die geringe Latenzzeit der Universal-2 sorgt für schnelle und genaue Ergebnisse.

Lautsprecher-Erkennung

  • Methode zur Freigabe::
    config = aai.TranscriptionConfig(speaker_labels=True)
    transcript = transcriber.transcribe("sample.mp3", config=config)
    for utterance in transcript.
    print(f "Sprecher {Aussage.Sprecher}: {Aussage.Text}")
    
  • Beispiele für Ergebnisse::
    Sprecher A: Hallo, um wie viel Uhr ist das Treffen heute?
    Sprecher B: Um zwei Uhr nachmittags.
    
  • auf etw. aufmerksam machenUniversal-2 bietet eine konsistentere Leistung in Gesprächen mit mehreren Personen und reduziert Verwirrung.

Sentiment-Analyse

  • Methode zur Freigabe::
    config = aai.TranscriptionConfig(sentiment_analysis=True)
    transcript = transcriber.transcribe("beispiel.mp3", config=config)
    for result in transcript.sentiment_analysis: print(f "sample.mp3", config=config)
    print(f "Text: {Ergebnis.Text}, Stimmung: {Ergebnis.Stimmung}")
    
  • Beispiele für Ergebnisse::
    Text: Ich mag dieses Produkt sehr, Stimmung: POSITIV
    Text: Der Service ist ein bisschen langsam, Stimmung: NEGATIVE
    

Untertitel Generation

  • Betriebscode::
    transcript = transcriber.transcribe("sample.mp3")
    with open("untertitel.srt", "w") as f.
    f.write(transcript.export_subtitles_srt())
    
  • am Ende: Erzeugen .srt Datei, die direkt in eine Videobearbeitungssoftware importiert werden kann.

Merkmale: LeMUR Framework

  • Funktion EinführungLeMUR kombiniert groß angelegte Sprachmodellierung mit der Verarbeitung von Transkriptionsergebnissen, z.B. zur Erstellung von Abstracts.
  • Verfahren::
    1. Besorgen Sie sich eine ID für die Abschrift:
      transcript = transcriber.transcribe("sample.mp3")
      transcript_id = transcript.id
      
    2. Erstellen Sie eine Zusammenfassung:
      from assemblyai import Lemur
      lemur = Lemur(api_key="Ihr API-Schlüssel")
      summary = lemur.summarise(transcript_id)
      print(zusammenfassung.antwort)
      
    3. Beispiel Output: "Der Fortschritt des Projekts wurde auf der Sitzung besprochen und soll nächste Woche abgeschlossen werden."

caveat

  • Unterstützte FormateKompatibel mit 33 Audio-/Videoformaten wie MP3, WAV, etc.
  • Spracheinstellungen99+ Sprachen werden unterstützt und können über language_code="zh" Geben Sie Chinesisch an.
  • AbrechnungAbrechnung pro Audiostunde, Preise siehe offizielle Website.

Wenn Sie diese Schritte befolgen, können Sie die leistungsstarken Funktionen der Universal-2 voll ausschöpfen, um effiziente Sprachanwendungen zu erstellen.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio Intelligence-Analyseplattform

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)