Vexa: ein Tool zur Echtzeit-Transkription von Sitzungen und zur intelligenten Wissensextraktion

Neueste AI-RessourcenGeschrieben vor 4 Monaten AI-Austauschkreis

1.2K 00

Allgemeine Einführung

Vexa ist eine Open-Source-Plattform für die Echtzeit-Transkription von Meetings und das Wissensmanagement, die Unternehmen und Einzelpersonen effiziente Meeting-Aufzeichnungen und intelligente Wissensextraktionsdienste bietet. Sie verbindet sich automatisch mit Google Meet, Zoom und anderen Plattformen durch API-gesteuerte Meeting-Roboter, die Sprache in Text in Echtzeit transkribieren und 99 Sprachen unterstützen. Vexa legt Wert auf Datensicherheit auf Unternehmensniveau und bietet lokale Bereitstellungsoptionen zur Gewährleistung der Compliance. Vexa befindet sich derzeit in der geschlossenen Beta-Phase und ist kostenlos über die offizielle Website erhältlich. Vexa soll eine Alternative zu recall.ai für Unternehmen sein und kombiniert hohe Leistung mit umfangreichen Funktionen.

Funktionsliste

Echtzeit-Transkription von MeetingsAutomatische Teilnahme an Google Meet, Zoom, Microsoft Teams Meetings und Transkription von Sprache in Text in Echtzeit.
Unterstützung mehrerer SprachenUnterstützung der Transkription in 99 Sprachen für globale Teams.
KonferenzroboterVereinfachung der Abläufe durch die Steuerung von Bots zur Teilnahme an Meetings über eine API.
WissensextraktionRAG (Retrieval Augmented Generation): Mit Hilfe der RAG-Technologie (Retrieval Augmented Generation) werden Schlüsselinformationen aus Transkripten extrahiert, um eine durchsuchbare Wissensbasis zu erstellen.
Sicherheit für UnternehmenUnterstützt die lokale Bereitstellung, schützt den Datenschutz und erfüllt die Compliance-Anforderungen.
hohe SkalierbarkeitMicroservices-Architektur zur Unterstützung massiv gleichzeitiger Transkriptionsaufgaben.
direktes StreamingUnterstützung für die Aufnahme von Audio direkt von Webseiten oder mobilen Anwendungen (in Entwicklung).
Open-Source-BeitragEntwickler können sich an der Entwicklung beteiligen und die Funktionalität über GitHub erweitern.

Hilfe verwenden

Installation und Einsatz

Vexa ist ein Open-Source-Projekt, das sich für den lokalen Einsatz durch Benutzer oder Unternehmen mit technischen Kenntnissen eignet. Nachstehend finden Sie eine detaillierte Beschreibung der Installation:

Klon-Lager
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das Vexa-Repository zu klonen:
```
git clone https://github.com/Vexa-ai/vexa.git
cd vexa
```
Initialisierung von Untermodulen
Vexa verwendet Git-Submodule zur Verwaltung von Abhängigkeiten (z. B. services/vexa-bot und services/WhisperLive). Ausführen:
```
make submodules
```
Umgebungsvariablen konfigurieren
Erstellen und bearbeiten Sie die Umgebungskonfigurationsdatei:
```
make env
```
Setzen Sie Parameter in der .env-Datei, wie ADMIN_API_TOKEN (Administrator-API-Schlüssel). Passen Sie die Flüstern Modellpfad oder Datenbankkonfiguration.
Whisper Models herunterladen
Vexa verwendet das Whisper-Modell für die Sprachtranskription. Führen Sie den folgenden Befehl aus:
```
make download-model
```
Das Modell wird im Verzeichnis . /hub-Verzeichnis gespeichert und in den WhisperLive-Container eingebunden.

Bau eines Konferenzroboter-Spiegels
Erstellung von Docker-Images für Vexa-Roboter:

docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core

Neue Dienste
Verwenden Sie Docker Compose, um den Dienst zu erstellen und auszuführen:
```
docker compose build
docker compose up -d
```
Wenn der Dienst startet, läuft das API-Gateway unter http://localhost:8056 und die Verwaltungsschnittstelle unter http://localhost:8057.

Kernfunktion Betrieb

Echtzeit-Transkription von Meetings

Das Hauptmerkmal von Vexa ist die Echtzeit-Transkription von Besprechungsstimmen durch einen Besprechungsroboter. Das Verfahren ist wie folgt:

Anfordern eines API-Schlüssels
Besuchen Sie https://api.dev.vexa.ai/pricing, um einen API-Schlüssel für geschlossene Tests anzufordern. Nachdem Sie die Anforderung übermittelt haben, erhalten Sie den X-API-Schlüssel.
Einen Roboter zu einer Besprechung schicken
Verwenden Sie eine API-Anfrage, damit der Bot einem Meeting beitritt. Nehmen Sie zum Beispiel an einem Google Meeting teil:
```
curl -X POST https://gateway.dev.vexa.ai/bots \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_CLIENT_API_KEY" \
-d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
```
Bei Erfolg wird das JSON mit der meeting_id und dem Roboterstatus zurückgegeben.

Zugang zu Transkriptionsdaten
Verwenden Sie die Sitzungs-ID, um Abschriften zu erhalten:

curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx

Zurück zum Beispiel:

{
"data": {
"meeting_id": "meet_abc123",
"transcripts": [
{"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
{"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
]
}
}

Unterstützung mehrerer Sprachen

Vexa unterstützt die Echtzeit-Transkription in 99 Sprachen. Einrichtungsmethode:

Geben Sie die Sprache in der .env-Datei an, z. B. LANGUAGE=en.
Fügen Sie der API-Anforderung einen Sprachparameter hinzu:
```
curl -X POST -H "Content-Type: application/octet-stream" \
-d '{"language": "es"}' \
http://localhost:8033/
```
Das System transkribiert die Besprechung automatisch in der angegebenen Sprache.

Wissensextraktion

Vexas RAG Funktionen extrahieren Schlüsselinformationen aus Transkripten, um eine strukturierte Wissensbasis zu erstellen:

Wissensdatenbank anzeigen
Der Zugriff auf die generierten Wissenseinträge erfolgt über die Verwaltungsschnittstelle (http://localhost:8057) oder eine API.
Suche nach Informationen
Durchsuchen Sie die Wissensdatenbank anhand von Schlüsselwörtern, und die RAG liefert Ihnen relevante Protokolle und Zusammenhänge.
Daten exportieren
Exportieren Sie Wissenseinträge über die API in das JSON- oder CSV-Format zur Analyse oder Archivierung.

Direktes Streaming (in Entwicklung)

Vexa plant, die Erfassung von Audiodaten direkt aus Web- oder Mobilanwendungen zu unterstützen. Die Nutzer werden Audioströme über ein SDK oder eine API hochladen und das System wird sie in Echtzeit transkribieren. Diese Funktion wird voraussichtlich 2025 in Betrieb gehen.

Andere Funktionen

Sicherheit für UnternehmenLokal bereitgestellte, getrennte Daten mit Verwaltungsschnittstellen, die mit X-Admin-API-Key geschützt sind. Unternehmen können die Zugriffsrechte je nach Compliance-Anforderungen konfigurieren.
hohe SkalierbarkeitMicroservices-Architektur: Aufgaben werden automatisch zugewiesen. Ohne manuelle Eingriffe kann das System Tausende von gleichzeitigen Transkriptionen verarbeiten.
Beiträge der Gemeinschaft: Besuchen Sie https://github.com/Vexa-ai/vexa für CONTRIBUTING.md. Entwickler können über Discord (https://discord.gg/Ga9duGkVz9) Aufgaben diskutieren oder Code einreichen.

caveat

Hardware-VoraussetzungNVIDIA GPU-ausgerüstete Server mit 16 GB RAM und 4-Core-CPUs werden empfohlen.
Update Wartung: Führen Sie regelmäßig git pull und docker compose up --build aus, um die neuesten Funktionen zu erhalten.
geschlossener TestAPI-Zugang: Für den Zugang zur API ist ein Schlüssel erforderlich, und es ist nur eine begrenzte Anzahl von Testplätzen verfügbar.
EntwicklungsfortschrittSpracherkennung ist in der Entwicklung, wobei die Bots für Microsoft Teams und Zoom voraussichtlich im April bzw. Mai 2025 in Betrieb gehen werden.

Anwendungsszenario

Konferenz über multinationale Unternehmen
Multinationale Teams nutzen Vexa, um mehrsprachige Besprechungen zu transkribieren, in Echtzeit ins Englische zu übersetzen, Entscheidungspunkte zu extrahieren und eine durchsuchbare Wissensdatenbank für eine einfache globale Zusammenarbeit zu erstellen.
Projektleitung
Entwicklungsteams zeichnen technische Besprechungen auf, und Vexa extrahiert Aufgabenzuweisungen und Zeitpläne, um automatische Berichte zu erstellen und die manuelle Zusammenstellung zu reduzieren.
Optimierung der Kundenbetreuung
Das Kundendienstteam transkribiert Kundenanrufe, extrahiert häufige Probleme und Lösungen und baut eine Wissensdatenbank auf, um die Reaktionsgeschwindigkeit und Konsistenz zu verbessern.
Akademische Forschungsunterlagen
Die Forscher zeichnen Interviews oder Workshops auf, und Vexa transkribiert und analysiert den Inhalt, so dass strukturierte Daten entstehen, die das Verfassen von Dokumenten unterstützen.

QA

Welche Plattformen werden von Vexa unterstützt?
Die derzeitige Unterstützung für Google Meet, Microsoft Teams und Zoom Bots wird voraussichtlich 2025 in Betrieb gehen.
Wie kann ich einen Testschlüssel anfordern?
Besuchen Sie https://api.dev.vexa.ai/pricing, um einen kostenlosen Test-X-API-Key anzufordern.
Welche Ressourcen werden für die lokale Bereitstellung benötigt?
Empfohlene Server mit NVIDIA-GPUs, mindestens 16 GB RAM und 4-Kern-CPUs.
Unterstützt Vexa Echtzeit-Übersetzung?
Derzeit werden 99 Sprachen für die Transkription unterstützt, wobei die Echtzeitübersetzung im Jahr 2025 in Betrieb gehen soll.
Wie kann ich mich an der Entwicklung beteiligen?
Treten Sie Discord bei (https://discord.gg/Ga9duGkVz9), sehen Sie sich CONTRIBUTING.md an und reichen Sie den Pull Request ein.