Heutzutage wird die Leistung in- und ausländischer Big Models wie DeepSeek immer leistungsfähiger, und die Branche geht allgemein davon aus, dass KI-Anwendungen im Jahr 2025 ein explosives Wachstum verzeichnen werden. Doch selbst mit leistungsstarken Big Models stehen die Unternehmen immer noch vor dem Problem unklarer Anwendungsszenarien und unsicherer Anwendungsformen. Die Frage, wie die Big-Model-Technologie praktisch in Industrieanwendungen umgesetzt und wirklich wertvolle KI-Produkte entwickelt werden können, stand im vergangenen Jahr im Mittelpunkt des Interesses der Branche und ist auch ein Problem, mit dem sich viele Unternehmen weiterhin beschäftigen.
Aufgrund unserer langjährigen Erfahrung mit dem Sitzsack-Modellierungsdienst stellen wir fest, dassvulkanische ArcheDas kürzlich gestartete "Big Model Application Lab", dessen Hauptmerkmale "einfach zu integrieren, einfach zu landen und offener" sind. Einfach ausgedrückt, bietet Volcano Ark eine Reihe ausgewählter Anwendungsszenarien für Unternehmen und entwickelt hochwertige KI-Anwendungen als Branchenvorlagen, die Unternehmen bei Bedarf als Open Source zur Verfügung gestellt werden.
Interaktiver zweisprachiger Videogenerator: ein neues Paradigma für KI-gestützte Bildungsanimation
Als Agentenentwickler wurde unser Team auf eine Anwendung namens "Interactive Bilingual Video Generator" in Volcano Ark aufmerksam und beschloss, sie einzusetzen und zu testen. Wir hoffen, dass wir diese Gelegenheit nutzen können, um das Potenzial der KI-Animation im Bildungsbereich zu erkunden.
Leitfaden für den schnellen Einsatz
Die wichtigsten Schritte werden im Folgenden ausführlich erläutert, um das Verständnis und die Bedienung zu erleichtern.
Zunächst muss das spezifische Code-Repository geklont werden:
#-Repository herunterladen
git clone https://github.com/volcengine/ai-app-lab.git
# Wechseln Sie in das entsprechende Verzeichnis
cd demohouse/chat2cartoon
Als nächstes öffnen Sie die .env
Datei, um Umgebungsvariablen zu konfigurieren. Sie müssen die Parameter konfigurieren, die sich auf die Modelle für textgenerierte Graphen, Sprachsynthese, Videogenerierung und Videoverständnis beziehen.
# Große Modell-Zugangspunkt-ID für die Erstellung von Skripten, Teilplots, Rollen https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=& OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# Visual Understanding Large Model Access Point ID für die Interaktion mit dem fertigen Videofilm
VLM_ENDPOINT_ID='ep-2025xxx'
# Volcano Engine TOS storage bucket name for storing model artefacts https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
# Sprachtechnologie-API-Zugangsschlüssel https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# Sprachtechnologie-API-Ressourcen-ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# Sprachtechnologie-App-Schlüssel https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# Generate Video Large Model Access Point ID (derzeit wird nur Doubao-Video Generation Model unterstützt)
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# Volcano Ark API Key für den Ark-Modell-Zugangspunkt, der bei der Authentifizierung zu Grunde gelegt wird https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# Volcano Engine Account Access Key für den Zugriff auf die TOS-API und das Hochladen von Modellprodukten https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
# Volcano Engine-Konto-Geheimschlüssel für den Zugriff auf die TOS-API und das Hochladen von Modellprodukten https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'
Öffnung und Konfiguration des Volcano Ark-Dienstes
Zunächst müssen Sie die entsprechenden Dienste von Volcano Ark öffnen (alle Arten von KI-Modellen werden auf dieser Plattform angeboten). Nachdem Sie sich bei Volcano Ark angemeldet haben, klicken Sie auf "Open Management" in der unteren linken Ecke der Seite und öffnen Sie den Dienst für das große Sprachmodell bzw. das visuelle große Modell.
Nachdem Sie den Modelldienst geöffnet haben, müssen Sie den Zugangspunkt erstellen, der das eigentliche Modell darstellt, das verwendet werden soll. Klicken Sie auf der linken Seite auf "Online Reasoning" und dann auf "Custom Reasoning Access Point", um einen Inferenzzugriffspunkt zu erstellen.
Füllen Sie die Informationen entsprechend den Aufforderungen auf der Seite aus, fügen Sie das gewünschte Modell hinzu und bestätigen Sie den Zugriff.
Nach erfolgreicher Erstellung kopieren Sie die Zugangspunkt-ID.
Die Auswahl der einzelnen Modelle kann je nach den tatsächlichen Bedürfnissen und Vorlieben angepasst werden. In diesem Test haben wir die folgenden Modelle ausgewählt:
LLM_ENDPOINT_ID
OptionDoubao-1.5-pro-32k
VLM_ENDPUNKT_ID
OptionDoubao-vision-pro-32k
CGT_ENDPOINT_ID
OptionDoubao-Video Generation - Seegras
Um den API-Schlüssel für diese Modelle zu erhalten (d. h. ARK_API_KEY
Wenn Sie einen neuen API-Schlüssel erstellen möchten, können Sie ihn in der linken unteren Ecke der Seite verwalten. Wenn Sie einen neuen API-Schlüssel erstellen müssen, können Sie ihn in der linken unteren Ecke der Seite verwalten.
TOS Storage Bucket Konfiguration
Klicken Sie in den erstellten TOS-Storage-Bucket, um den domänenübergreifenden Zugriff zu konfigurieren.
Bitte passen Sie die spezifischen Parameter entsprechend den tatsächlichen Anwendungsszenarien an. Die in diesem Artikel angegebenen Parameterkonfigurationen sind nur Beispiele (bitte seien Sie vorsichtig, wenn Sie die Produktionsumgebung konfigurieren).
Volcano Engine Zugriffskontrolle
Gehen Sie als Nächstes zur Seite Zugriffskontrolle der Vulkan-Engine:
https://console.volcengine.com/iam/keymanage/
Ruft den Zugangsschlüssel und den geheimen Schlüssel der Vulkan-Engine für den Zugriff auf die TOS-API ab.
entsprechend .env
in der Datei VOLC_ACCESSKEY
im Gesang antworten VOLC_SECRETKEY
Parameter.
Objektspeicher-Konfiguration
Die TOS-API wird zum Hochladen von modellgenerierten Dateien verwendet. Gehen Sie zur Seite Objektspeicher:
https://console.volcengine.com/tos
Klicken Sie auf "Bucket List", dann auf "Create Bucket" und geben Sie die entsprechenden Informationen ein, um einen Speicherbereich zu erstellen. In diesem Beispiel lautet der Name des erstellten Buckets Chat2
Daher ist die .env
Papiere TOS_BUCKET
Der Parameter sollte eingestellt werden auf Chat2
.
Konfiguration der Sprachtechnologie
Schließlich wird der Bereich der Sprachtechnologie konfiguriert. Besuchen Sie die Sprachtechnologie-Plattform Volcano Engine:
https://console.volcengine.com/speech/app
Erstellen Sie eine Anwendung und wählen Sie die Dienste "Large Model Speech Synthesis" und "Streaming Speech Recognition Large Model".
Nach der Erstellung klicken Sie auf ein beliebiges Menü auf der linken Seite, um die APP-ID und das Zugriffstoken unten zu finden.
Laut der offiziellen Dokumentation der Volcano Engine.
TTS_ACCESS_KEY
die dem Access Token entspricht.
TTS_APP_KEY
Entspricht der APP-ID.
https://www.volcengine.com/docs/6561/1329505
Bis jetzt..env
Die Konfiguration der Dateien ist nun abgeschlossen. Als nächstes müssen Sie die Projektabhängigkeiten installieren und das Programm ausführen.
Backend-Betrieb
# Öffnen Sie das Backend
cd backend
# Poesie installieren
pip install poetry==1.6.1
# installiere Abhängigkeiten mit poetry
Poesie installieren
# Backend starten!
poetry ausführen python index.py
Wenn der Lauf erfolgreich ist, zeigt das Terminal eine Ausgabe ähnlich der folgenden Meldung an.
Frontend-Betrieb
# Wechseln Sie zu frontend
cd frontend
# pnpm installieren
npm install -g pnpm@8
# Installieren Sie die Abhängigkeiten mit pnpm
pnpm installieren
# Kopieren Sie die Umgebungsvariable .env Datei
cp ... /.env . /.env .
#-Frontend starten!
pnpm dev
Wenn der Lauf erfolgreich ist, zeigt das Terminal eine Ausgabe ähnlich der folgenden Meldung an.
Sobald Sie die oben genannten Schritte ausgeführt haben, können Sie in Ihrem Browser folgende Seite aufrufen http://localhost:8080/
Starten Sie mit dem interaktiven zweisprachigen Videogenerator.
Projektarchitektur und Testergebnisse
Die gesamte Prozessarchitektur des Projekts ist unten dargestellt:
Die Testergebnisse zeigen, dass der "Interaktive zweisprachige Video-Generator" die Benutzer dabei unterstützt, minutenlange Videos mit einem Klick zu generieren, was extrem einfach und effizient zu bedienen ist. Die Benutzer müssen keine umständlichen Parameter einrichten, sondern nur die Anforderungen an das Video eingeben. Sie können schnell ein langes Video erstellen, das den Anforderungen entspricht, wodurch die Effizienz der Erstellung erheblich verbessert wird.
Die generierten Videos sind von hoher Qualität, mit klaren und flüssigen Grafiken und einer kohärenten und natürlichen Handlung. Darüber hinaus unterstützt die App interaktive Fragen und Antworten mit den Nutzern zu den Videoinhalten.
Anwendung von Open Source: ein wichtiger Schritt, um große Modelle auf den Weg zu bringen
durch (eine Lücke) Coze Die Anwendung der Plattform als Vorlage für den Start des Volcano Ark AI Application Open Source Lab stellt nicht nur die Erweiterung der Lösung von Low-Code zu High-Code dar, sondern markiert auch die Entwicklung des Anwendungsszenarios von der Allgemeinheit zur tiefgreifenden Anpassung.
In der Welle der Anwendung großer Modelltechnologien geht die strategische Bedeutung der Open-Source-Anwendung sogar über das Open-Source-Modell selbst hinaus. Es stimmt, dass ein leistungsfähiges Modell der Motor der KI-Anwendung ist, aber wie man die Modellfähigkeit effizient in tatsächliche Geschäftsszenarien integriert, ist der Schlüssel zur Förderung der Landung der KI-Anwendung und letztlich zur Verbesserung der Geschäftsfähigkeit.
Das Volcano Engine Open Source AI Lab bietet quelloffene High-Code-SDKs und Prototyp-KI-Anwendungen, die genau den "letzten Kilometer" für die Landung von KI-Anwendungen ausfüllen. Open-Source-KI-Anwendungen bieten eine schnelle Start-up-Lösung für Unternehmen.
Obwohl viele Unternehmen das enorme Potenzial von Big Models erkannt haben und wissen, wie sie diese theoretisch auf ihre Geschäftsszenarien anwenden können, stoßen sie in der Praxis immer noch auf viele Hindernisse. Das Aufkommen von Open-Source-KI-Prototypanwendungen ermöglicht es Unternehmensentwicklern, schnell zu lernen und KI-Anwendungen zu erstellen und zu erweitern, die ihren geschäftlichen Anforderungen entsprechen, ohne bei Null anfangen zu müssen, um den komplexen Prozess des Andockens von Modellen und der Anwendungsentwicklung zu verstehen, wodurch sich die Kosten für Versuch und Irrtum, Zeit und Personal erheblich verringern.
Für die Mehrheit der KI-Technologie-Enthusiasten und Entwickler, wenn sie zum ersten Mal auf dem Gebiet der KI-Anwendungsentwicklung beteiligt sind, kommen sie oft in Kontakt mit hoch gekapselten Frameworks mit einem hohen Grad an Abstraktion, wie LangChain. LangChain-Framework kann bei geschickter Beherrschung zwar die Entwicklungseffizienz deutlich verbessern, aber seine große Anzahl an syntaktischem Zucker und abstrakten Konzepten bringt auch für den Anfänger eine höhere Lernschwelle mit sich. Im Gegensatz dazu ist Arkitect, das Python-SDK von Volcano Engine, leichter zu erlernen, und seine Werkzeugkette und der Entwicklungsprozess sind intuitiver. Darüber hinaus bietet die offizielle Demo auch ein detailliertes technisches Architekturdiagramm und Implementierungsdetails, was für Entwickler ein tiefes Verständnis erleichtert.
Die Einführung des Volcano Ark AI Application Lab bietet Unternehmen und Entwicklern zweifellos eine leistungsstarke Plattform zur Entwicklung von KI-Anwendungen. Besonders lobenswert ist, dass die Open-Source-Strategie von Volcano Ark die Schwelle für die Entwicklung von KI-Anwendungen gesenkt und die Einführung der Big-Model-Technologie in verschiedenen Branchen beschleunigt hat. Mit dem Aufkommen von mehr Open-Source-Anwendungen haben wir Grund zu der Annahme, dass die KI-Technologie wirklich in Tausende von Branchen integriert werden und ein größeres Potenzial freisetzen wird.