Insgesamt 480 Artikel
Tags: KI Open-Source-Projekte Seite 45
Allgemeine Einführung SadTalker ist ein Open-Source-Tool, das einzelne Porträtfotos und Audiodateien kombiniert, um realistische, sprechende Avatar-Videos für eine Vielzahl von Szenarien zu erstellen, z. B. für personalisierte Nachrichten, Bildungsinhalte und mehr. Revolutionärer Einsatz von 3D-Modellierungstechnologien wie ExpNet und PoseVAE, hervorragende...
Allgemeine Einführung VideoReTalking ist ein innovatives System, das es dem Benutzer ermöglicht, lippensynchrone Gesichtsvideos auf der Grundlage des Eingangsaudios zu generieren, wobei qualitativ hochwertige und lippensynchrone Ausgangsvideos auch mit unterschiedlichen Emotionen erzeugt werden. Das System unterteilt dieses Ziel in drei aufeinander folgende Aufgaben: Erzeugung von Gesichtsvideos mit typischen Ausdrücken...
Allgemeine Einführung MuseV ist ein öffentliches Projekt auf GitHub, das die Erzeugung von Avatar-Videos von unbegrenzter Länge und hoher Wiedergabetreue ermöglichen soll. Es basiert auf Diffusionstechnologie und bietet verschiedene Funktionen wie Image2Video, Text2Image2Video, Video2Video und mehr. Bietet Modellstruktur, Anwendungsfälle, Schnellstart...
Umfassende Einführung Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumente, usw. Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumente, usw. Sein Hauptziel ist es, Datenverarbeitungs-Workflows zu vereinfachen und zu optimieren, insbesondere für große Sprachmodell (LLM)-Anwendungen zu unterstützen.Unstructured...
Allgemeine Einführung magic-html ist eine Python-Bibliothek, die den Prozess der Extraktion von Inhalten aus HTML vereinfachen soll. Egal, ob es sich um komplexe HTML-Strukturen oder einfache Webseiten handelt, diese Bibliothek zielt darauf ab, dem Benutzer eine bequeme und effiziente Schnittstelle zu bieten. Sie unterstützt die multimodale Extraktion, die Extraktion mehrerer Layouts und die...
WebPilot Allgemeine Einführung Webpilot ist ein freier und quelloffener "Web-Assistent", der es Ihnen ermöglicht, frei mit jeder Webseite zu kommunizieren oder automatisierte Aufgaben auszuführen. Anstatt Seiten zu wechseln oder zu kopieren und einzufügen, wählen Sie einfach Text aus oder geben Befehle ein, und Webpilot versorgt Sie mit Echtzeit-Informationen und intelligenten...
Umfassende Einführung DB-GPT ist ein Open-Source-Framework zur Entwicklung nativer KI-Datenanwendungen, das auf AWEL (Agentic Workflow Expression Language) und Smart-Body-Technologien basiert. Das Projekt zielt darauf ab, eine Infrastruktur im Bereich großer Modelle aufzubauen, indem mehrere technische Fähigkeiten entwickelt werden, darunter ein Multi-Modell-Management-System (SMMF),...
DreamTalk Umfassende Einführung DreamTalk ist ein von der Tsinghua Universität, der Alibaba Gruppe und der Huazhong Universität für Wissenschaft und Technologie gemeinsam entwickeltes, diffusionsmodellgesteuertes Framework zur Erzeugung von Sprechern. Es besteht hauptsächlich aus drei Teilen: einem Netzwerk zur Rauschunterdrückung, einem Lippenexperten und einem Stilprädiktor und kann eine Vielzahl von Audioeingaben auf der Grundlage von...
Allgemeine Einführung GPT Crawler ist ein Open-Source-Tool, mit dem Benutzer Wissensdateien erzeugen können, indem sie den Inhalt einer bestimmten Website crawlen, was wiederum maßgeschneiderte GPT-Modelle erzeugt. Das Projekt wird hauptsächlich zum Crawlen und Organisieren von Webinformationen verwendet und unterstützt die Ausführung über API und lokale Bereitstellung. Benutzer können den Crawler flexibel konfigurieren, um ihn an...
Umfassende Einführung InstantID ist eine fortschrittliche Technologie, die darauf ausgerichtet ist, Bilder mit personalisierten Stilen oder Posen in Sekundenschnelle zu generieren und dabei ein hohes Maß an Wiedergabetreue anhand eines einzigen Referenz-ID-Bildes zu gewährleisten. Die Technologie verwendet eine auf einem Diffusionsmodell basierende Lösung, die Gesichtsbilder, Landmarkenbilder und...