Insgesamt 478 Artikel
Tags: KI Open-Source-Projekte Seite 44
Umfassende Einführung TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen zur Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten. Das Projekt wurde von Yifei Hu entwickelt und auf GitHub veröffentlicht. TF-ID-Modelle sind darauf abgestimmt, Tabellen und Bilder aus wissenschaftlichen Arbeiten zu erkennen und zu extrahieren...
Allgemeine Einführung Chatbot UI ist ein Open-Source-Projekt, das Entwicklern helfen soll, personalisierte und intelligente Konversationsschnittstellen zu erstellen. Das Projekt bietet eine Reihe von Schnittstellenkomponenten und interaktiven Funktionen, die einfach in ein bestehendes Chatbot-System integriert werden können, um den Nutzern ein reibungsloseres und intelligenteres Dialogerlebnis zu bieten...
Allgemeine Einführung GLIGEN GUI ist eine intuitive grafische Benutzeroberfläche auf der Basis von ComfyUI, die die Verwendung des GLIGEN-Modells vereinfacht, eines neuartigen Text-Bild-Modells, das eine präzise Spezifikation der Position von Objekten in einem Bild ermöglicht. Mit GLIGEN GUI wird der Benutzer aufgefordert, Kästchen zu zeichnen und Text einzugeben...
Umfassende Einführung Easy-Voice-Toolkit ist ein vielseitiges Toolkit, das auf dem Open Source Speech Project basiert und eine breite Palette an automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und das Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv oder sequentiell einsetzen...
Allgemeine Einführung FaceFusion ist eine hochmoderne Cloud-Plattform mit integrierten Gesichtsaustausch- und -verbesserungsfunktionen, die den Bild-zu-Video- und Bild-zu-Bild-Austauschprozess mit 5 professionellen Modellen optimiert, um eine makellose Ausgabe zu gewährleisten. Darüber hinaus führt es eine Gesichtsverbesserung mit 7 Modellen durch, wobei 3 verschiedene Modelle zur...
Allgemeine Einführung Kotaemon ist ein quelloffenes Q&A-Tool für Dokumente, das Endnutzern und Entwicklern Q&A-Funktionen auf der Grundlage von Retrieval Augmented Generation (RAG) bietet. Das von Cinnamon entwickelte Projekt unterstützt eine Vielzahl von LLM-API-Anbietern (z.B. OpenAI, AzureOpenAI, Cohere, etc.) sowie native...
Umfassende Einführung HivisionIDPhotos ist ein Open-Source-Leichtbau-KI-Dokument Foto-Produktions-Tools, kann intelligent identifizieren den Benutzer Foto-Szene und Keying, um ein Standard-Dokument Foto im Einklang mit einer Vielzahl von Spezifikationen zu generieren. Das Tool unterstützt benutzerdefinierte Hintergrundfarbe und Größe, die Zukunft wird auch Schönheit und intelligente Änderung der formalen Kleid Funktion einzuführen. Mit...
Allgemeine Einführung Marker ist ein auf Deep Learning basierendes Tool zur Dokumentenverarbeitung, das PDF-Dateien schnell und präzise in das Markdown-Format konvertiert. Es unterstützt eine breite Palette von Dokumenttypen und ist besonders für die Konvertierung von Büchern und wissenschaftlichen Arbeiten optimiert.Marker ist in der Lage, überflüssige Inhalte wie Kopf- und Fußzeilen zu entfernen, Tabellen zu formatieren und...
Allgemeine Einführung SadTalker ist ein Open-Source-Tool, das einzelne Porträtfotos und Audiodateien kombiniert, um realistische, sprechende Avatar-Videos für eine Vielzahl von Szenarien zu erstellen, z. B. für personalisierte Nachrichten, Bildungsinhalte und mehr. Revolutionärer Einsatz von 3D-Modellierungstechnologien wie ExpNet und PoseVAE, hervorragende...
Allgemeine Einführung VideoReTalking ist ein innovatives System, das es dem Benutzer ermöglicht, lippensynchrone Gesichtsvideos auf der Grundlage des Eingangsaudios zu generieren, wobei qualitativ hochwertige und lippensynchrone Ausgangsvideos auch mit unterschiedlichen Emotionen erzeugt werden. Das System unterteilt dieses Ziel in drei aufeinander folgende Aufgaben: Erzeugung von Gesichtsvideos mit typischen Ausdrücken...