AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1
Insgesamt 914 Artikel

Tags: KI Open-Source-Projekte Seite 46

PaddleOCR: Eine mehrsprachige OCR-Werkzeugbibliothek auf der Grundlage von Flying Paddle, die die Erkennung von mehr als 80 Sprachen unterstützt

Allgemeine Einführung PaddleOCR ist ein mehrsprachiges OCR-Toolkit, das auf PaddlePaddle basiert und ein praktisches und ultraleichtes OCR-System bieten soll. Es unterstützt die Erkennung in über 80 Sprachen und bietet Tools für die Datenannotation und -synthese zur Unterstützung von Servern, mobilen, eingebetteten und IoT-Geräten...

Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播-首席AI分享圈

Deep Live Cam: Open-Source-Echtzeit-KI-Gesichtstausch-Tool, ein Foto für Live-Gesichtstausch in Echtzeit

Allgemeine Einführung Deep Live Cam ist ein Open-Source-KI-Tool, das die Ersetzung von Gesichtern in Echtzeit und die Erstellung von Fake-Videos aus einem einzigen Foto ermöglicht. Mithilfe von fortschrittlichen Deep-Learning-Algorithmen kann das Tool Gesichter in Echtzeit während Live-Streams oder Videoanrufen ersetzen und dabei die Privatsphäre des Nutzers schützen und...

NarratoAI:文本生成影视解说与自动化剪辑神器-首席AI分享圈

NarratoAI: Textgenerierte Film- und TV-Erzählung und automatisiertes Bearbeitungswerkzeug

Allgemeine Einführung NarratoAI ist ein vollautomatisches Tool, das Film- und Fernsehkommentare, automatische Bearbeitung, Synchronisation und Untertitelerstellung integriert. Es stützt sich auf eine groß angelegte Sprachmodellierungstechnologie (LLM), um automatisch Texte zu generieren und Videos mit den entsprechenden Synchronisationen und Untertiteln automatisch zu bearbeiten, und bietet dem Benutzer eine Komplettlösung für Film- und Fernsehkommentare...

Vector Vein(向量脉络):无代码AI工作流构建平台-首席AI分享圈

Vector Vein: Code-freie KI-Plattform zur Erstellung von Workflows

Allgemeine Einführung Vector Vein ist eine codefreie Plattform zur Erstellung von KI-Workflows, mit der Benutzer auf einfache Weise intelligente, automatisierte Workflows erstellen können. Ohne Programmierkenntnisse können Benutzer komplexe KI-Workflows erstellen, indem sie einfach verschiedene Funktionsmodule per Drag-and-Drop verbinden. Die Plattform kombiniert...

LivePortrait:静态图像、视频生成动态肖像动画工具-首席AI分享圈

LivePortrait: Animationswerkzeug zur Erstellung dynamischer Porträts aus Standbildern und Videos

Allgemeine Einführung LivePortrait ist ein fortschrittliches KI-Tool für dynamische Porträtanimationen, das von Racer Technology entwickelt wurde. Es nutzt eine innovative KI-Technologie, um Standbilder in lebendige Videoanimationen zu verwandeln. Ob Sie echte Fotos, animierte Stile oder künstlerische Porträts verwenden, LivePortrait liefert hochwertige...

PhiData:构建拥有记忆、知识和工具的AI智能体-首席AI分享圈

PhiData: Aufbau von KI-Intelligenzen mit Gedächtnis, Wissen und Werkzeugen

Umfassende Einführung PhiData ist ein Framework für die Entwicklung intelligenter KI-Assistenten. Es ermöglicht KI-Assistenten, langfristige Gespräche zu führen, genauen Geschäftskontext bereitzustellen und verschiedene Operationen auszuführen, indem es das Gedächtnis, die Wissensintegration und die Fähigkeiten zum Aufrufen von Werkzeugen verbessert.PhiData verbessert nicht nur die Intelligenz von KI-Assistenten, sondern...

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)-首席AI分享圈

ChatTTS: ein Spracherzeugungsmodell, das die Stimme eines echten Sprechers imitiert (ChatTTS-Beschleunigungspaket mit einem Klick)

Allgemeine Einführung ChatTTS ist ein generatives Sprachmodell, das für Dialogszenarien entwickelt wurde. Es erzeugt natürliche und ausdrucksstarke Sprache, unterstützt mehrere Sprachen und mehrere Sprecher und ist für interaktive Dialoge geeignet. Das Modell geht über das Grobe hinaus, indem es feinkörnige prosodische Merkmale wie Lachen, Pausen und Zwischenrufe vorhersagt und kontrolliert...

MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪-首席AI分享圈

MoneyPrinterPlus: KI-Tool zur Erstellung von Kurzvideos mit einem Klick, kostenloses Batch-Mixing

Umfassende Einführung MoneyPrinterPlus ist ein Open-Source-Projekt, das darauf abzielt, alle Arten von Kurzvideos mit einem Klick durch KI-Technologie zu erzeugen und zu mischen und sie automatisch auf mehreren Videoplattformen wie Jieyin, Shutterbugs, Xiaohongshu und Video Number zu veröffentlichen. Das Tool unterstützt lokale und cloudbasierte Sprachmodelle, darunter chatTTS, fasterwhisper, G...

TF-ID:学术论文表格/图像识别工具-首席AI分享圈

TF-ID: Akademisches Papierformular/Bilderkennungstool

Umfassende Einführung TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen zur Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten. Das Projekt wurde von Yifei Hu entwickelt und auf GitHub veröffentlicht. TF-ID-Modelle sind darauf abgestimmt, Tabellen und Bilder aus wissenschaftlichen Arbeiten zu erkennen und zu extrahieren...

Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序-首席AI分享圈

Chatbot UI: eine quelloffene KI-Chat-App, die die Oberfläche und Funktionalität von ChatGPT nachahmt

Allgemeine Einführung Chatbot UI ist ein Open-Source-Projekt, das Entwicklern helfen soll, personalisierte und intelligente Konversationsschnittstellen zu erstellen. Das Projekt bietet eine Reihe von Schnittstellenkomponenten und interaktiven Funktionen, die einfach in ein bestehendes Chatbot-System integriert werden können, um den Nutzern ein reibungsloseres und intelligenteres Dialogerlebnis zu bieten...

GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面-首席AI分享圈

GLIGEN GUI: Präzise Steuerung der Position von Bildelementen, intuitive grafische Oberfläche basierend auf ComfyUI

Allgemeine Einführung GLIGEN GUI ist eine intuitive grafische Benutzeroberfläche auf der Basis von ComfyUI, die die Verwendung des GLIGEN-Modells vereinfacht, eines neuartigen Text-Bild-Modells, das die präzise Angabe der Position von Objekten in einem Bild ermöglicht. Mit GLIGEN GUI wird der Benutzer aufgefordert, Kästchen zu zeichnen und Text einzugeben...

Easy Voice Toolkit:本地部署的AI语音工具箱-首席AI分享圈

Easy Voice Toolkit: AI Voice Toolkit für den lokalen Einsatz

Umfassende Einführung Easy-Voice-Toolkit ist ein multifunktionales Toolkit, das auf dem Open Source Speech Project basiert und eine breite Palette an automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv oder sequentiell einsetzen...

FaceFusion:视频换脸增强工具|语音同步视频嘴型动作-首席AI分享圈

FaceFusion: Video Face Swap Enhancement Tool | Voice Sync Video Mouth Moves

Allgemeine Einführung FaceFusion ist eine fortschrittliche Cloud-Plattform mit integrierten Gesichtsaustausch- und -verbesserungsfunktionen, die den Bild-zu-Video- und Bild-zu-Bild-Austauschprozess mit 5 professionellen Modellen optimiert, um eine makellose Ausgabe zu gewährleisten. Darüber hinaus führt es eine Gesichtsverbesserung mit 7 Modellen durch, wobei 3 verschiedene Modelle zur...

Kotaemon:简单部署的开源多模态文档问答工具-首席AI分享圈

Kotaemon: ein einfach zu verwendendes Open-Source-Werkzeug für multimodale Dokumentenquizs

Allgemeine Einführung Kotaemon ist ein quelloffenes Q&A-Tool für Dokumente, das Endnutzern und Entwicklern Q&A-Funktionen auf der Grundlage von Retrieval Augmented Generation (RAG) bietet. Das von Cinnamon entwickelte Projekt unterstützt eine Vielzahl von LLM-API-Anbietern (z.B. OpenAI, AzureOpenAI, Cohere, etc.) sowie native...

HivisionIDPhotos:开源智能AI证件照制作工具-首席AI分享圈

HivisionIDPhotos: Open-Source-Tool zur Erstellung intelligenter KI-Foto-IDs

Umfassende Einführung HivisionIDPhotos ist ein Open-Source-Leichtbau-KI-Dokument Foto-Produktions-Tools, kann intelligent identifizieren den Benutzer Foto-Szene und Keying, um ein Standard-Dokument Foto im Einklang mit einer Vielzahl von Spezifikationen zu generieren. Das Tool unterstützt benutzerdefinierte Hintergrundfarbe und Größe, die Zukunft wird auch Schönheit und intelligente Änderung der formalen Kleidungsfunktion einzuführen. Mit...

Marker:快速将PDF转换为Markdown的开源工具-首席AI分享圈

Marker: PDF schnell in Markdown konvertieren Open-Source-Tools

Allgemeine Einführung Marker ist ein auf Deep Learning basierendes Tool zur Dokumentenverarbeitung, das PDF-Dateien schnell und präzise in das Markdown-Format konvertiert. Es unterstützt eine breite Palette von Dokumenttypen und ist besonders für die Konvertierung von Büchern und wissenschaftlichen Arbeiten optimiert.Marker ist in der Lage, überflüssige Inhalte wie Kopf- und Fußzeilen zu entfernen, Tabellen zu formatieren und...

SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人-首席AI分享圈

SadTalker: Fotos zum Sprechen bringen | Mouth Sync Audio | Synthesised Mouth Sync Video | Free Digital People

Allgemeine Einführung SadTalker ist ein Open-Source-Tool, das einzelne Porträtfotos und Audiodateien kombiniert, um realistische Videos mit sprechenden Köpfen für eine Vielzahl von Szenarien zu erstellen, z. B. für personalisierte Nachrichten, Bildungsinhalte und mehr. Der revolutionäre Einsatz von 3D-Modellierungstechnologien wie ExpNet und PoseVAE zeichnet sich durch die Erfassung der subtilen Facetten...

de_DEDeutsch