AI Open-Source-Projekt

Insgesamt 1020 Artikel
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: Allround-Tool für die AI-Bildbearbeitung, Löschen, Erweitern, Ersetzen von Elementen und Zeichnen von Text.

Allgemeine Einführung IOPaint ist ein kostenloses und quelloffenes KI-Bildbearbeitungsprogramm, das das Löschen, Reparieren und Erweitern von Bildern unterstützt. Es verwendet hochmoderne KI-Modelle, um Benutzern zu helfen, unerwünschte Objekte aus Bildern zu entfernen, Fehler zu reparieren, neue Inhalte hinzuzufügen und sogar Bilder zu...
vor 10 Monaten
010.8K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: Multi-Agenten-Kollaboration zur Durchführung von Literaturrecherchen und Erstellung von Forschungsberichten

Allgemeine Einführung Auto-Deep-Research ist ein Open-Source-KI-Tool, das vom Data Intelligence Laboratory der Universität Hongkong (HKUDS) entwickelt wurde und Benutzern helfen soll, Deep-Research-Aufgaben zu automatisieren. Es baut auf dem AutoAgent-Framework auf und unterstützt mehrere große Sprachmodelle...
vor 4 Monaten
04.5K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Video Face Swap Enhancement Tool | Voice Sync Video Mouth Moves

Allgemeine Beschreibung FaceFusion ist eine hochmoderne Cloud-Plattform mit integriertem Gesichtsaustausch und -verbesserung, die für den Bild-zu-Video- und Bild-zu-Bild-Austausch optimiert ist und mit 5 professionellen Modellen für eine einwandfreie Ausgabe sorgt. Darüber hinaus führt es eine Gesichtsverbesserung mit 7 Modellen unter Verwendung von 3...
vor 6 Monaten
03.9K
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端

Cherry Studio: Desktop-Client für KI-Assistenten mit integrierter API/Web/lokalen Modellen

Allgemeine Einführung Cherry Studio ist ein Desktop-Client, der eine breite Palette von Large Language Model (LLM)-Diensten unterstützt und mit Windows-, Mac- und Linux-Systemen kompatibel ist. Es bietet eine Fülle von Personalisierungsoptionen und hochmodernen Funktionen, die Benutzern in einer Vielzahl von Bereichen helfen...
vor 6 Monaten
03.8K
CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签

CosyVoice: Open-Source-Projekt zum Klonen von 3-Sekunden-Stimmen von Ali mit Unterstützung für gefühlsgesteuerte Tags

Umfassende Einführung CosyVoice ist ein mehrsprachiges, groß angelegtes Spracherzeugungsmodell, das umfassende Funktionen von der Inferenz über das Training bis zur Bereitstellung bietet. Es wurde vom FunAudioLLM-Team entwickelt und zielt darauf ab, eine hohe Sprachqualität durch fortschrittliche autoregressive Transformatoren und ODE-basierte Diffusionsmodelle zu erreichen...
vor 6 Monaten
03.7K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: automatisierte interaktive Intelligenzen für soziale Medien, die automatisch suchen, liken und Kommentare hinterlassen

Allgemeine Einführung Riona-AI-Agent ist ein innovatives KI-gestütztes Automatisierungstool, das speziell für die Verwaltung und Optimierung des Betriebs der wichtigsten Social-Media-Plattformen entwickelt wurde. Das Projekt nutzt fortschrittliche KI-Modelle für Plattformen wie Instagram, Twitter und GitHub, um die...
vor 6 Monaten
03.4K
OpenHands:AI 驱动的软件开发多智能代理助手,覆盖开发者各类操作

OpenHands: KI-gesteuerter, multiintelligenter Agent-Assistent für die Softwareentwicklung, der alle Arten von Entwicklertätigkeiten abdeckt

Allgemeine Einführung OpenHands ist ein Open-Source-Projekt, das vom All-Hands-AI-Team entwickelt wurde, um den Softwareentwicklungsprozess durch KI-Technologie zu rationalisieren. Früher bekannt als OpenDevin und jetzt umbenannt in OpenHands, bietet die Plattform leistungsstarke...
vor 7 Monaten
03.3K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Video Analyzer: analysiert Videoinhalte und erstellt detaillierte Beschreibungen

Comprehensive Introduction Video Analyzer ist ein umfassendes Videoanalysetool, das Computer Vision, Audiotranskription und Techniken zur Verarbeitung natürlicher Sprache kombiniert, um detaillierte Beschreibungen von Videoinhalten zu erstellen. Das Tool transkribiert Audioinhalte, indem es Schlüsselbilder aus dem Video extrahiert...
vor 6 Monaten
03.2K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: Visualisierung der Struktur von GitHub-Code-Repositories und Umwandlung von Code-Repositories in interaktive Systemarchitekturdiagramme.

Allgemeine Einführung GitDiagram ist ein innovatives Tool zur Visualisierung der GitHub-Codebasis, das jedes GitHub-Repository schnell in ein interaktives Systemarchitekturdiagramm verwandelt. Es nutzt fortschrittliche KI-Technologie (Claude 3.5 Sonnet), um Entwicklern ein...
vor 7 Monaten
03.2K
EXO:利用闲置家用设备运行分布式AI集群,支持多种推理引擎和自动设备发现。

EXO: Betrieb verteilter KI-Cluster unter Verwendung ungenutzter Haushaltsgeräte, Unterstützung mehrerer Inferenz-Engines und automatischer Geräteerkennung.

Allgemeine Einführung Exo ist ein Open-Source-Projekt, das entwickelt wurde, um seinen eigenen KI-Cluster mit alltäglichen Geräten (z.B. iPhone, iPad, Android, Mac, Linux, etc.) zu betreiben. Durch dynamische Modellpartitionierung und automatische Geräteerkennung ist Exo in der Lage, mehrere Geräte zu einem...
vor 8 Monaten
03.1K
cognee:基于知识图谱构建的RAG开源框架,核心prompts学习

cognee: ein Open-Source-Framework für wissensgraphenbasierte RAG-Konstruktion, Kernprompts zum Lernen

Allgemeine Einführung Cognee ist eine zuverlässige Datenschichtlösung für KI-Anwendungen und KI-Agenten. Sie wurde entwickelt, um LLM-Kontexte (Large Language Models) zu laden und zu erstellen, um genaue und interpretierbare KI-Lösungen durch Wissensgraphen und Vektorspeicher zu schaffen. Das Framework begünstigt kostensparende, interpretierbare...
vor 7 Monaten
03.1K
Dify:生成式AI应用开发平台,可视化编排, 支持私有化部署

Dify: Generative KI-Anwendungsentwicklungsplattform, visuelle Orchestrierung, Unterstützung bei der privaten Bereitstellung

Umfassende Einführung Dify ist eine Open-Source-Plattform für die Entwicklung generativer KI-Anwendungen, die Entwicklern helfen soll, schnell native KI-Anwendungen auf der Grundlage von Large Language Models (LLMs) zu erstellen und zu betreiben. Die Plattform bietet alles von der Agentenerstellung bis zur KI-Workflow-Orchestrierung, RAG-Abfrage...
vor 7 Monaten
03K
PDFMathTranslate:保留PDF完整排版的AI翻译工具

PDFMathTranslate: KI-Übersetzungswerkzeug, das die vollständige Typografie von PDFs bewahrt

Umfassende Einführung PDFMathTranslate ist ein Open-Source-Tool auf die Übersetzung von wissenschaftlichen Arbeiten konzentriert, können PDF-Dokumente in vollem Umfang übersetzt werden und erzeugen eine zweisprachige Version. Es verwendet AI-Technologie, um das ursprüngliche Dokument-Layout zu erhalten, einschließlich Formeln, Diagramme, Inhaltsverzeichnisse und Notizen, Unterstützung ...
vor 2 Monaten
03K
Smolagents: Open-Source-Projekt für die schnelle Entwicklung von KI-Intelligenzen und die leichtgewichtige Konstruktion von Intelligenzen

Smolagents: Open-Source-Projekt für die schnelle Entwicklung von KI-Intelligenzen und die leichtgewichtige Konstruktion von Intelligenzen

Umfassende Einführung Smolagents ist eine leichtgewichtige intelligente Agentenbibliothek, die von HuggingFace entwickelt wurde und sich auf die Vereinfachung des Entwicklungsprozesses von KI-Agentensystemen konzentriert. Das Projekt ist bekannt für seine einfache Designphilosophie mit nur etwa 1000 Zeilen Kerncode und bietet dennoch leistungsstarke Funktionen zur Integration. Es ist sehr ...
vor 7 Monaten
03K
Page Assist:本地AI模型对话与检索文档的网页助手插件

Page Assist: Web-Assistent-Plugin für nativen KI-Modell-Dialog und Abruf von Dokumenten

Allgemeine Einführung Page Assist ist eine Open-Source-Browser-Erweiterung, die Benutzern eine einfache Möglichkeit zur Interaktion mit lokalen KI-Modellen bietet. Mit dieser Erweiterung können Benutzer eine Seitenleiste auf jeder Webseite öffnen, um mit lokal laufenden KI-Modellen zu interagieren....
vor 4 Monaten
03K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: ein Open-Source-Framework für den Einsatz von KI-Intelligenzen beim Browsen im Internet, das es KI ermöglicht, Webseiten automatisch zu bearbeiten

Allgemeine Einführung Browser Use Web UI ist ein innovatives Open-Source-Projekt, das sich auf die Bereitstellung von KI-Agenten mit Browser-Interaktionsfähigkeiten als grafisches Schnittstellenwerkzeug konzentriert. Das Projekt baut auf dem Kern-Framework von Browser Use auf, das mit Gradio ...
vor 2 Monaten
02.9K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Komplettes digitales menschliches Videogenerierungs-Framework | Portrait zu Video | Pose zu Video | Lippensynchronisation

Allgemeine Einführung MuseV ist ein öffentliches Projekt auf GitHub mit dem Ziel, Avatar-Videos von unbegrenzter Länge und hoher Wiedergabetreue zu erzeugen. Es basiert auf Diffusionstechnologie und bietet Image2Video, Text2Image2Video, Video2Video...
vor 8 Monaten
02.9K
PraisonAI:低代码多智能体框架,简化复杂任务的自动化解决方案

PraisonAI: Ein Low-Code Multi-Intelligent Body Framework zur Vereinfachung von Automatisierungslösungen für komplexe Aufgaben

Umfassende Einführung PraisonAI ist ein sofort einsatzbereites Multi-Intelligenz-Framework für Produktionsumgebungen, das für die Erstellung von KI-Intelligenzen zur Automatisierung und Lösung von Problemen entwickelt wurde, die von einfachen Aufgaben bis zu komplexen Herausforderungen reichen. Das Framework bietet eine Low-Code-Lösung, die den Aufbau von multi-intelligenten Body-LLM-Systemen vereinfacht und...
vor 6 Monaten
02.9K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Umfassende Einführung Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket verfügbar als auch als benutzerfreundliche Strea...
vor 7 Monaten
02.9K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: Tool für hochwertige Video-Lippensynchronisation, optimiert für Wav2Lip

Allgemeine Einführung Easy-Wav2Lip ist ein verbessertes Tool, das auf Wav2Lip basiert und den Prozess der Video-Lippensynchronisation vereinfachen soll. Das Tool bietet eine einfachere Einrichtung und Implementierung mit Unterstützung für Google Colab und lokale Installation. Durch die Optimierung des Algorithmus, Ea...
vor 8 Monaten
02.9K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: Entwicklung intelligenter Web-Automatisierungs-Tools für KI-Intelligenz zur einfachen Bedienung von Browsern

Umfassende Einführung Browser-Use ist ein innovatives Open-Source-Web-Automatisierungstool, das speziell entwickelt wurde, um Sprachmodelle (LLMs) in die Lage zu versetzen, auf natürliche Weise mit Websites zu interagieren. Es bietet ein leistungsfähiges und flexibles Framework, das eine breite Palette von Mainstream-Sprachmodellen unterstützt, darunter GPT-4, Claud...
vor 8 Monaten
02.8K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: Werkzeug zur Umwandlung von Sprache in Untertitel, leichtgewichtiger Client mit integrierten Schnittstellen zu Cutscene, Racer und Must-Cut

Umfassende Einführung AsrTools ist ein intelligentes Sprache-zu-Text-Tool mit eingebauten Schnittstellen von großen Herstellern wie Cutscene, Racer, Must Cut, usw. Es erfordert keine GPU oder umständliche Konfiguration und unterstützt effiziente Multi-Thread-Batch-Verarbeitung. Es basiert auf PyQt5 Entwicklung, schöne und benutzerfreundliche Schnittstelle, in der Lage, SRT und TXT-Format Wörter auszugeben...
vor 10 Monaten
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master Chinesische Version: Cue-Word-Tool zur Optimierung der Porträt-Erstellung

Allgemeine Einführung ComfyUI Portrait Master (chinesische Version) ist ein Werkzeug zur Erstellung von Porträtstichwörtern, das für KI-Bildgestalter entwickelt wurde. Das Tool hilft dem Benutzer, qualitativ hochwertige Porträts zu erstellen, indem es die Stichwörter optimiert. Die Benutzer können verschiedene Linsen je nach Bedarf auswählen...
vor 11 Monaten
02.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: Open Source Spracherkennungs-Toolkit, Sprechertrennung / Mehr-Personen-Dialog-Spracherkennung

Umfassende Einführung FunASR ist ein Open-Source-Spracherkennungs-Toolkit, das von der Alibaba Dharmo Academy entwickelt wurde, um akademische Forschung und industrielle Anwendungen zu verbinden. Es unterstützt eine breite Palette von Spracherkennungsfunktionen, einschließlich Spracherkennung (ASR), Voice Endpoint Detection (VAD), Interpunktionswiederherstellung, Sprachmodellierung,...
vor 10 Monaten
02.8K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: Eine multiintelligente Körper-Sprach-Interaktions-Anwendung (OpenAI-Beispiel)

Allgemeine Einführung OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-API von OpenAI verwendet werden kann, um multi-intelligente Körpersprache-Anwendungen zu erstellen. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt von OpenAI Swarm), das es erlaubt,...
vor 7 Monaten
02.8K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: Autonom ausführende Multi-Intelligenz, ein voll funktionsfähiges Open-Source-Framework zur Entwicklung intelligenter Körper

Umfassende Einführung Eliza ist eine fortschrittliche Multi-Intelligenz Körper (Multi-Agent) Entwicklungsrahmen, ist zur Vereinfachung der Konstruktion und Bereitstellung von autonomen intelligenten Körper (Autonomous Agent) Prozess verpflichtet. Es unterstützt den Einsatz von mehreren intelligenten Körpern mit unterschiedlichen Rolleneinstellungen, kann intelligente ...
vor 7 Monaten
02.8K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D (Hunyuan3D): Erzeugung hochauflösender 3D-Assets, mehrere Workflows zur Erzeugung von 3D-Material

Umfassende Einführung Tencent Hunyuan3D (Hunyuan3D 2.0) ist ein fortschrittliches, groß angelegtes 3D-Compositing-System von Tencent, das für die Erzeugung hochauflösender texturierter 3D-Assets entwickelt wurde. Das System besteht aus zwei Kernkomponenten: Hunyuan3D-DiT, einem groß angelegten Modell zur Formerzeugung, und Hunyuan3D-DiT, einer groß angelegten Textur...
vor 7 Monaten
02.7K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...
vor 8 Monaten
02.7K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI Hedge Fund: quelloffenes automatisiertes Handelssystem, das mehrere Intelligenzen nutzt, um komplexe Handelsentscheidungen für Hedgefonds zu treffen

Allgemeine Einführung AI Hedge Fund ist ein Hedgefonds mit künstlicher Intelligenz, der ein Multi-Agenten-System nutzt, um Handelsentscheidungen zu treffen. Das System arbeitet mit mehreren spezialisierten Agenten zusammen, darunter Marktdaten-Agenten, quantitative Agenten, Risikomanagement-Agenten und Portfoliomanagement-Agenten, um komplexe Handelsentscheidungen...
vor 7 Monaten
02.7K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: ein Open-Source-Projekt zur Verbesserung des Langzeitgedächtnisses von Agenten mithilfe von Wissensgraphen

Allgemeine Einführung Memary ist ein innovatives Open-Source-Projekt, das sich auf die Bereitstellung von Langzeitspeicherverwaltungslösungen für autonome Intelligenzen konzentriert. Das Projekt hilft Intelligenzen, die Grenzen traditioneller Kontextfenster zu durchbrechen, um durch Wissensgraphen und spezialisierte Speichermodule intelligentere Interaktionserfahrungen zu machen....
vor 7 Monaten
02.7K
OpenBB:开源金融数据分析平台,集成私有数据集和 AI 来增强投资决策

OpenBB: Open-Source-Finanzdaten-Analyseplattform, die private Datensätze und KI zur Verbesserung der Anlageentscheidungen integriert

Allgemeine Einführung OpenBB ist eine kostenlose und vollständig quelloffene Finanzdaten-Analyseplattform, die entwickelt wurde, um einen einfachen Zugang zu Finanzdaten und Analysetools für alle zu ermöglichen. Die Plattform integriert über 100 verschiedene Datenquellen, die Aktien, Optionen, Kryptowährungen, Forex, makroökonomische Indikatoren,...
vor 7 Monaten
02.7K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: eine quelloffene KI-Chat-App, die die Oberfläche und Funktionalität von ChatGPT nachahmt

Allgemeine Einführung Chatbot UI ist ein Open-Source-Projekt, das Entwicklern helfen soll, personalisierte und intelligente Konversationsschnittstellen zu erstellen. Das Projekt bietet eine Reihe von Schnittstellenkomponenten und interaktiven Funktionen, die leicht in das bestehende Chatbot-System integriert werden können, um den Benutzern einen flüssigeren und intelligenteren Dialogkörper zu bieten...
vor 11 Monaten
02.7K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: das klassische Open-Source-Tool zum Einfärben von Schwarz-Weiß-Fotos und Videos mit Hilfe von KI-Techniken

Umfassende Einführung DeOldify ist ein Open-Source-Projekt, das auf Deep-Learning-Technologie basiert und sich der intelligenten Einfärbung und Restaurierung von Schwarzweißfotos und -videos widmet. Das Projekt verwendet eine innovative NoGAN-Trainingsmethode, um die üblichen Mängel herkömmlicher GAN-Netzwerke bei der Bildeinfärbung erfolgreich zu beheben...
vor 8 Monaten
02.7K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: Automatische Analyse und Verschlagwortung von Dokumenten mittels KI für das Dokumentenmanagementsystem paperless-ngx

Allgemeine Einführung Paperless-AI ist ein innovatives Analyse-Tool zur Automatisierung von Dokumenten, das speziell für das Dokumentenmanagement-System Paperless-ngx entwickelt wurde. Es kombiniert auf clevere Weise die OpenAI-API mit einer Vielzahl von fortschrittlichen KI-Modellen wie Ollama...
vor 7 Monaten
02.7K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Schnelle Konvertierung von Github-Code-Repositories in Text, der für LLM-Verständnis geeignet ist

Allgemeine Einführung GitIngest ist ein Open-Source-Tool zur Umwandlung von GitHub-Code-Repositories in Text, der für Large Language Model (LLM)-Hinweise geeignet ist. Mit einem einfachen Vorgang können Benutzer den Inhalt eines beliebigen GitHub-Repository extrahieren und formatieren, damit er in das LLM passt...
vor 8 Monaten
02.7K
RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

RAGFlow: eine quelloffene RAG-Engine, die auf einem tiefgreifenden Verständnis von Dokumenten basiert und effiziente Retrieval-gestützte Generierungsworkflows ermöglicht

Umfassende Einführung RAGFlow ist eine quelloffene Retrieval Augmented Generation (RAG)-Engine, die auf der Deep Document Understanding-Technologie basiert. Sie bietet einen effizienten RAG-Workflow für Unternehmen jeder Größe, der ein umfangreiches Sprachmodell (LLM) beinhaltet, das Daten in komplexen Formaten auf der Basis von...
vor 7 Monaten
02.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: Einfach zu bedienende Schnittstellenversion des Multiagentensystems AutoGen

Allgemeine Beschreibung AutoGen Studio 2.0 ist eine von AutoGen unterstützte Benutzeroberfläche, die den Prozess der Erstellung und Verwaltung von Multi-Agenten-Lösungen vereinfachen soll. Die Plattform ermöglicht es Benutzern, Agenten und ihre Arbeitsabläufe über eine intuitive Schnittstelle deklarativ zu definieren und zu modifizieren...
vor 7 Monaten
02.7K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: Erzeugung von synchronisierten Soundeffekten und Tonspuren für Videomaterial, multimodales Co-Trainingstool für Video und Audio

Allgemeine Einführung MMAudio ist ein Open-Source-Projekt, das darauf abzielt, durch gemeinsames multimodales Training hochwertiges synchronisiertes Audio zu erzeugen. Entwickelt von Ho Kei Cheng et al. an der Chinese University of Hong Kong, besteht die Hauptfunktion des Projekts in der Erzeugung von synchronisiertem Audio auf der Grundlage von Video- und/oder Texteingaben....
vor 8 Monaten
02.7K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: quelloffenes, interaktives, digitales Echtzeit-Live-System, das einen synchronen Audio- und Videodialog ermöglicht

Umfassende Einführung LiveTalking ist ein Open-Source-Echtzeit-interaktive digitale menschliche System, ist verpflichtet, hochwertige digitale menschliche Live-Lösung zu bauen. Das Projekt verwendet das Apache 2.0 Open-Source-Protokoll, integriert mit einer Reihe von Spitzentechnologien, einschließlich ER-NeRF-Rendering, Echtzeit-Audio-und Video-Streaming-Verarbeitung ...
vor 7 Monaten
02.6K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: Ein einheitliches Bildgenerierungsmodell mit multimodalen Eingaben zur Generierung zeichenkonsistenter Bilder

Allgemeine Einführung OmniGen ist ein von VectorSpaceLab entwickeltes "universelles" Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Effekte zu erzeugen. Es eignet sich besonders gut für Anwendungen, bei denen es auf die Erkennung von...
vor 9 Monaten
02.6K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: Kommandozeilentool zur Nutzung von MCP-Diensten in jedem großen Modell, unabhängig von Claude.

Umfassende Einführung Der Model Context Provider CLI (mcp-cli) ist ein Befehlszeilenwerkzeug auf Protokollebene für die Interaktion mit einem Model Context Provider-Server. Mit diesem Tool können Benutzer Befehle senden, Daten abfragen und mit verschiedenen vom Server bereitgestellten Ressourcen interagieren...
vor 5 Monaten
02.6K
LibreChat:模仿ChatGPT界面交互的AI对话开源项目

LibreChat: Open-Source-Projekt für KI-Dialoge, das die ChatGPT-Interaktion nachahmt

Allgemeine Einführung LibreChat ist eine freie, quelloffene KI-Chat-Plattform mit umfangreichen Anpassungsmöglichkeiten und Unterstützung für mehrere KI-Anbieter, Dienste und Integrationen. Sie vereint alle KI-Unterhaltungen an einem Ort mit einer vertrauten Oberfläche und innovativen Funktionen und unterstützt mehrere KI-Modelle, Plugins und mehrere Sprachen. Von...
vor 12 Monaten
02.6K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: ein Videoplayer, der in Echtzeit Untertitel mit zweisprachiger Übersetzung erzeugt

Allgemeine Einführung LLPlayer ist ein Open-Source-Medienplayer für Sprachschüler, der auf GitHub gehostet und vom Entwickler umlx5h erstellt wurde. Es integriert eine Vielzahl von nützlichen Funktionen wie zweisprachige Untertitel-Anzeige, AI automatisch generierte Untertitel, Echtzeit-Übersetzung und Wortsuche...
vor 2 Monaten
02.6K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Umfassende Einführung MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team am Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDFs zu verarbeiten, die Bilder, Formeln, Tabellen und andere Elemente enthalten...
vor 10 Monaten
02.6K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: Ein professionelles Wissensdatenbank-Q&A-Framework für hybride Wissensgraphen- und Vektor-Retrieval

Umfassende Einführung KAG (Knowledge Augmented Generation) ist ein logisches, formgeleitetes Reasoning- und Retrieval-Framework, das auf der OpenSPG-Engine und Large Language Models (LLMs) basiert. Das Framework ist speziell für den Aufbau professioneller Wissensdatenbanken konzipiert...
vor 8 Monaten
02.6K
OpenSPG:开源知识图谱引擎

OpenSPG: Open-Source-Wissensgraphen-Engine

Umfassende Einführung OpenSPG ist eine Open-Source-Wissensgraphen-Engine, die von der Ant Group in Zusammenarbeit mit OpenKG entwickelt wurde und auf dem SPG-Framework (Semantic Augmented Programmable Graph) basiert. Die Engine wurde entwickelt, um Funktionen wie explizite semantische Repräsentation, logische Regeldefinition und einen operativen Rahmen zur Unterstützung der Konstruktion und Verwaltung von Wissensgraphen zu bieten...
vor 11 Monaten
02.5K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: ein intelligenter KI-Desktop-Assistent, der auf Gemini aufbaut und sehen, hören und sprechen kann

Allgemeine Einführung Gemini Cursor ist ein intelligenter Desktop-Assistent, der auf Googles Gemini 2.0 Flash-Modell (experimentell) basiert. Er ermöglicht visuelle, auditive und sprachliche Interaktionen über eine multimodale API und bietet Echtzeit-Niedrig-Latenz-Nutzung...
vor 6 Monaten
02.5K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: Open-Source-Projekt, mit dem KI den Fernbetrieb von Computern übernehmen und sie mit natürlicher Sprache steuern kann

Allgemeine Einführung NeoAI ist ein innovatives Open-Source-KI-Assistententool, mit dem Benutzer ihre Computer durch Dialoge in natürlicher Sprache einfach steuern und verwalten können. Ohne irgendeinen Code zu schreiben, können Benutzer Dateisuche, Aufgabenautomatisierung, Gerätemanagement und vieles mehr mit nur einem täglichen Dialog durchführen.NeoAI...
vor 7 Monaten
02.5K
Langflow:构建强大AI智能体和工作流的低代码工具

Langflow: ein Low-Code-Tool zur Erstellung leistungsstarker KI-Intelligenzen und Workflows

Allgemeine Einführung Langflow ist ein Low-Code-Tool für Entwickler, um leistungsstarke KI-Agenten und Workflows zu erstellen. Es unterstützt die Verwendung einer beliebigen API, eines Modells oder einer Datenbank und vereinfacht so die Entwicklung komplexer KI-Anwendungen.Langflow bietet eine intuitive visuelle...
vor 8 Monaten
02.5K