AI Open-Source-Projekt

Insgesamt 1020 Artikel
Agent S:像人类一样操作电脑的开源智能体框架

Agent S: Ein Open Source Framework für intelligente Körper, die Computer wie Menschen bedienen können

Allgemeine Einführung Agent S ist ein von Simular AI entwickeltes Open-Source-Framework, mit dem Intelligenzen Computer über eine grafische Benutzeroberfläche (GUI) wie Menschen bedienen können. Er verwendet ein multimodales großes Sprachmodell und empirische Lerntechniken, um Aufgaben wie das Surfen im Internet, das Bearbeiten von Dokumenten, die Verwendung von Software...
vor 4 Monaten
01.3K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice: eine grafische Text-zu-Sprache-Schnittstelle auf der Grundlage von Silizium-basierten Flow-APIs

Allgemeine Einführung Text2Voice ist ein Open-Source-Tool, das Text-to-Speech-Funktionalität auf der Grundlage einer Silizium-basierten Mobilitäts-API bietet, mit einer sauberen grafischen Benutzeroberfläche (GUI) als seine beste Eigenschaft. Es wurde vom Entwickler Sheldon Lee auf GitHub erstellt, um...
vor 4 Monaten
01.2K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: ein Open-Source-Tool für Videoerkennung und Objektsegmentierung in Echtzeit

YOLOE ist ein Open-Source-Projekt, das von der Multimedia Intelligence Group (THU-MIG) an der School of Software der Tsinghua University entwickelt wurde und den vollständigen Namen "You Only Look Once Eye" trägt. Es basiert auf dem PyTorch-Framework, gehört zur YOLO-Serie von Erweiterungen ...
vor 4 Monaten
01.2K
集成多种先进语音合成服务的开源运营项目

Operatives Open-Source-Projekt, das mehrere fortschrittliche Sprachsynthesedienste integriert

Allgemeine Einführung Open-VoiceCanvas ist eine Open-Source-Plattform für Sprachsynthese, die vom ItusiAI-Team entwickelt wurde. Sie unterstützt mehr als 50 Sprachen, kann Text in natürliche Sprache umwandeln und durch Hochladen von Audiodaten personalisierte Stimmen klonen. Das Projekt integriert Ope...
vor 4 Monaten
01.6K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: Video nach Zeitstempel Positionierung Inhalt und Q&A Open-Source-Projekt

Allgemeine Einführung VideoMind ist ein quelloffenes multimodales KI-Tool, das sich auf Inferenz, Fragen und Zusammenfassungen für lange Videos konzentriert. Es wurde von Ye Liu von der Hong Kong Polytechnic University und einem Team des Show Lab an der National University of Singapore entwickelt. Das Tool imitiert das menschliche Verständnis von Videos...
vor 2 Monaten
01.3K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ein Open-Source-Tool zur automatischen Segmentierung beliebiger bewegter Objekte aus Videos

Allgemeine Einführung SegAnyMo ist ein Open-Source-Projekt, das von einem Team von Forschern der UC Berkeley und der Universität Peking entwickelt wurde, darunter Mitglieder wie Nan Huang. Dieses Tool konzentriert sich auf die Videoverarbeitung und kann automatisch beliebige sich bewegende Objekte in einem Video identifizieren und segmentieren, wie zum Beispiel Menschen, Tiere oder...
vor 4 Monaten
01.2K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: Open-Source-Framework zur Erzeugung von Videos beliebiger 3D- und 4D-Szenen

Allgemeine Einführung GenXD ist ein Open-Source-Projekt, das von der National University of Singapore (NUS) und dem Microsoft-Team entwickelt wurde. Es konzentriert sich auf die Generierung beliebiger 3D- und 4D-Szenen, um das Problem der 3D- und 4D-Generierung in der realen Welt zu lösen, das durch unzureichende Daten und die Komplexität des Modelldesigns entsteht. Das Projekt wurde entwickelt von ...
vor 4 Monaten
01.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus Fotos

Allgemeine Einführung ChatAnyone ist ein innovatives Projekt, das vom HumanAIGC-Team entwickelt wurde. Es nutzt Techniken der künstlichen Intelligenz, um aus einem einzigen Foto und einer Audioeingabe digitale menschliche Porträtvideos mit Oberkörperbewegungen zu erzeugen. Das Projekt basiert auf einem hierarchischen Bewegungsdiffusionsmodell, das Kopfbewegungen erzeugt...
vor 4 Monaten
01.3K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity: ein Open-Source-Projekt zum Trainieren von KI für die Durchführung von Webaktionen mit menschlichen Demonstrationen

Allgemeine Einführung Optexity ist ein Open-Source-Projekt auf GitHub, das vom Optexity-Team entwickelt wurde. Sein Kern ist es, menschliche Demonstrationsdaten zu verwenden, um KI zu trainieren, um Computeraufgaben zu erledigen, insbesondere Webseitenoperationen. Das Projekt enthält drei Code-Bibliotheken: Compute...
vor 4 Monaten
01.4K
Paper to Podcast:把学术论文转换为多人对话播客

Paper to Podcast: Umwandlung akademischer Papiere in Podcasts mit Konversation für mehrere Personen

Allgemeine Einführung Paper to Podcast ist ein Open-Source-Tool, das darauf spezialisiert ist, akademische Forschungsarbeiten in lebendige und unterhaltsame Podcasts zu verwandeln. Es nutzt die Technologie der künstlichen Intelligenz, um ein PDF-formatiertes Papier in einen Dialog zwischen drei Charakteren - dem Moderator, dem Lernenden und dem Experten - zu verwandeln, um komplexe...
vor 4 Monaten
01K
VirtualWife:支持B站直播和语音互动的二次元数字人

VirtualWife: eine zweite digitale Person, die Live-Streaming von B-Stationen und Sprachinteraktion unterstützt

VirtualWife ist ein Open-Source-Projekt für virtuelle digitale Personen, das vom Entwickler yakami129 entwickelt wurde. Es befindet sich derzeit in der Inkubationsphase. Ziel ist es, einen virtuellen Charakter mit einer "Seele" zu schaffen, mit dem der Benutzer wie mit einem Freund interagieren kann. Das Projekt wird von B Station Live unterstützt...
vor 4 Monaten
01.5K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer Sprache

Umfassende Einführung MegaTTS3 ist ein Open-Source-Sprachsynthese-Tool, das von ByteDance in Zusammenarbeit mit der Zhejiang University entwickelt wurde und sich auf die Erzeugung hochwertiger chinesischer und englischer Sprache konzentriert. Sein Kernmodell besteht aus nur 0,45B Parametern, ist leichtgewichtig und effizient und unterstützt die Erzeugung gemischter chinesischer und englischer Sprache sowie das Klonen von Sprache. Das Projekt wird gehostet auf ...
vor 4 Monaten
01.4K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: ein Open-Source-Tool zur Vervollständigung des gesamten Prozesses der wissenschaftlichen Forschung mit intelligenten Agenten

Allgemeine Einführung AgentLaboratory ist ein Open-Source-Tool, das auf GitHub gehostet und von Samuel Schmidgall entwickelt wird. Es verwendet intelligente Agenten, die von Large Language Models (LLMs) gesteuert werden, um Forschern bei dem gesamten Prozess der wissenschaftlichen...
vor 4 Monaten
01.3K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: Ein Open-Source-Tool für die flexible Anbindung und Verwaltung von KI-Intelligenzen

Allgemeine Einführung AgentIQ ist ein Open-Source-Tool von NVIDIA, das Entwicklern helfen soll, KI-Intelligenzen effizient zu verbinden und zu verwalten. Es ermöglicht Intelligenzen aus verschiedenen Frameworks die nahtlose Zusammenarbeit, die Verbindung von Unternehmensdaten und -tools sowie die Erstellung von Workflows wie das Aufrufen von Funktionen. Die größte Stärke des Tools ist...
vor 4 Monaten
01.2K
MIDI-3D:从单张图片快速生成多物体3D场景的开源工具

MIDI-3D: Ein Open-Source-Tool zur schnellen Erzeugung von 3D-Szenen mit mehreren Objekten aus einem einzigen Bild

Allgemeine Einführung MIDI-3D ist ein Open-Source-Projekt, das vom VAST-AI-Research-Team entwickelt wurde, um Entwicklern, Forschern und Kreativen die Möglichkeit zu geben, schnell 3D-Szenen mit mehreren Objekten aus einem einzigen Bild zu erzeugen. Dieses Werkzeug basiert auf der Technik der Multi-Instanz-Diffusionsmodellierung...
vor 4 Monaten
01.3K
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: Generierung von hochauflösenden 3D-Modellen aus einem einzigen Bild

Allgemeine Einführung TripoSG ist ein Open-Source-Projekt, das vom VAST-KI-Forschungsteam entwickelt wurde, um hochwertige 3D-Modelle aus einem einzigen Bild zu erzeugen. Das Projekt verwendet eine groß angelegte Gleichrichter-Fluss-Wandler-Technologie, kombiniert mit einem hybriden überwachten Training und hochwertigen Datensätzen, um die generierten 3D-Modelle...
vor 4 Monaten
01.4K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: ein Open-Source-Suchwerkzeug, das intelligente Schlussfolgerungen unterstützt

Allgemeine Einführung OpenDeepSearch ist ein Open-Source-Suchwerkzeug, das vom sentient-agi-Team entwickelt wurde. Es kombiniert Large Language Modelling (LLM) und Intelligent Reasoning Agents, um Benutzern die Möglichkeit zu geben, Webseiten nach Informationen zu durchsuchen und auf einfache Weise präzise Antworten zu erhalten. Diese ...
vor 4 Monaten
01.3K
Vibe Draw:将手绘草图转化为3D模型的创意工具

Vibe Draw: ein kreatives Werkzeug, um handgezeichnete Skizzen in 3D-Modelle zu verwandeln

Allgemeine Einführung Vibe Draw ist ein von Martin Sit entwickeltes Open-Source-Projekt, mit dem Benutzer handgezeichnete Skizzen in schöne 3D-Modelle verwandeln können. Das Ziel dieses Werkzeugs ist einfach: Es soll es für jeden einfach machen, 3D-Modelle zu erstellen, ohne dass man große künstlerische Fähigkeiten oder...
vor 4 Monaten
01.3K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI: Eine Open-Source-Engine zur schnellen Erstellung nodaler Workflows

Umfassende Einführung Flowgram.ai ist eine von ByteDance entwickelte Open-Source-Engine zur Erstellung von Prozessen. Es basiert auf der Bearbeitung von Knoten, um Entwicklern bei der schnellen Erstellung von Workflows zu helfen, unterstützt zwei Modi: festes Layout und freie Verknüpfung. Das Projekt ist in TypeScript geschrieben ...
vor 5 Monaten
01.7K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: ein Endmessungsmodell für multimodale Eingabe und Sprachinteraktion in Echtzeit

Umfassende Einführung Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde im Jahr 2025 am 3...
vor 5 Monaten
02.1K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus: ein lokales Management-Backend für Dify

Umfassende Einführung Dify-Plus ist eine KI-Anwendungsentwicklungsplattform, die auf der Sekundärentwicklung des Open-Source-Projekts Dify basiert. Sie fügt ein neues, auf Dify basierendes Verwaltungszentrum hinzu und optimiert die Funktionalität für Unternehmensszenarien. Das Projekt war ursprünglich für den internen Gebrauch von Unternehmen gedacht. Später stellte sich heraus, dass die Community ähnliche Bedürfnisse hat...
vor 5 Monaten
01.2K
Rankify:支持信息检索与重排序的Python工具包

Rankify: ein Python-Toolkit, das die Suche und Neuordnung von Informationen unterstützt

Allgemeine Einführung Rankify ist ein Open-Source-Python-Toolkit, das von der Data Science Group an der Universität Innsbruck entwickelt wurde. Es konzentriert sich auf Information Retrieval, Reordering und Retrieval Augmentation Generation (RAG) und bietet ein einheitliches Framework. Das Toolkit kommt mit 40 eingebauten, vorab abgerufenen Benchmarks...
vor 5 Monaten
01.6K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star: ein Open-Source-Tool zur Verbesserung der Qualität der Bild- und Videoerzeugung

Umfassende Einführung CFG-Zero-star ist ein Open-Source-Projekt, das von Weichen Fan und dem S-Lab-Team an der Nanyang Technological University entwickelt wurde. Es konzentriert sich auf die Verbesserung der Classifier Free Guidance (CFG)-Technik in Stream-Matching-Modellen durch Optimierung der Guidance-Strategie und der Null-Initialisierung ...
vor 5 Monaten
01.5K
DiffSynth-Engine:低现存部署FLUX、Wan2.1的开源引擎

DiffSynth-Engine: Open-Source-Engine für den Einsatz von FLUX mit geringem Umfang, Wan 2.1

Allgemeine Einführung DiffSynth-Engine ist ein Open-Source-Projekt, das von ModelScope ins Leben gerufen wurde und auf GitHub gehostet wird. Es basiert auf der Technologie der Diffusionsmodellierung, konzentriert sich auf die effiziente Erzeugung von Bildern und Videos und ist für Entwickler geeignet, um KI-Modelle in Produktionsumgebungen einzusetzen...
vor 5 Monaten
01.4K
Aana SDK:简易部署多模态AI模型的开源工具

Aana SDK: Ein Open-Source-Tool für den einfachen Einsatz von multimodalen KI-Modellen

Allgemeine Einführung Aana SDK ist ein von Mobius Labs entwickeltes Open-Source-Framework, benannt nach dem Malayalam-Wort ആന (Elefant). Es hilft Entwicklern, multimodale KI-Modelle schnell einzusetzen und zu verwalten und unterstützt die Verarbeitung von Text, Bildern, Audio und Video sowie anderen Daten...
vor 5 Monaten
01.5K
Agent TARS:使用视觉和命令操作电脑的开源智能体

Agent TARS: eine Open-Source-Intelligenz, die mit Hilfe von Vision und Befehlen Computer steuert

Comprehensive Introduction Agent TARS ist eine multimodale KI-Intelligenz, die von ByteDance als Open-Source zur Verfügung gestellt wird. Sie verfügt über Kernfunktionen, die Benutzern helfen, komplexe Computeraufgaben zu erledigen, indem sie Webinhalte visuell versteht und Befehlszeilen- und Dateisystemoperationen kombiniert. Anstatt wie herkömmliche Tools manuelle Eingriffe zu erfordern, kann es selbst...
vor 5 Monaten
01.5K
Qlib:微软开发的AI量化投资研究工具

Qlib: ein von Microsoft entwickeltes KI-Tool für quantitative Investitionsforschung

Umfassende Einführung Qlib ist eine von Microsoft entwickelte Open-Source-Plattform, die sich auf den Einsatz von KI-Technologie konzentriert, um Nutzern bei der Recherche quantitativer Investitionen zu helfen. Sie beginnt mit der grundlegendsten Datenverarbeitung und unterstützt die Nutzer dabei, Investitionsideen zu erforschen und sie in brauchbare Strategien umzusetzen. Die Plattform ist einfach und leicht zu bedienen und eignet sich für alle, die maschinelles Lernen nutzen möchten, um ihr Investment Research zu verbessern...
vor 5 Monaten
01.8K
Oliva:语音控制的多智能体产品搜索助手

Oliva: ein sprachgesteuerter Multi-Intelligenz-Assistent für die Produktsuche

Allgemeine Einführung Oliva ist ein quelloffenes Multiintelligenz-Assistenzsystem, das von Deluxer auf GitHub entwickelt wurde. Es hilft Benutzern bei der Suche nach Produktinformationen in der Qdrant-Datenbank durch die Zusammenarbeit mehrerer KI-Intelligenzen. Das Hauptmerkmal ist, dass es die Sprachsteuerung unterstützt...
vor 5 Monaten
01.1K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou: ein Werkzeug zur Erstellung und Bearbeitung von Fotos, das die Gesichtszüge bewahrt

Allgemeine Einführung InfiniteYou ist ein Open-Source-Projekt, das vom ByteDance Intelligent Creation Team entwickelt wurde. Es basiert auf der Diffusion Transformers (DiTs)-Technologie und verwendet das FLUX.1-dev-Modell. Die Kernfunktion besteht darin, dass Benutzer ein Foto hochladen und eine Textbeschreibung eingeben können,...
vor 5 Monaten
01.5K
Second Me:本地训练拥有个人记忆和习惯的AI分身

Second Me: lokal trainierte KI-Doppelgänger mit persönlichen Erinnerungen und Gewohnheiten

Second Me ist ein Open-Source-Projekt, das vom Mindverse-Team entwickelt wurde und es Ihnen ermöglicht, eine KI auf Ihrem Computer zu erstellen, die wie ein "digitaler Doppelgänger" agiert, Ihre Sprachmuster und Gewohnheiten durch Ihre Worte und Erinnerungen lernt und zu einer intelligenten Person wird, die Sie versteht...
vor 5 Monaten
02.2K
Easy Dataset:创建大模型微调数据集的简易工具

Easy Dataset: Ein einfaches Tool zur Erstellung großer, fein abgestimmter Modelldatensätze

Umfassende Einführung Easy Dataset ist ein Open-Source-Tool, das speziell für die Feinabstimmung großer Modelle (LLMs) entwickelt wurde und auf GitHub gehostet wird. Es bietet eine einfach zu bedienende Benutzeroberfläche, die es Benutzern ermöglicht, Dateien hochzuladen, Inhalte automatisch zu segmentieren, Fragen und Antworten zu generieren und schließlich eine...
vor 5 Monaten
01.4K
Docs:开源的协作笔记和文档管理工具

Docs: Open-Source-Tools für die gemeinsame Verwaltung von Notizen und Dokumenten

Allgemeine Einführung Docs ist eine Open-Source-Plattform für die kollaborative Erstellung von Notizen und die Verwaltung von Dokumenten, die vom suitenumerique-Team entwickelt wurde. Sie wurde unter Verwendung von Django und React-Technologien mit dem Ziel entwickelt, ein einfach zu bedienendes Tool zur Verfügung zu stellen, das Benutzern hilft,...
vor 5 Monaten
01.6K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: Technische PDF-Dokumente automatisch mit Anmerkungen versehen und mit relevanten Zitaten versehen

Umfassende Einführung SmartRead ist ein KI-basiertes Open-Source-Tool, das für technische Dokumente entwickelt wurde. Es kann PDF-Dateien automatisch analysieren und Schlüsselinhalte wie wichtige Begriffe, Überschriften oder Kernideen markieren, um dem Benutzer zu helfen, komplexe Dokumente schnell zu verstehen. Gleichzeitig kann es auch die wichtigsten Inhalte des Dokuments bereitstellen...
vor 5 Monaten
01.6K
LangManus:支持多智能体协作的开源AI自动化框架

LangManus: ein quelloffenes KI-Automatisierungsframework, das die Zusammenarbeit mehrerer Intelligenzen unterstützt

Allgemeine Einführung LangManus ist ein Open-Source-KI-Automatisierungs-Framework, das auf GitHub gehostet wird. Es wurde von einer Gruppe ehemaliger Kollegen in ihrer Freizeit entwickelt und ist ein akademisch getriebenes Projekt mit dem Ziel, Sprachmodelle und spezialisierte Tools für Websuche, Daten-Crawling und Codeausführung zu kombinieren...
vor 5 Monaten
01.4K
闲鱼卖家全天自动值守的AI客服机器人

KI-Kundendienst-Bots, die den ganzen Tag über automatisch mit untätigen Verkäufern besetzt sind

Umfassende Einführung XianyuAutoAgent ist ein intelligentes Kundendienst-Robotersystem, das für die Idlefish-Plattform entwickelt wurde und vom Entwickler shaxiu auf GitHub zur Verfügung gestellt wird. Es nutzt KI-Technologie, um 7×24 Stunden automatischen Dienst zu erreichen, um Idlefish-Verkäufern zu helfen,...
vor 5 Monaten
01.3K
PilottAI:构建企业级多智能体应用的开源项目

PilottAI: Ein Open-Source-Projekt zur Entwicklung von Multi-Intelligenz-Anwendungen für Unternehmen

Allgemeine Einführung PilottAI ist ein Open-Source-Python-Framework, das auf GitHub gehostet und vom Entwickler anuj0456 erstellt wurde. Es konzentriert sich auf die Unterstützung von Benutzern bei der Erstellung von multi-intelligenten Körpersystemen der Enterprise-Klasse, unterstützt die Integration des Large Language Model (LLM),...
vor 5 Monaten
01.2K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Allgemeine Einführung HumanOmni ist ein quelloffenes multimodales Big Model, das vom HumanMLLM-Team entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Analyse von menschlichen Videos und kann sowohl Bild als auch Ton verarbeiten, um Emotionen, Handlungen und Dialoginhalte zu verstehen. Das Projekt verwendet 2...
vor 5 Monaten
01.1K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent: ein KI-Tool zur Unterstützung von Ärzten bei der Analyse von Arzneimittelwirkungen und Behandlungsoptionen

Umfassende Einführung TxAgent ist ein Open-Source-KI-Tool, das vom Medical and Scientific Artificial Intelligence Team (MIMS) der Harvard University entwickelt wurde, um Ärzte bei der Analyse von Arzneimittelinteraktionen und der Entwicklung personalisierter Behandlungspläne zu unterstützen. Es kombiniert patientenspezifische Situationen durch mehrstufige Argumentation und Echtzeitabruf von biomedizinischem Wissen...
vor 5 Monaten
01.1K
OpenSearch-SQL:将自然语言转为SQL查询的开源工具

OpenSearch-SQL: Ein Open-Source-Tool zur Umwandlung natürlicher Sprache in SQL-Abfragen

Umfassende Einführung OpenSearch-SQL ist ein Open-Source-Projekt, es ist ein leistungsfähiges Text-to-SQL-Tool, das die Beschreibungen des Benutzers in natürlicher Sprache in SQL-Abfrageanweisungen umwandeln kann, um Menschen, die nicht mit der Datenbank vertraut sind, einen einfachen Zugriff auf die Daten zu ermöglichen. Dieses Projekt wurde entwickelt von O...
vor 5 Monaten
01.1K