AI Open-Source-Projekt

Insgesamt 1020 Artikel
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Umfassende Einführung Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket verfügbar als auch als benutzerfreundliche Strea...
vor 7 Monaten
04.4K
FitDiT:高保真度AI虚拟试衣工具,提升服装细节真实性

FitDiT: Ein virtuelles Anprobetool mit hoher Wiedergabetreue zur Verbesserung der Authentizität von Kleidungsdetails

Umfassende Einführung FitDiT ist ein virtuelles Anprobesystem, das auf Diffusionstransformatoren (Diffusion Transformers) basiert. Das vom Tencent AI Lab entwickelte Projekt zielt darauf ab, die Grenzen herkömmlicher virtueller Anprobesysteme bei der Darstellung von Kleidungsdetails zu überwinden....
vor 7 Monaten
02.6K
Thin-Plate-Spline-Motion-Model:静态人像图参考视频人像动作生成视频

Thin-Plate-Spline-Motion-Model: Statisches Portrait Map Referenzvideo Portrait Motion Generation Video

Allgemeine Einführung Thin-Plate-Spline-Motion-Model ist ein bahnbrechendes Projekt zur Erzeugung von Bildanimationen, das auf der CVPR 2022 vorgestellt wurde. Das Projekt basiert auf der Theorie der Thin-Plate-Spline-Transformationen und ist in der Lage, qualitativ hochwertige Bewegungen aus Standbildern auf Basis von Fahrvideos zu erzeugen...
vor 7 Monaten
02.6K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: Intelligente digitale Menschen für Echtzeit-Interaktion, die eine plattformübergreifende Bereitstellung mit einem Mausklick unterstützen

Allgemeine Einführung DUIX (Dialogue User Interface System) ist eine von Silicon Intelligence entwickelte KI-gestützte Plattform für digitale menschliche Interaktion. Mit den Open-Source-Funktionen für die digitale menschliche Interaktion können Entwickler problemlos groß angelegte Modelle, automatische Spracherkennung (ASR)...
vor 7 Monaten
03.6K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: Integration von Sprachmodellen und digitalen 3D-Charakteren zur Unterstützung verschiedener Anwendungsszenarien

Umfassende Einführung Fay ist ein Open-Source-Framework für virtuelle digitale 3D-Menschen, das Sprachmodelle und digitale Charaktere für eine Vielzahl von Anwendungsszenarien integriert, wie z.B. virtuelle Einkaufsführer, virtuelle Moderatoren, Assistenten, Kellner, Lehrer und sprach- oder textbasierte mobile Assistenten....
vor 7 Monaten
03K
MOFA Video:运动场适配技术将静态图像转换为视频

MOFA Video: Motion Field Adaptation Technologie konvertiert Standbilder in Video

Allgemeine Einführung MOFA-Video ist ein hochmodernes Werkzeug zur Erzeugung von Bildanimationen, das generative Techniken zur Anpassung von Bewegungsfeldern nutzt, um statische Bilder in dynamische Videos umzuwandeln. Es wurde in Zusammenarbeit mit der Universität Tokio und dem Tencent AI Lab entwickelt und wird auf der European Conference on Computer Vision 2024 (E.V.) vorgestellt.
vor 7 Monaten
02.5K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex: Open-Source-KI-Assistent zur Aufzeichnung von Meetings, automatische Aufzeichnung von Meeting-Inhalten zur Erstellung von Zusammenfassungen

Allgemeine Einführung Amurex ist ein Open-Source-KI-Meeting-Assistent, der von The Personal AI Company entwickelt wurde, um die Effizienz von Meetings durch intelligente Funktionen zu verbessern: Amurex kann in Echtzeit Ratschläge geben, intelligente Zusammenfassungen erstellen, Meeting-Inhalte aufzeichnen und automatisch...
vor 7 Monaten
03.3K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

Agent Laboratory: automatisierter Code- und Studienschreibassistent für Forscher

Umfassende Einführung Agent Laboratory ist ein autonomer End-to-End-Forschungsworkflow, der Forschern helfen soll, ihre Forschungsideen zu verwirklichen. Das System besteht aus dedizierten Agenten, die von umfangreichen Sprachmodellen gesteuert werden und den gesamten Forschungsablauf unterstützen - von der Literaturrecherche über die Entwicklung von Plänen bis hin zur Ausführung von...
vor 4 Monaten
02.7K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

CoolCline: eine weitere verbesserte Version des intelligenten Programmierassistenten von Cline, die die Vorteile von ClineRoo Cline und Bao Cline vereint.

Allgemeine Beschreibung CoolCline ist ein leistungsstarker Coding-Assistent, der die besten Eigenschaften von Cline, Roo Cline und Bao Cline vereint. Er arbeitet nahtlos mit Ihrer Befehlszeilenschnittstelle (CLI) und Ihrem Editor zusammen, um Ihnen die leistungsfähigste...
vor 7 Monaten
02.8K
AI投资系统:自动化A股投资决策系统,利用多智能体系统分析市场数据

KI-Investitionssystem: automatisiertes System zur Entscheidungsfindung bei Investitionen in A-Aktien, das ein Multi-Intelligenz-System zur Analyse von Marktdaten nutzt

Umfassende Einführung A_Share_investment_Agent ist eine auf einem Multi-Intelligenz-System basierende Anlageentscheidungshilfe für A-Aktien. Das System wurde entwickelt, um Marktdaten zu analysieren, den inneren Wert von Aktien zu berechnen, die Marktstimmung zu analysieren und Fundamentaldaten durch mehrere kollaborative Intelligenzen zu...
vor 7 Monaten
02.6K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

Company Researcher: Ein Tool zur Unternehmensrecherche. Geben Sie die Webadresse eines Unternehmens ein, um detaillierte Informationen zu erhalten.

Allgemeine Beschreibung Company Researcher (Company Researcher) ist ein kostenloses und quelloffenes Tool, das den Nutzern helfen soll, einen schnellen und umfassenden Überblick über ein beliebiges Unternehmen zu erhalten. Geben Sie einfach die URL des Unternehmens ein, und das Tool sammelt umfassende Informationen aus dem Internet, die Informationen über die Organisation, ihre Produkte...
vor 4 Monaten
02.2K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: Automatische Analyse und Verschlagwortung von Dokumenten mittels KI für das Dokumentenmanagementsystem paperless-ngx

Allgemeine Einführung Paperless-AI ist ein innovatives Analyse-Tool zur Automatisierung von Dokumenten, das speziell für das Dokumentenmanagement-System Paperless-ngx entwickelt wurde. Es kombiniert auf clevere Weise die OpenAI-API mit einer Vielzahl von fortschrittlichen KI-Modellen wie Ollama...
vor 7 Monaten
04.8K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos: World Base Model, eine Plattform zur Erstellung von KI-Basismodellen der physischen Welt

Umfassende Einführung NVIDIA Cosmos ist eine weltbasierte Modellierungsplattform für Entwickler, die speziell darauf ausgerichtet ist, Physik-KI-Entwicklern zu helfen, ihre Physik-KI-Systeme besser und schneller zu entwickeln. Die Plattform bietet eine Reihe von vortrainierten Modellen, darunter diffusions- und autoregressionsbasierte...
vor 7 Monaten
02.6K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

Mini LLM Flow: Aufbau von LLM-Mini-Intelligenzen mit "gerichteter Graphenstruktur" in 100 Codezeilen

Allgemeine Einführung miniLLMFlow ist ein minimalistisches Large Language Model (LLM)-Entwicklungsframework, das nur 100 Zeilen Kerncode enthält und die Designphilosophie "Keep it simple" demonstriert. Das Framework wurde speziell entwickelt, um KI-Assistenten (z.B. ChatGPT, Claude, etc.) zu ermöglichen,...
vor 7 Monaten
02.7K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot: Erstellen Sie Ihren AI-Chatbot-Begleiter, einfacher Sprachdialog und intelligente Interaktion

Umfassende Einführung Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen AI-Chat-Begleiter zu bauen. Das Projekt wurde von Shrimp entwickelt und dient hauptsächlich zu Lehrzwecken, um mehr Menschen den Einstieg in die KI-Hardwareentwicklung zu erleichtern und zu verstehen, wie man große Sprachmodelle auf reale...
vor 5 Monaten
03.7K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: eine Next.js-Vorlage für die Entwicklung von Echtzeit-KI-Anwendungen mit Sprachdialog

Umfassende Einführung OpenAI Realtime API Next.js ist ein Open-Source-Projekt, das auf dem Next.js-Framework basiert und Entwicklern helfen soll, schnell Echtzeit-Sprach-KI-Anwendungen zu erstellen. Das Projekt integriert die Echtzeit-API von OpenAI und die WebRTC-Technologie...
vor 7 Monaten
02.6K
Auto-Coder.Chat:基于终端命令行的AI辅助编程助手,提供VSCode插件

Auto-Coder.Chat: Terminal-Kommandozeilen-basierter KI-gestützter Programmierassistent mit VSCode-Plugin

Allgemeine Einführung Auto-Coder.Chat ist ein terminalbasiertes KI-gestütztes Programmiertool, das entwickelt wurde, um die Programmiereffizienz von Entwicklern durch intelligente Mittel zu verbessern. Das Tool kann mit jeder IDE verwendet werden, um KI-unterstützte Programmierung in Entwicklungswerkzeugen zu ermöglichen....
vor 4 Monaten
02.7K
WrenAI:对话式数据分析AI助手,直接获取答案、SQL查询与分析报表

WrenAI: KI-Assistent zur Datenanalyse mit direktem Zugriff auf Antworten, SQL-Abfragen und Analyseberichte

Allgemeine Einführung WrenAI ist ein Open-Source-SQL-KI-Assistent, der speziell entwickelt wurde, um Datenteams, Produktteams und Geschäftsteams dabei zu helfen, durch natürlichsprachliche Konversationen Dateneinblicke zu gewinnen. Er ist in der Lage, natürliche Sprache in SQL-Abfragen zu konvertieren, Diagramme, Tabellen und Berichte zu erstellen und unterstützt mehrsprachige...
vor 7 Monaten
03.2K
Activepieces:AI工作流程自动化,适合非技术用户的任务编排工具,开源Zapier替代品

Activepieces: KI-Workflow-Automatisierung, Aufgabenplanungs-Tool für nicht-technische Benutzer, Open-Source-Ersatz für Zapier

Allgemeine Einführung Activepieces ist eine quelloffene All-in-One-Automatisierungs-Workflow-Plattform, die sich auf die Bereitstellung intuitiver und leistungsstarker Automatisierungslösungen für Unternehmen und Einzelanwender konzentriert. Entwickelt in TypeScript, ist die Plattform extrem skalierbar und unterstützt mehr als 200 integrierte Dienste...
vor 7 Monaten
02.7K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Selbstüberwachtes hierarchisches Make-up-Transfermodell, virtuelles Make-up, Migration von Make-up auf neue Porträts

Umfassende Einführung SHMT (Self-supervised Hierarchical Makeup Transfer) ist ein selbstüberwachtes hierarchisches Make-up-Migrationsprojekt, das auf einem latenten Diffusionsmodell basiert und darauf abzielt, eine hohe Qualität von Make-up-Effekten durch unüberwachte Lernmethoden zu erreichen...
vor 7 Monaten
02.9K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Open Source Multimodale Großsprachmodelle für visuelle und sprachliche Interaktion in Echtzeit

Allgemeine Einführung VITA ist ein führendes Open-Source-Projekt zur interaktiven multimodalen Modellierung großer Sprachen und leistet Pionierarbeit bei der Realisierung echter multimodaler Interaktion. Das Projekt startete VITA-1.0 im August 2024 und leistete damit Pionierarbeit für das erste quelloffene interaktive vollmodale große Sprachmodell.2024...
vor 7 Monaten
03.1K
Trend Finder:实时追踪社交媒体趋势、热门话话题和新原文,助力营销决策

Trend Finder: Verfolgung von Social Media Trends, Trendthemen und neuen Artikeln in Echtzeit für Marketingentscheidungen.

Allgemeine Einführung Trend Finder ist ein leistungsfähiges Tool, das Nutzern hilft, aktuelle Themen und Trends in sozialen Medien in Echtzeit zu verfolgen. Durch das Sammeln und Analysieren von Beiträgen der wichtigsten Influencer ist Trend Finder in der Lage, neue Trends oder Produktveröffentlichungen rechtzeitig zu...
vor 7 Monaten
02.8K
AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

AI no jimaku gumi: Automatische Generierung und Übersetzung von mehrsprachigen Untertiteln für Videos mit Hilfe von KI

Allgemeine Einführung AI no jimaku gumi (AI no subtitle group) ist ein leistungsstarkes Kommandozeilen-Tool zur Verarbeitung von Videountertiteln, das sich auf die automatische Extraktion, Transkription und Übersetzung von Videountertiteln konzentriert. Das Tool integriert fortschrittliche KI-Technologien, einschließlich Whisper-Sprach...
vor 7 Monaten
02.5K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: ein Echtzeit-Audio-Konvertierungstool für die Übersetzung vom Chinesischen ins Englische auf der Grundlage des multimodalen Gemini-Modells

TransRouter ist ein Echtzeit-Sprachübersetzungstool auf der Grundlage des Gemini-Modells von Google, das speziell für die Echtzeit-Sprachübersetzung zwischen Englisch und Chinesisch entwickelt wurde. Das Tool lässt sich nahtlos in Videokonferenzsoftware wie Zoom integrieren und bietet ein leistungsstarkes Werkzeug für...
vor 7 Monaten
03K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Open-Source-Implementierung von NotebookLM basierend auf Deepseek-V3 und PlayHT TTS

Allgemeine Einführung Open Source NotebookLM ist ein innovatives Projekt für künstliche Intelligenz, das die Sprachverstehensfähigkeiten von Deepseek-V3 mit der Sprachsynthesetechnologie von PlayHT kombiniert und darauf abzielt, ein intelligentes Dialogsystem für Notizen zu schaffen. Das Projekt wurde von Build Fast mit...
vor 7 Monaten
02.6K
Vision is All You Need:使用视觉语言模型构建智能文档检索系统(Vision RAG)

Vision is All You Need: Aufbau eines intelligenten Systems zur Dokumentensuche mit visuellen Sprachmodellen (Vision RAG)

Umfassende Einführung Vision-is-all-you-need ist ein innovatives visuelles RAG (Retrieval Augmented Generation) System-Demonstrationsprojekt, das neue Wege bei der Anwendung von Visual Language Modelling (VLM) auf den Bereich der Dokumentenverarbeitung beschreitet. Im Gegensatz zu traditionellen Text-Chunking-Methoden ermöglicht das System direkt...
vor 7 Monaten
03.1K
Scira(MiniPerplx):模仿Perplexity的开源项目,集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): Open-Source-Projekt, das Perplexity nachahmt und einen KI-Dialog, eine Websuche, eine Wetterabfrage usw. integriert.

Allgemeine Einführung MiniPerplx (umbenannt in Scira) ist eine minimalistisch gestaltete, KI-gesteuerte Suchmaschine, die eine Vielzahl nützlicher Funktionen integriert, um den Nutzern eine breite Palette von Diensten zur Informationsbeschaffung zu bieten. Das Projekt verwendet einen modernen Technologiestack mit Next.js, Tailwi...
vor 7 Monaten
03.2K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: LLM-Reasoning-Dienst, der sich auf externe Echtzeit-Wissensgraphen-Daten stützt

Umfassende Einführung Diffbot LLM Reasoning Server ist ein innovatives, groß angelegtes Sprachmodellierungssystem mit speziellen Optimierungen und Verbesserungen auf Basis der LLama-Modellarchitektur. Das wichtigste Merkmal des Projekts ist die Integration von Echtzeit-Wissensgraphen mit Retrieval-gestützter Generierung...
vor 7 Monaten
02.9K
LuminaBrush:使用智能绘画工具为图像添加照明打光效果

LuminaBrush: Hinzufügen von Beleuchtung zu Bildern mit intelligenten Malwerkzeugen

Allgemeine Einführung LuminaBrush ist ein innovatives interaktives Bildbearbeitungstool für Lichteffekte, das auf der Technologie der künstlichen Intelligenz basiert. Das Projekt verwendet einen zweistufigen Rahmen für die Bearbeitung von Bildern: Die erste Stufe wandelt das Eingabebild in ein "gleichmäßig beleuchtetes" Aussehen um, während die zweite Stufe ein...
vor 7 Monaten
03.5K
MetaGPT:多智能体协作框架,构建 AI 软件开发团队实现自然语言编程

MetaGPT: Ein Multi-Intelligenz-Kollaborationsrahmen für den Aufbau von KI-Softwareentwicklungsteams für die Programmierung in natürlicher Sprache

Umfassende Einführung MetaGPT ist ein innovatives Multi-Intelligenz-Framework, mit dem der Betrieb eines kompletten KI-Softwareunternehmens simuliert werden soll. Das von geekan (Alexander Wu) entwickelte Projekt zielt darauf ab, GPT-Modelle mit unterschiedlichen Rollen zu einer kollaborativen Einheit zu kombinieren...
vor 5 Monaten
03.4K
Groq AppGen:使用Groq API展示Llama 3.3 70B HTML代码生成能力的实验项目

Groq AppGen: ein experimentelles Projekt zur Demonstration der Fähigkeiten von Llama 3.3 70B zur Erzeugung von HTML-Code unter Verwendung der Groq-API

Allgemeine Einführung Groq AppGen ist ein innovativer interaktiver Webanwendungsgenerator, der von Groq entwickelt wurde und als Open Source zur Verfügung steht. Das Projekt demonstriert die Leistungsfähigkeit des Llama 3.3 70B-Modells für die Generierung von HTML-Code. Durch die Integration von Groq...
vor 7 Monaten
02.8K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Schnelles Erfassen von Website-Inhalten und Generieren von LLM-Trainingstext-Datensätzen.

Umfassende Einführung llmstxt-generator ist ein professionelles Tool zur Extraktion und Integration von Webinhalten, das hochwertige Textdatensätze für das Training und die Inferenz in Large Language Modelling (LLM) vorbereitet. Das Tool wurde von Mendable AI unter Verwendung von @firec entwickelt...
vor 7 Monaten
02.9K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Kostenloser Zugang zu GPT-4, Llama-3 und vielen anderen AI-Modellen über Raycast!

Allgemeine Einführung Raycast-G4F (GPT4Free) ist eine leistungsstarke Raycast-Erweiterung, die den Benutzern freien Zugang zu einer breiten Palette von fortschrittlichen KI-Modellen, einschließlich GPT-4 und Llama-3, bietet. Die Erweiterung bietet nicht nur Dialog-Streaming in Echtzeit...
vor 7 Monaten
03.1K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt

Umfassende Einführung Fish Speech Derivative Project Fish Agent ist ein revolutionäres End-to-End-KI-Sprachklon-System, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Als ein vollständig durchgängiges Sprachklon-Verarbeitungssystem ist sein wichtigstes Merkmal die Verwendung innovativer sprachloser...
vor 7 Monaten
03.2K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip: Intelligente Bearbeitung von Videoinhalten zu Kurzfilmen, einfaches und genaues Extrahieren/Zuschneiden von Videoclips

Umfassende Einführung FunClip ist ein vollständig quelloffenes, lokalisiertes, automatisiertes Videobearbeitungswerkzeug, das vom TONGYI Speech Lab des Alibaba Dharma Institute entwickelt wurde. Das Tool integriert das industrietaugliche Paraformer-Large-Spracherkennungsmodell, das die Sprache im Video genau identifizieren kann...
vor 7 Monaten
03.7K
Dify-WebUI:基于Dify API的桌面智能对话客户端,提供企业级AI对话能力

Dify-WebUI: ein intelligenter Dialog-Client für den Desktop, der auf der Dify-API basiert und KI-Dialogfähigkeiten auf Unternehmensebene bietet

Umfassende Einführung Dify-WebUI ist eine moderne intelligente Desktop-Dialoganwendung, die auf der Dify-API basiert und entwickelt wurde, um Unternehmen leistungsstarke KI-Dialogfunktionen zu bieten. Die Anwendung unterstützt mehrere voreingestellte Themenfarben, um den individuellen Bedürfnissen von Unternehmen gerecht zu werden, und verfügt über eine Wissensdatenbank-Managementfunktion, um...
vor 7 Monaten
03.4K
小红书AI运营助手:自动生成和发布小红书文章

Xiaohongshu AI-Betriebsassistent: automatische Erstellung und Veröffentlichung von Xiaohongshu-Artikeln

Umfassende Einführung Der Xiaohongshu AI Operation Assistant (xhsaipublisher) ist ein Automatisierungswerkzeug für die Veröffentlichung von Artikeln auf der Xiaohongshu-Plattform. Das Projekt kombiniert eine grafische Benutzeroberfläche mit Automatisierungsskripten, um Inhalte mit Hilfe von Big-Model-Technologie zu generieren und automatisch über den Browser einzuloggen und zu veröffentlichen...
vor 7 Monaten
03.7K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号

WeChat Markdown-Editor: einfache und effiziente WeChat-Grafik-Layout-Tools, ein Schlüssel zum Einfügen der Artikel auf der WeChat-öffentlichen Nummer

Umfassende Einführung Der WeChat Markdown Editor (WeChat Markdown Editor) ist ein sehr übersichtliches WeChat-Grafik-Layout-Tool, mit dem Benutzer leicht schöne WeChat-Posts erstellen können. Der Editor unterstützt alle grundlegenden Markdown ...
vor 7 Monaten
02.7K
Orchestra: Aufbau intelligenter KI-Teams für eine einfachere und effizientere kollaborative Multi-Intelligenz-Entwicklung

Orchestra: Aufbau intelligenter KI-Teams für eine einfachere und effizientere kollaborative Multi-Intelligenz-Entwicklung

Orchestra ist ein innovatives, leichtgewichtiges Python-Framework, das sich auf den Aufbau kollaborativer Systeme mit mehreren Intelligenzen auf der Grundlage des Large Language Model (LLM) konzentriert. Es verwendet eine einzigartige Methode zur Anordnung von Intelligenzen, so dass mehrere KI-Intelligenzen wie ein Symphonieorchester harmonisch zusammenarbeiten können. Durch die Modellierung ...
vor 7 Monaten
02.1K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: Erstellung von Wissensgraphen zur Automatisierung von Aufgabenplanung und -durchführung

Umfassende Einführung GraphAgent ist ein automatisiertes intelligentes Körpersystem, das Graphengenerierung, Aufgabenplanung und Aufgabenausführung integriert. Es ist in der Lage, strukturierte und unstrukturierte Daten zu verarbeiten, komplexe semantische Abhängigkeitsgraphen zu erstellen und Benutzeraufgaben durch Selbstplanung und Tool-Matching effizient auszuführen.GraphAgent...
vor 7 Monaten
02.3K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: ein containerisiertes Toolset zur Bereitstellung lokaler LLM-Entwicklungsumgebungen mit einem Klick und zur einfachen Verwaltung und Ausführung von KI-Diensten

Allgemeine Einführung Harbor ist ein revolutionäres containerisiertes LLM-Toolset, das sich auf die Vereinfachung der Bereitstellung und Verwaltung von lokalen KI-Entwicklungsumgebungen konzentriert. Es ermöglicht Entwicklern mit einer übersichtlichen Befehlszeilenschnittstelle (CLI) und einer Begleitanwendung, die mit einem einzigen Klick gestartet und verwaltet werden kann, LLM-Backends, API-Schnittstellen,...
vor 7 Monaten
02.7K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: Extrahieren und Kategorisieren von Dokumenten in strukturierte Daten, um den Prozess der Dokumentenbearbeitung zu optimieren

Umfassende Einführung ExtractThinker ist ein flexibles Dokument-Intelligenz-Tool, das strukturierte Daten aus Dokumenten mit Hilfe von Large Language Models (LLMs) extrahiert und klassifiziert und einen nahtlosen ORM-ähnlichen Dokumentenverarbeitungs-Workflow bietet. Es unterstützt eine Vielzahl von Dokumentenladern, einschließlich Tess...
vor 7 Monaten
02.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: Open-Source-Projekt, mit dem KI den Fernbetrieb von Computern übernehmen und sie mit natürlicher Sprache steuern kann

Allgemeine Einführung NeoAI ist ein innovatives Open-Source-KI-Assistententool, mit dem Benutzer ihre Computer durch Dialoge in natürlicher Sprache einfach steuern und verwalten können. Ohne irgendeinen Code zu schreiben, können Benutzer Dateisuche, Aufgabenautomatisierung, Gerätemanagement und vieles mehr mit nur einem täglichen Dialog durchführen.NeoAI...
vor 7 Monaten
04K
TryOffAnyone:从人物身上提取服装为平铺服装展示图的AI工具

TryOffAnyone: KI-Tool zum Extrahieren von Kleidungsstücken einer Person in Form eines gekachelten Bildes mit Kleidungsstücken

Umfassende Einführung TryOffAnyone ist ein bahnbrechendes KI-Bildverarbeitungstool, das speziell entwickelt wurde, um die Herausforderungen der Kleidungsanzeige im E-Commerce-Sektor zu lösen. Es ist in der Lage, Fotos von echten Menschen, die Kleidung tragen, auf intelligente Weise in Bilder mit Lay-Flat-Display-Effekt umzuwandeln. Diese Technologie basiert auf der neuesten Latent Dif...
vor 7 Monaten
02.5K
Agentarium: Verwaltung und Koordinierung der Interaktionen zwischen mehreren KI-Intelligenzen

Agentarium: Verwaltung und Koordinierung der Interaktionen zwischen mehreren KI-Intelligenzen

Allgemeine Einführung Agentarium ist ein leistungsfähiges Python-Framework zur Verwaltung und Orchestrierung von intelligenten KI-Agenten (Agenten). Das Framework bietet eine flexible und intuitive Möglichkeit, Interaktionen zwischen mehreren KI-Agenten zu erstellen, zu verwalten und zu orchestrieren. Es verwendet A...
vor 7 Monaten
02.9K
LTX Video(LTXV):生成高质量视频的实时视频生成开源模型

LTX Video (LTXV): ein quelloffenes Modell für die Erzeugung von Videos in Echtzeit, das qualitativ hochwertige Videos produziert

Allgemeine Einführung LTX-Video ist das erste DiT (Diffusion Transformer) basierte Echtzeit-Videogenerierungsmodell, das von Lightricks entwickelt wurde. Das Modell ist in der Lage, hohe Qualität bei einer Auflösung von 768x512 bei 24 Bildern pro Sekunde zu erzeugen...
vor 7 Monaten
04.1K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Ein einziges Stichwort für Web-Crawling, keine Notwendigkeit, Regeln zu schreiben intelligente Web-Content-Extraktionstools

Umfassende Einführung ScrapeGraphAI ist eine innovative Python-Bibliothek für Web-Scraping, die auf clevere Weise Large Language Modelling (LLM) und Direct Graph Logic kombiniert, um Scraping-Pipelines für Websites und lokale Dokumente zu erstellen. Was dieses Tool einzigartig macht, ist sein perfektes Maß an Einfachheit und Leistung...
vor 7 Monaten
02.1K
AnkiAIUtils: Anki Flashcard Learning AI Toolset, ein intelligenter Assistent zur automatischen Optimierung von Speicherkarten

AnkiAIUtils: Anki Flashcard Learning AI Toolset, ein intelligenter Assistent zur automatischen Optimierung von Speicherkarten

Allgemeine Beschreibung AnkiAIUtils ist eine Reihe von KI-verbesserten Werkzeugen, die für das Anki-Lernsystem mit Lernkarten entwickelt wurden. Das von einem Medizinstudenten entwickelte Tool wurde entwickelt, um automatisch Karten zu verbessern, mit denen Benutzer während des Lernprozesses durch KI-Technologie zu kämpfen haben. Es bietet den Benutzern auf intelligente Weise personalisierte...
vor 7 Monaten
02.8K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Story-Adapter: Erzeugen Sie kontinuierliche und konsistente grafische Illustrationen auf der Grundlage einer langen Geschichte.

Allgemeine Einführung Story-Adapter ist ein innovatives Framework zur Visualisierung von Geschichten, das Textgeschichten in kohärente Bildsequenzen umwandelt. Das von Forschern entwickelte Projekt verwendet einen iterativen Ansatz, der kein Training erfordert, um qualitativ hochwertige Story-Illustrationen zu erzeugen. Das Framework zeichnet sich durch seine Fähigkeit aus, lange...
vor 7 Monaten
02.8K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: Visualisierung der Struktur von GitHub-Code-Repositories und Umwandlung von Code-Repositories in interaktive Systemarchitekturdiagramme.

Allgemeine Einführung GitDiagram ist ein innovatives Tool zur Visualisierung der GitHub-Codebasis, das jedes GitHub-Repository schnell in ein interaktives Systemarchitekturdiagramm verwandelt. Es nutzt fortschrittliche KI-Technologie (Claude 3.5 Sonnet), um Entwicklern ein...
vor 7 Monaten
04.4K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: Autonom ausführende Multi-Intelligenz, ein voll funktionsfähiges Open-Source-Framework zur Entwicklung intelligenter Körper

Umfassende Einführung Eliza ist eine fortschrittliche Multi-Intelligenz Körper (Multi-Agent) Entwicklungsrahmen, ist zur Vereinfachung der Konstruktion und Bereitstellung von autonomen intelligenten Körper (Autonomous Agent) Prozess verpflichtet. Es unterstützt den Einsatz von mehreren intelligenten Körpern mit unterschiedlichen Rolleneinstellungen, kann intelligente ...
vor 7 Monaten
04.1K
ebook2audiobook:将电子书转换为有声读物,支持多语言和语音克隆的开源工具

ebook2audiobook: ebooks in Hörbücher umwandeln, Open-Source-Tool mit mehrsprachiger Unterstützung und Stimmenklonen

Allgemeine Einführung ebook2audiobook ist ein leistungsstarkes Open-Source-Tool zur Umwandlung von eBooks in Hörbücher. Es ist in der Lage, eBooks in mehreren Formaten in Hörbücher mit vollständigen Kapitelmarkierungen und Metadaten zu konvertieren. Das Tool verwendet Calibre für die Konvertierung von eBooks in Hörbücher mit...
vor 7 Monaten
03.6K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: ein Open-Source-Projekt zur Verbesserung des Langzeitgedächtnisses von Agenten mithilfe von Wissensgraphen

Allgemeine Einführung Memary ist ein innovatives Open-Source-Projekt, das sich auf die Bereitstellung von Langzeitspeicherverwaltungslösungen für autonome Intelligenzen konzentriert. Das Projekt hilft Intelligenzen, die Grenzen traditioneller Kontextfenster zu durchbrechen, um durch Wissensgraphen und spezialisierte Speichermodule intelligentere Interaktionserfahrungen zu machen....
vor 7 Monaten
04.1K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

KI liest Bücher: KI liest PDF-Bücher Seite für Seite, extrahiert automatisch die wichtigsten Wissenspunkte und erstellt Zusammenfassungen.

Umfassende Einführung AI-reads-books-page-by-page ist ein auf Python basierendes intelligentes PDF-Buch-Analysetool, das die seitenweise Analyse von PDF-Büchern automatisiert, wichtige Wissenspunkte extrahiert und nach einem bestimmten Seitenintervall Phasen erzeugt...
vor 7 Monaten
03.4K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText: Generieren und bearbeiten Sie mehrsprachige Bildtexte, die in hohem Maße kontrollierbar sind, um mehrere Zeilen Chinesisch im Bild zu generieren

Umfassende Einführung AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsmöglichkeiten. Es wurde von einem Team von Forschern entwickelt und auf der ICLR 2024 vorgestellt...
vor 7 Monaten
03.1K
AIGCPanel:开源克隆数字人整合系统,一键部署免费数字人客户端

AIGCPanel: Open-Source-Klon des digital man-Integrationssystems, Bereitstellung des kostenlosen digital man-Clients mit einem Klick

Umfassende Einführung AigcPanel ist ein One-Stop AI Digital Human Production System für alle Benutzer, entwickelt mit electron+vue3+typescript Technologie Stack, unterstützt One-Click Deployment auf Windows. Das System ist so konzipiert, benutzerfreundlich zu sein, wie der Kern, auch...
vor 7 Monaten
03.3K
AI Dev Gallery:Windows本地AI模型开发工具集,端侧模型集成到Windows应用

AI Dev Gallery: Windows Native AI Model Development Toolset, End-Side Model Integration in Windows Anwendungen

Allgemeine Einführung AI Dev Gallery ist eine Anwendung für KI-Entwicklungstools von Microsoft (derzeit in der öffentlichen Vorschau), die für Windows-Entwickler konzipiert ist. Sie bietet eine umfassende Plattform, die Entwicklern hilft, KI-Funktionen einfach in ihre Windo...
vor 7 Monaten
02.8K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilot Backend Proxy Service: Übernahme des GitHub Copilot Plugin Servers mit anderen Modellen

Allgemeine Einführung Der Copilot Backend Agent Service ist ein Open-Source-Projekt zur Verwaltung des GitHub Copilot-Plugin-Servers, das andere FIM-Modelle wie DeepSeek nutzt und gleichzeitig mehrere Personen unterstützt, die sich offizielle Konten teilen. Der Dienst unterstützt eine Vielzahl von IDEs, einschließlich V...
vor 8 Monaten
02.7K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: Die Gemini-Modell-API ist mit dem OpenAI-Format kompatibel, hebt regionale Beschränkungen auf und unterstützt die Abfrage von Multi-API-Schlüsseln.

Umfassende Einführung Gemini Balance ist ein OpenAI-API-Proxy-Dienst, der auf der Grundlage des FastAPI-Frameworks entwickelt wurde und darauf abzielt, effiziente Multi-API-Schlüsselverwaltung und Optimierungsfunktionen bereitzustellen. Das Projekt unterstützt Gemini-Modellaufrufe, und die Hauptfunktionen umfassen Multi-API...
vor 4 Monaten
02.8K
AIaW:全功能、轻量级、可拓展插件的跨平台AI客户端

AIaW: ein voll funktionsfähiger, leichtgewichtiger, plattformübergreifender AI-Client mit erweiterbaren Plug-Ins

Umfassende Einführung AIaW (AI as Workspace) ist ein KI-Client der nächsten Generation, der voll funktionsfähige, leichtgewichtige und erweiterbare Lösungen bietet. Die Plattform unterstützt eine Vielzahl von Dienstleistern, darunter OpenAI, Anthropic und Google, und ist in der Lage,...
vor 8 Monaten
02.6K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer: ein experimenteller Programmierassistent, der auf der DeepSeek API basiert, mit Stichworten

Allgemeine Beschreibung DeepSeek Engineer ist ein leistungsfähiges Programmierhilfswerkzeug, das auf der DeepSeek API basiert und mit dem Benutzer über eine intuitive Kommandozeilenschnittstelle interagiert, um ihn bei einer Vielzahl von Softwareentwicklungsaufgaben zu unterstützen. Das Tool kombiniert die Leistung der groß angelegten Sprachmodellierung mit...
vor 6 Monaten
02.9K
OrionChat:集成多平台AI模型的简易网页聊天界面(免部署)

OrionChat: Einfache Web-Chat-Schnittstelle mit integrierten plattformübergreifenden KI-Modellen (einsatzfrei)

Allgemeine Einführung OrionChat ist eine webbasierte KI-Chat-Schnittstelle, die Benutzern eine einheitliche Plattform für die Interaktion mit mehreren Mainstream-KI-Modellen bietet. Das Projekt unterstützt eine breite Palette von KI-Modellen, darunter Ollama (lokal ausgeführt), OpenAI GPT, Google Gemi...
vor 8 Monaten
02.6K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Erstellen Sie kurze kommentierte Videos oder Videozusammenfassungen für lange Videos mit einem Klick nach dem Gemini-Modell

Umfassende Einführung AI2SRT ist ein Open-Source-Projekt, das das große Modell von GeminiAI nutzt, um kurze Videos mit Kommentaren und Videozusammenfassungen für lange Videos mit einem Klick zu generieren und gleichzeitig Untertitel für Audio- und Videotranskription zu unterstützen. Das Projekt zielt darauf ab, den Prozess der Erstellung von Videoinhalten zu vereinfachen und effiziente Untertitelgenerierungs- und Übersetzungsfunktionen bereitzustellen. Benutzer können...
vor 8 Monaten
03K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrums quelloffenes intelligentes visuelles Sprachmodell für die Automatisierung grafischer Oberflächen

Umfassende Einführung CogAgent ist ein quelloffenes visuelles Sprachmodell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde und darauf abzielt, die Bedienung der grafischen Benutzeroberfläche (GUI) plattformübergreifend zu automatisieren. Das Modell basiert auf CogVLM (GLM-4V-9B) und unterstützt zweisprachiges Chinesisch und Englisch...
vor 8 Monaten
02.9K
DisPose:生成人体姿态精准控制的视频,创作跳舞的小姐姐

DisPose: Erstellung von Videos mit präziser Kontrolle der menschlichen Körperhaltung, Erstellung von tanzenden Damen

Allgemeine Einführung DisPose ist ein innovatives Open-Source-Projekt für künstliche Intelligenz, das sich auf die kontrollierte Erzeugung von Charakterbildern konzentriert. Das Projekt wurde von einem Forscherteam entwickelt und auf GitHub veröffentlicht. Es nutzt fortschrittliche Deep-Learning-Techniken, um eine präzise Steuerung der Charakteranimation durch die Zerlegung von Skelettposeninformationen zu erreichen...
vor 8 Monaten
02.5K
Smolagents: Open-Source-Projekt für die schnelle Entwicklung von KI-Intelligenzen und die leichtgewichtige Konstruktion von Intelligenzen

Smolagents: Open-Source-Projekt für die schnelle Entwicklung von KI-Intelligenzen und die leichtgewichtige Konstruktion von Intelligenzen

Umfassende Einführung Smolagents ist eine leichtgewichtige intelligente Agentenbibliothek, die von HuggingFace entwickelt wurde und sich auf die Vereinfachung des Entwicklungsprozesses von KI-Agentensystemen konzentriert. Das Projekt ist bekannt für seine einfache Designphilosophie mit nur etwa 1000 Zeilen Kerncode und bietet dennoch leistungsstarke Funktionen zur Integration. Es ist sehr ...
vor 7 Monaten
04.1K
Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

Umfassende Einführung Vision Parse ist ein revolutionäres Werkzeug zur Dokumentenverarbeitung. Es kombiniert geschickt die fortschrittlichste Technologie für visuelle Sprachmodelle (Vision Language Models) mit der Fähigkeit, PDF-Dokumente auf intelligente Weise in das hochwertige Markdown-Format umzuwandeln...
vor 8 Monaten
02.7K
InvSR:开源图像超分辨率项目,提升图像分辨率质量

InvSR: Open-Source-Projekt zur Verbesserung der Qualität der Bildauflösung

Allgemeine Einführung InvSR ist ein innovatives Open-Source-Projekt zur Superauflösung von Bildern, das auf Diffusionsinversionstechniken basiert und Bilder mit niedriger Auflösung in qualitativ hochwertige, hochauflösende Bilder umwandeln kann. Das Projekt nutzt das reichhaltige Vorwissen über Bilder, das in vortrainierten großflächigen Diffusionsmodellen eingebettet ist, und unterstützt durch einen flexiblen...
vor 8 Monaten
03.5K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

Infinity: bitweise autoregressive Modellierung der hochauflösenden Bilderzeugung für unbegrenzte hochauflösende Bilderzeugung

Allgemeine Einführung Infinity ist ein bahnbrechendes Framework zur Erzeugung hochauflösender Bilder, das vom FoundationVision-Team entwickelt wurde. Das Projekt durchbricht die Beschränkungen traditioneller Bilderzeugungsmodelle durch einen innovativen visuellen autoregressiven Modellierungsansatz auf Bit-Ebene...
vor 8 Monaten
03.5K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: Intelligenter Programmierassistent, der in einem Kommandozeilen-Terminal läuft, eine lokalisierte Alternative zum ChatGPT-Code-Interpreter

Umfassende Einführung GPTMe ist ein revolutionäres Terminal-KI-Assistententool, das die Arbeitseffizienz von Entwicklern verbessern soll. Es kombiniert leistungsstarke KI-Fähigkeiten perfekt mit der Terminalumgebung und unterstützt verschiedene Funktionen wie Codeausführung, Dateibearbeitung, Webbrowsing und visuelle Erkennung. Als ChatGPT-Code-Löser...
vor 8 Monaten
02.7K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: Open-Source-Logo-Generator, der KI-Intelligenz nutzt, um professionelle Markenlogos zu erstellen

Allgemeine Einführung LogoCreator ist ein Open-Source-Logo-Generator, der auf dem Together AI- und Flux-Modell basiert und sich darauf konzentriert, schnelle und professionelle Logo-Designs für Unternehmen und Privatpersonen anzubieten. Das Projekt wird vom Entwickler Nutlope in Git entwickelt und als Open Source zur Verfügung gestellt...
vor 8 Monaten
03.2K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: Ein professionelles Wissensdatenbank-Q&A-Framework für hybride Wissensgraphen- und Vektor-Retrieval

Umfassende Einführung KAG (Knowledge Augmented Generation) ist ein logisches, formgeleitetes Reasoning- und Retrieval-Framework, das auf der OpenSPG-Engine und Large Language Models (LLMs) basiert. Das Framework ist speziell für den Aufbau professioneller Wissensdatenbanken konzipiert...
vor 8 Monaten
04.2K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: Hochentwickeltes Open-Source-Tool zum Einbetten und Extrahieren von versteckten Wasserzeichen zum Schutz von Videocopyrights

Allgemeine Einführung VideoSeal ist ein von Facebook Research entwickeltes Open-Source-Tool für das Einbetten und Extrahieren von Wasserzeichen in Videos, das eine effiziente Einbettung und Extraktion von Wasserzeichen ermöglicht. Das Tool unterstützt die neuesten Open-Source-Modelle und enthält vortrainierte Modelle, Trainingscode, Inferenzcode und Auswertungstools...
vor 8 Monaten
02.7K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine: Anwendungsübersetzung mit AI, kompatibel mit allen wichtigen i18n-Bibliotheken

Allgemeine Einführung Languine ist ein leistungsstarkes Übersetzungstool, das von Midday entwickelt wurde, um Entwicklern zu helfen, den Lokalisierungsprozess für ihre Apps zu optimieren. Mit Languine können Entwickler die KI-Technologie nutzen, um schnell genaue und kontextbezogene Übersetzungen zu generieren, die über...
vor 8 Monaten
02.8K