AI Open-Source-Projekt

Insgesamt 1020 Artikel
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: KI-Chat-Schnittstelle zur Visualisierung baumbasierter Konversationen

Allgemeine Einführung TreeGPT ist eine auf Next.js basierende Open-Source-Chat-Anwendung, die sich auf die Visualisierung von Unterhaltungen mit großen Sprachmodellen (LLMs, z.B. GPTs) durch Baumgraphenstrukturen (gerichtete azyklische Graphen, DAGs) konzentriert und damit traditionelle lineare Chat-Methoden ersetzt, um die Geschwindigkeit und...
vor 6 Monaten
03K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: Einfache Integration mehrerer KI-Modelle und Erstellung multimodaler Anwendungen auf der Basis von Gradio

Allgemeine Einführung ai-gradio ist ein Open-Source-Python-Toolkit, das Entwicklern helfen soll, mehrere KI-Modelle einfach zu integrieren und zu nutzen. Das Projekt baut auf Gradio auf und bietet eine einheitliche Schnittstelle zur Unterstützung mehrerer KI-Modelle und -Dienste. Egal, ob es sich um Text, Sprache oder Video...
vor 6 Monaten
03K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: Eine benutzerfreundliche Schnittstelle für ComfyUI zur Rationalisierung von Arbeitsabläufen

Allgemeine Einführung ComfyUI-disty-Flow ist ein benutzerdefinierter Knoten, der eine benutzerfreundliche Schnittstelle zu ComfyUI bietet. Er soll die Ausführung von Workflows vereinfachen, indem er eine alternative Benutzeroberfläche für die Erstellung von Workflows bereitstellt.ComfyUI-disty...
vor 7 Monaten
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: All-in-One-Tool für die Restaurierung und Bearbeitung von Bildern von Tencent ARC veröffentlicht

Umfassende Einführung BrushEdit ist ein von Tencent ARC Labs entwickeltes All-in-One-Werkzeug zur Bildreparatur und -bearbeitung. Das Tool basiert auf der neuesten KI-Technologie und ist in der Lage, Defekte in Bildern automatisch zu erkennen und zu reparieren, während es gleichzeitig die interaktive Bearbeitung durch den Benutzer unterstützt.BrushEdit...
vor 8 Monaten
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: Audio-gesteuerte Porträtbilder erzeugen digitale Demo-Videos mit lebendiger Mimik

Allgemeine Einführung Sonic ist eine innovative Plattform, die sich auf die globale Audiowahrnehmung konzentriert und darauf ausgelegt ist, lebendige Porträtanimationen zu erzeugen, die durch Audio gesteuert werden. Die von einem Forscherteam von Tencent und der Zhejiang University entwickelte Plattform nutzt Audioinformationen zur Steuerung von Gesichtsausdrücken und Kopfbewegungen, um natürliche und flüssige Animationsvideos zu erzeugen...
vor 4 Monaten
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Erstellen Sie kurze kommentierte Videos oder Videozusammenfassungen für lange Videos mit einem Klick nach dem Gemini-Modell

Umfassende Einführung AI2SRT ist ein Open-Source-Projekt, das das große Modell von GeminiAI nutzt, um kurze Videos mit Kommentaren und Videozusammenfassungen für lange Videos mit einem Klick zu generieren und gleichzeitig Untertitel für Audio- und Videotranskription zu unterstützen. Das Projekt zielt darauf ab, den Prozess der Erstellung von Videoinhalten zu vereinfachen und effiziente Untertitelgenerierungs- und Übersetzungsfunktionen bereitzustellen. Benutzer können...
vor 8 Monaten
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer: ein experimenteller Programmierassistent, der auf der DeepSeek API basiert, mit Stichworten

Allgemeine Beschreibung DeepSeek Engineer ist ein leistungsfähiges Programmierhilfswerkzeug, das auf der DeepSeek API basiert und mit dem Benutzer über eine intuitive Kommandozeilenschnittstelle interagiert, um ihn bei einer Vielzahl von Softwareentwicklungsaufgaben zu unterstützen. Das Tool kombiniert die Leistung der groß angelegten Sprachmodellierung mit...
vor 6 Monaten
02.9K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: Feinabstimmung großer Modelle zur Verbesserung der intelligenten Entscheidungsfindung im Körper

Allgemeine Einführung OpenManus-RL ist ein Open-Source-Projekt, das von UIUC-Ulab in Zusammenarbeit mit dem OpenManus-Team der MetaGPT-Community entwickelt wurde und auf GitHub gehostet wird. Das Projekt verbessert die großmaßstäbliche Sprachmodellierung (LLM) durch Techniken des Reinforcement Learning (RL)...
vor 5 Monaten
02.9K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

Markdown To Poster: Konvertieren Sie Markdown in soziale Medien/kleine rote Poster mit Online-Bearbeitung und Unterstützung für die Bereitstellung mit einem Klick.

Allgemeine Beschreibung Markdown to Image ist eine React-Komponente zur Umwandlung von Markdown-Text in visuell ansprechende Bilder für soziale Medien. Das Projekt enthält auch einen integrierten Web-Editor, der als Online-Editor für Markdown-Poster verwendet werden kann...
vor 9 Monaten
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: Ein visuelles Bewertungsinstrument zur Optimierung von Systemen zur Retrievalverbesserung

Umfassende Einführung XRAG (eXamining the Core) ist ein Benchmarking-Framework, das für die Bewertung der zugrundeliegenden Komponenten von fortgeschrittenen Retrieval Augmentation Generation (RAG)-Systemen entwickelt wurde. Durch die Erstellung von Profilen und die Analyse jedes Kernmoduls liefert XRAG Informationen darüber, wie verschiedene Konfigurationen und Komponenten die RAG beeinflussen...
vor 7 Monaten
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: experimentelles Text-to-Speech-Modell, TTS implementiert mit einem reinen Sprachmodellierungsansatz

Umfassende Einführung OuteTTS ist ein experimentelles Text-to-Speech (TTS) Modell, das einen reinen Sprachmodellierungsansatz verwendet, um qualitativ hochwertige Sprache zu erzeugen. Im Gegensatz zu traditionellen TTS-Systemen benötigt OuteTTS keine externen Adapter oder komplexe Architekturen. Das Modell basiert auf der LLaMa-Architektur...
vor 6 Monaten
02.9K
Supermemory:导入书签和网页内容构建个人知识库

Supermemory: Importieren von Lesezeichen und Webinhalten zum Aufbau einer persönlichen Wissensdatenbank

Allgemeine Einführung Supermemory ist ein Open-Source-Projekt, das Benutzern helfen soll, ihr "zweites Gehirn" aufzubauen. Mit einer leistungsstarken Chrome-Erweiterung und KI-Technologie ermöglicht es den Nutzern, Daten von Webseiten, Twitter-Lesezeichen und Co. einfach zu speichern, zu organisieren und abzurufen.
vor 6 Monaten
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: Open-Source-Null-Sample-Sprachklonierung und Text-to-Speech-Tool

Umfassende Einführung VoiceCraft ist ein Open-Source-Sprachbearbeitungs- und Null-Sample-Sprachsynthese-Tool, das auf dem neuronalen Codec-Sprachmodell basiert. Es verwendet eine innovative Methode zur Generierung kodierter Sequenzen, die das Einfügen, Löschen und Ersetzen bestehender Sprachsequenzen ermöglicht, um natürliche, kohärent bearbeitete Sprache zu erzeugen...
vor 10 Monaten
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: Nativer LLM-gesteuerter Vim-Programmierassistent, intelligente Programmierung für sicheres Offline

Allgemeine Einführung VimLM ist ein Vim-Plugin, das einen Code-Assistenten bereitstellt, der durch das native LLM (Large Language Model) gesteuert wird. Indem es mit dem nativen LLM-Modell durch Vim-Befehle interagiert, erhält es automatisch den Code-Kontext und hilft den Benutzern bei der Code-Bearbeitung in Vim.VimLM ist inspiriert von...
vor 6 Monaten
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: Dynamische und skalierbare Generierung von Text zu langen Videos

Umfassende Einführung StreamingT2V ist ein öffentliches Projekt, das vom Picsart AI-Forschungsteam entwickelt wurde und sich auf die Erzeugung kohärenter, dynamischer und skalierbarer langer Videos auf der Grundlage von Textbeschreibungen konzentriert. Diese Technologie verwendet einen fortschrittlichen autoregressiven Ansatz, der die zeitliche Konsistenz des Videos mit dem Beschreibungstext garantiert...
vor 9 Monaten
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: Eine einheitliche API für die Integration von bekannter Spracherzeugung, Sprachtranskription und Sprachmodellierung

Allgemeine Einführung Orate ist ein KI-Toolkit, das sich auf Spracherzeugung und Transkription konzentriert. Es bietet eine einheitliche API, die sich nahtlos mit führenden KI-Anbietern wie OpenAI, ElevenLabs und AssemblyAI integrieren lässt, um Nutzern zu helfen,...
vor 6 Monaten
02.9K
Agentarium: Verwaltung und Koordinierung der Interaktionen zwischen mehreren KI-Intelligenzen

Agentarium: Verwaltung und Koordinierung der Interaktionen zwischen mehreren KI-Intelligenzen

Allgemeine Einführung Agentarium ist ein leistungsfähiges Python-Framework zur Verwaltung und Orchestrierung von intelligenten KI-Agenten (Agenten). Das Framework bietet eine flexible und intuitive Möglichkeit, Interaktionen zwischen mehreren KI-Agenten zu erstellen, zu verwalten und zu orchestrieren. Es verwendet A...
vor 7 Monaten
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP: Ein Open-Source-Protokoll für die sichere und effiziente Kommunikation zwischen intelligenten Agenten

Allgemeine Einführung AgentNetworkProtocol (kurz ANP) ist ein Open-Source-Protokollprojekt, das auf GitHub gehostet wird und sich auf die Bereitstellung sicherer und effizienter Kommunikationslösungen für intelligente Agenten (AI-Agenten) konzentriert. Es arbeitet mit einer dreischichtigen Architektur - Identität und Verschlüsselung...
vor 5 Monaten
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: Wissensdatenbank + LLM-gesteuerter intelligenter Code-Review-Mentor für GitHub

Umfassende Einführung CR-Mentor ist ein intelligentes Code-Review-Tool, das eine professionelle Wissensbasis mit der Leistungsfähigkeit von Large Language Modelling (LLM) kombiniert. Es unterstützt nicht nur Code-Reviews für alle Programmiersprachen, sondern passt auch exklusive Review-Kriterien und Schwerpunktbereiche für Teams an, die auf den in der Wissensdatenbank gesammelten Best Practices basieren. Durch...
vor 9 Monaten
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrums quelloffenes intelligentes visuelles Sprachmodell für die Automatisierung grafischer Oberflächen

Umfassende Einführung CogAgent ist ein quelloffenes visuelles Sprachmodell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde und darauf abzielt, die Bedienung der grafischen Benutzeroberfläche (GUI) plattformübergreifend zu automatisieren. Das Modell basiert auf CogVLM (GLM-4V-9B) und unterstützt zweisprachiges Chinesisch und Englisch...
vor 8 Monaten
02.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT: FastAPI-basiertes System zur Verarbeitung von PDF-Dokumenten und für Fragen und Antworten

Allgemeine Einführung FastAPI DocGPT ist ein FastAPI-basiertes Dokumenten-Quizsystem, das es Benutzern ermöglicht, PDF-Dateien hochzuladen und Quizfragen auf der Grundlage von Dokumenteninhalten zu beantworten. Das System verwendet die Einbettungstechnologie von OpenAI, um Dokumentinhalte in eine Vektordatenbank einzubetten Q...
vor 9 Monaten
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: KI-gestütztes Aktienanalyse-Tool, Echtzeit-Überwachung von selbst ausgewählten Aktienkursen und eingehende Analyse auf der Grundlage von KI

Umfassende Einführung go-stock ist ein KI-gestütztes Aktienanalyse-Tool, das auf Wails und NaiveUI basiert. Das Tool ist in der Lage, Aktienkurse in Echtzeit zu überwachen und bietet eine Kosten- und Gewinn/Verlust-Anzeige sowie eine Up/Down-Alarm-Push-Funktion. Alle Daten werden lokal gespeichert, um sicherzustellen, dass die Benutzer...
vor 6 Monaten
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Schnelles Erfassen von Website-Inhalten und Generieren von LLM-Trainingstext-Datensätzen.

Umfassende Einführung llmstxt-generator ist ein professionelles Tool zur Extraktion und Integration von Webinhalten, das hochwertige Textdatensätze für das Training und die Inferenz in Large Language Modelling (LLM) vorbereitet. Das Tool wurde von Mendable AI unter Verwendung von @firec entwickelt...
vor 7 Monaten
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: ein minimalistisches, endpunktbasiertes KI-Chat-Tool mit nativer Integration in das Ollama-Backend

Allgemeine Beschreibung Charla ist eine endpunktbasierte Chat-Anwendung, die für den Dialog mit muttersprachlichen Modellen entwickelt wurde. Die Anwendung ist mit dem Ollama-Backend integriert, unterstützt kontextbezogene Dialoge und speichert Chatsitzungen als Markdown-Dateien. Benutzer können einfach...
vor 7 Monaten
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Kostengünstiges Verstärkungslernen für die Generalisierungsfähigkeit von visuellen Sprachmodellen

Umfassende Einführung R1-V ist ein Open-Source-Projekt, das darauf abzielt, einen Durchbruch in der visuellen Sprachmodellierung (VLM) durch kostengünstiges Reinforcement Learning (RL) zu erzielen. Das Projekt nutzt überprüfbare Belohnungsmechanismen, um VLMs zu motivieren, allgemeine Zählfähigkeiten zu erlernen. Erstaunlich ist, dass R1-V's 2B ...
vor 6 Monaten
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: ein multimodales Sprachinteraktionssystem, das u. a. Sprache erkennt und mit geklonter Sprache kommuniziert

Umfassende Einführung Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Konversationen (z.B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z.B. glücklich, traurig), regionale Dialekte (z.B. Kantonesisch, Szechuan ...
vor 6 Monaten
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm: ein experimentelles pädagogisches Projekt zum Erlernen leichter multi-intelligenter Körpersysteme (OpenAI-Beispiel)

Allgemeine Einführung Swarm ist ein experimentelles Ausbildungsframework, das von OpenAI entwickelt wurde, um leichtgewichtige, kontrollierte und einfach zu testende Schnittstellen für Multiagentensysteme zu erforschen. Das Framework wird in erster Linie zur Demonstration von Handoffs und Routinemustern zwischen Agenten verwendet, um Entwicklern zu helfen, die Koordination und Ausführung von Multiagentensystemen zu verstehen und zu implementieren...
vor 7 Monaten
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Selbstüberwachtes hierarchisches Make-up-Transfermodell, virtuelles Make-up, Migration von Make-up auf neue Porträts

Umfassende Einführung SHMT (Self-supervised Hierarchical Makeup Transfer) ist ein selbstüberwachtes hierarchisches Make-up-Migrationsprojekt, das auf einem latenten Diffusionsmodell basiert und darauf abzielt, eine hohe Qualität von Make-up-Effekten durch unüberwachte Lernmethoden zu erreichen...
vor 7 Monaten
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension: Browser-Erweiterung zur Synchronisierung von KI-generierten Inhalten mit Self-Publishing-Plattformen mit einem Klick

Allgemeine Einführung MultiPost-Extension ist eine leistungsstarke Browser-Erweiterung, die Benutzern hilft, Inhalte auf mehreren Social-Media-Plattformen mit einem Klick zu veröffentlichen. Die Erweiterung unterstützt das gleichzeitige Posten auf über 10 Mainstream-Plattformen, einschließlich Zhihu, Weibo, Xiaohongshu, TikTok ...
vor 6 Monaten
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: LLM-Reasoning-Dienst, der sich auf externe Echtzeit-Wissensgraphen-Daten stützt

Umfassende Einführung Diffbot LLM Reasoning Server ist ein innovatives, groß angelegtes Sprachmodellierungssystem mit speziellen Optimierungen und Verbesserungen auf Basis der LLama-Modellarchitektur. Das wichtigste Merkmal des Projekts ist die Integration von Echtzeit-Wissensgraphen mit Retrieval-gestützter Generierung...
vor 7 Monaten
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: ein kleines Open-Source-Modell für effiziente mathematische Schlussfolgerungen und Codegenerierung

Allgemeine Einführung MiMo ist ein von Xiaomi entwickeltes Open-Source-Projekt zur Modellierung großer Sprachen mit Schwerpunkt auf mathematischer Argumentation und Codegenerierung. Das Kernprodukt ist die MiMo-7B-Modellfamilie, die ein Basismodell (Base), ein überwachtes Feinabstimmungsmodell (SFT), ein starkes chemisches Modell, das auf der Grundlage des Basismodells trainiert wurde,...
vor 3 Monaten
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: Das weltweit führende leichtgewichtige, leistungsstarke End-Side Big Model

Allgemeine Einführung ModelBest ist ein Unternehmen, das sich auf die Entwicklung von leichtgewichtigen und leistungsstarken Großmodellen konzentriert und sich der Anwendung fortschrittlicher KI-Technologien auf Mainstream-Unterhaltungselektronik und alle Arten von Endgeräten des täglichen Lebens widmet. Seine MiniCPM-Serie von Endseitenmodellen mit extremer Rechenleistung und Speichernutzungseffizienz...
vor 10 Monaten
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: Open Source Lebenslauferstellung mit Unterstützung für mehrere Sprachen und Vorlagen

Allgemeine Beschreibung Reactive Resume ist ein kostenloser und quelloffener Resume Builder, der das Erstellen, Aktualisieren und Teilen von Lebensläufen vereinfacht. Die Plattform konzentriert sich auf den Schutz der Privatsphäre der Nutzer, ohne Tracking oder Werbung. Benutzer können die App in weniger als 30 Sekunden selbst hosten und haben die volle Kontrolle über ihre...
vor 8 Monaten
02.9K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: Generierung von Browser-Automatisierungscode zur Umwandlung von Mausaktionen in Selenium-Python-Skripte über KI

Allgemeine Einführung AutoMouser ist eine Chrome-Erweiterung, die Benutzerinteraktionen intelligent verfolgt und automatisch Selenium-Testcode unter Verwendung der GPT-Modelle von OpenAI generiert. Dies geschieht durch die Aufzeichnung von Benutzer-Browser-Aktionen und deren Konvertierung...
vor 7 Monaten
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: KI-gesteuerte Open-Source-Suchmaschine bietet intelligente Fragen und Antworten, Videosuche und generiert UI-Code

Allgemeine Einführung Morphic ist eine auf KI-Technologie basierende Suchmaschine mit einer generativen Benutzeroberfläche, die intelligente Fragen und Antworten und ein effizientes Sucherlebnis bieten soll. Benutzer können mit Morphic eine Vielzahl von Suchen durchführen, einschließlich Text, Video usw., und können den Suchverlauf speichern und Suchergebnisse teilen.
vor 9 Monaten
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

Aggregator: Agenten-Crawling- und Aggregationsplattform aus einer Hand, kostenloser Agentenpool (bitte vorschriftsmäßig verwenden)

Umfassende Einführung Aggregator ist ein Open-Source-Projekt auf die Schaffung eines freien Proxy-Pool, der eine Vielzahl von verfügbaren Proxy-Knoten crawlen kann gerichtet. Die Plattform verfügt über ein flexibles Plug-in-System, können Benutzer nach den besonderen Bedürfnissen der Ziel-Site, durch Plug-ins, um spezifische Funktionen zu erreichen. Das Projekt wird hauptsächlich verwendet, um zu lernen, zu crawlen ...
vor 9 Monaten
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: eine .NET-basierte Multi-Intelligenz-KI-Plattform zur Entwicklung und Verwaltung

Umfassende Einführung BotSharp ist ein Open-Source-Projekt auf der Grundlage von .NET Core, das ein umfassendes Tool zur Erstellung einer AI-Chatbot-Plattform bereitstellt. Es verwendet C#-Programmierung, unterstützt plattformübergreifenden Betrieb und zielt darauf ab, die Anwendung von Algorithmen des maschinellen Lernens zu vereinfachen, so dass Entwickler auf Unternehmensebene effizient...
vor 7 Monaten
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite: Einheitlicher OpenAI-Schnittstellenstil ruft mehrere große Modelle auf, schneller Modellwechsel und Vergleichstests

Umfassende Einführung aisuite ist eine einfache, einheitliche Schnittstelle, die es Entwicklern ermöglicht, die Dienste mehrerer generativer KI-Anbieter einfach aufzurufen. Mit einer Schnittstelle, die der von OpenAI ähnelt, erleichtert aisuite die Interaktion mit den beliebtesten LLMs (Large Language Models)...
vor 9 Monaten
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: automatische Erstellung und Auswertung von PPT-Präsentationen, Dokumente zu PPTs

Allgemeine Einführung PPTAgent ist ein innovatives System zur automatischen Erstellung von Präsentationen aus Dokumenten. Das System stützt sich auf die menschliche Herangehensweise an die Erstellung von Präsentationen und verwendet einen zweistufigen Prozess, um die Qualität des Inhalts und die visuelle Wirkung sicherzustellen. Darüber hinaus stellt PPTAgent PPTEval vor, eine umfassende...
vor 7 Monaten
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: ein KI-Assistent für die Erstellung von Textbeschreibungen ComfyUI-Workflows

Umfassende Einführung ComfyUI-Copilot ist ein KI-gesteuerter, benutzerdefinierter Knoten, der für das ComfyUI-Framework entwickelt wurde und darauf abzielt, die Effizienz des Debuggens und der Bereitstellung von KI-Algorithmen durch natürlichsprachliche Interaktion zu verbessern. Er wurde vom AIDC-AI-Team (Alibaba) entwickelt und von GitHu abgeleitet...
vor 6 Monaten
02.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Umrisse: Generierung strukturierter Textausgaben über reguläre Ausdrücke, JSON oder Pydantic-Modelle

Allgemeine Einführung Outlines ist eine Open-Source-Bibliothek, die von dottxt-ai entwickelt wurde, um die Anwendung von Large Language Models (LLMs) durch strukturierte Textgenerierung zu verbessern. Die Bibliothek unterstützt eine Vielzahl von Modellintegrationen, einschließlich OpenAI, Transformatoren...
vor 6 Monaten
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: Open-Source-Tool zum Extrahieren und Abfragen von WeChat-Chat-Protokollen

Allgemeine Einführung Chatlog ist ein Open-Source-Tool, das sich auf die Extraktion und Abfrage von Chat-Protokollen aus der lokalen Datenbank von WeChat konzentriert. Es unterstützt die WeChat-Versionen 3.x und 4.0 und deckt sowohl Windows- als auch macOS-Systeme ab. Benutzer können die Befehlszeile, Terminalschnittstelle oder H...
vor 4 Monaten
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: eine KI-Suchmaschine, die lokale Wissensdatenbanken mit Suchinformationen verknüpft

Allgemeine Einführung MemFree ist eine fortschrittliche hybride KI-Suchmaschine, die in der Lage ist, in Texten, Bildern, Dokumenten und Webseiten zu suchen und Fragen zu stellen. Es bietet einen Ein-Klick-Zugang zu Suchergebnissen für Text, Mind Maps, Bilder und Videos. MemFree zielt darauf ab, Informationen aus der Wissensbasis des Benutzers zu extrahieren und...
vor 10 Monaten
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: Ein minimalistisches Framework für die Entwicklung von KI-Anwendungen in 100 Codezeilen

Umfassende Einführung PocketFlow ist ein leichtgewichtiges KI-Anwendungsentwicklungs-Framework mit nur 100 Zeilen Code, das vom The-Pocket-Team entwickelt und auf GitHub als Open Source zur Verfügung gestellt wird. Es verfolgt ein minimalistisches Design, die Kern-Code-Steuerung in 100 Zeilen, keine externen Abhängigkeiten ...
vor 5 Monaten
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: ein Endmessungsmodell für multimodale Eingabe und Sprachinteraktion in Echtzeit

Umfassende Einführung Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde im Jahr 2025 am 3...
vor 5 Monaten
02.9K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: Integration mehrerer Datenquellen in eine einzige Textdatei

Umfassende Einführung OneFileLLM ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um mehrere Datenquellen in einer einzigen Textdatei für die einfache Eingabe in Large Language Models (LLMs) zu konsolidieren. Es unterstützt die Verarbeitung von GitHub-Repositories, ArXiv-Papers, YouTube-Videotranskriptionen,...
vor 4 Monaten
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Allgemeine Einführung TankWork ist ein Open-Source-Desktop-Agent-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Bildschirminhalten in Echtzeit und die Bereitstellung kontinuierlicher audiovisueller...
vor 7 Monaten
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell): Sofortiges Klonen von Sprache in mehreren Sprachen mit weniger Samples

Allgemeine Einführung OpenVoice ist eine vielseitige Methode zum sofortigen Klonen von Sprache, die es Ihnen ermöglicht, die Stimme eines Referenzsprechers zu kopieren und mehrsprachige Sprache mit nur kurzen Audioclips des Sprechers zu erzeugen. Zusätzlich zum Kopieren von Tönen erlaubt OpenVoice eine feine Kontrolle über den Sprachstil, einschließlich...
vor 10 Monaten
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat: sprachinteraktive digitale Person in Echtzeit mit benutzerdefinierten Bild- und Tonklonen, die End-to-End-Sprachlösungen und kaskadierende Lösungen unterstützen

Allgemeine Einführung VideoChat ist ein Echtzeit-Sprachinteraktionsprojekt für digitale Personen, das auf Open-Source-Technologie basiert und sowohl End-to-End-Sprachschemata (GLM-4-Voice - THG) als auch Kaskadenschemata (ASR-LLM-TTS-THG) unterstützt. Das Projekt ermöglicht es den Benutzern, die digitale ...
vor 9 Monaten
02.9K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine: Anwendungsübersetzung mit AI, kompatibel mit allen wichtigen i18n-Bibliotheken

Allgemeine Einführung Languine ist ein leistungsstarkes Übersetzungstool, das von Midday entwickelt wurde, um Entwicklern zu helfen, den Lokalisierungsprozess für ihre Apps zu optimieren. Mit Languine können Entwickler die KI-Technologie nutzen, um schnell genaue und kontextbezogene Übersetzungen zu generieren, die über...
vor 8 Monaten
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: Die Gemini-Modell-API ist mit dem OpenAI-Format kompatibel, hebt regionale Beschränkungen auf und unterstützt die Abfrage von Multi-API-Schlüsseln.

Umfassende Einführung Gemini Balance ist ein OpenAI-API-Proxy-Dienst, der auf der Grundlage des FastAPI-Frameworks entwickelt wurde und darauf abzielt, effiziente Multi-API-Schlüsselverwaltung und Optimierungsfunktionen bereitzustellen. Das Projekt unterstützt Gemini-Modellaufrufe, und die Hauptfunktionen umfassen Multi-API...
vor 4 Monaten
02.8K
DSPy Examples:展示DSPy功能的实用示例

DSPy-Beispiele: Praktische Beispiele zur Demonstration der DSPy-Funktionalität

Allgemeine Einführung Die DSPy Example Codebase ist eine GitHub Codebase, die vom Langtrace AI Team gepflegt wird und eine Vielzahl von Beispielen für AI-Programme zeigt, die mit DSPy erstellt wurden. Die Codebase wurde entwickelt, um die vielen Funktionen von DSPy anhand von realen Beispielen zu demonstrieren, um Entwicklern ein besseres Verständnis...
vor 6 Monaten
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: Multi-Rollen-Intelligenz, die den Output überprüft, validiert und formatiert, um qualitativ hochwertige Ergebnisse zu erzielen

Umfassende Einführung Kheish ist ein quelloffener Multi-Rollen-Agent, der für Large Language Modelling (LLM)-Aufgaben entwickelt wurde, die eine strukturierte, schrittweise Zusammenarbeit erfordern.Kheish ist mehr als nur ein einfacher Koordinator, er ist ein eigenständiger intelligenter Agent, der bei Bedarf Module anfordert,...
vor 7 Monaten
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

KI-Assistent für Führungskräfte: KI-Assistent für Führungskräfte, Erinnerungen zum Lesen von E-Mails und zur Planung von Arbeitsplänen

Allgemeine Einführung Executive AI Assistant (EAIA) ist ein KI-basiertes Assistenz-Tool, das Benutzern helfen soll, ihre täglichen Aufgaben zu automatisieren und zu verwalten. Das von LangChain entwickelte Tool ist in der Lage, E-Mails zu bearbeiten, Termine zu planen, Aufgaben zu verwalten und andere...
vor 7 Monaten
02.8K
AnkiAIUtils: Anki Flashcard Learning AI Toolset, ein intelligenter Assistent zur automatischen Optimierung von Speicherkarten

AnkiAIUtils: Anki Flashcard Learning AI Toolset, ein intelligenter Assistent zur automatischen Optimierung von Speicherkarten

Allgemeine Beschreibung AnkiAIUtils ist eine Reihe von KI-verbesserten Werkzeugen, die für das Anki-Lernsystem mit Lernkarten entwickelt wurden. Das von einem Medizinstudenten entwickelte Tool wurde entwickelt, um automatisch Karten zu verbessern, mit denen Benutzer während des Lernprozesses durch KI-Technologie zu kämpfen haben. Es bietet den Benutzern auf intelligente Weise personalisierte...
vor 7 Monaten
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: Bereitstellung einer effizienten KI-Gateway-Lösung zur Vereinfachung der Microservice-Verwaltung und Verbesserung der Sicherheit

Umfassende Einführung Higress ist ein von Alibaba entwickeltes Cloud-natives API-Gateway, das auf Istio und Envoy aufbaut und für eine effiziente Verkehrsplanung, Service Governance und Sicherheitslösungen konzipiert ist. Es unterstützt Wasm-Plugin-Erweiterungen für mehrere Programmiersprachen für KI-Business...
vor 9 Monaten
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Zuversichtliche KI: ein Rahmen für die automatische Bewertung großer Sprachmodelle, der die Qualität der Ausgabe verschiedener großer Modellstichwörter vergleicht

Umfassende Einführung DeepEval ist ein einfach zu bedienendes Open-Source-LLM-Evaluierungs-Framework zur Evaluierung und zum Testen großer Sprachmodellierungssysteme. Es ist ähnlich wie Pytest, konzentriert sich aber auf Unit-Tests von LLM-Ausgaben. DeepEval kombiniert die neuesten Forschungsergebnisse durch G-Eval, Phantom- und...
vor 6 Monaten
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion

SpeechGPT 2.0-Preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf der Grundlage von Millionen von Stunden an Sprachdaten trainiert wurde. Das System ist mit einem anthropomorphen Sprachausdruck und einer niedrigen Latenzzeit von 100 ms ausgestattet, was eine natürliche und...
vor 6 Monaten
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: ein Spracherzeugungsmodell, das die Stimme eines echten Sprechers imitiert (ChatTTS-Beschleunigungspaket mit einem Klick)

Allgemeine Einführung ChatTTS ist ein generatives Sprachmodell, das für Dialogszenarien entwickelt wurde. Es erzeugt natürliche und ausdrucksstarke Sprache, unterstützt mehrere Sprachen und mehrere Sprecher und ist für interaktive Dialoge geeignet. Das Modell erreicht dies, indem es feinkörnige rhythmische Merkmale wie Lachen, Pausen und Zwischenrufe vorhersagt und steuert,...
vor 6 Monaten
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: Unüberwachte Live-Aufnahme und Auto-Slicing, Upload-Tool für B-Station

Umfassende Einführung bilive ist ein Tool, das für die Live-Aufnahme von B-Sendern entwickelt wurde und extrem schnelle Live-Aufnahme, Auto-Slicing, Pop-up-Rendering und Untertitelgenerierung bietet. Das Tool ist kompatibel mit extrem niedrig konfigurierten Rechnern, unterstützt 7x24 Stunden unbeaufsichtigte Aufnahme, identifiziert und rendert automatisch Pop-ups und Untertitel,...
vor 6 Monaten
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...
vor 7 Monaten
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: ein multimodales Audiomakromodell für einen End-to-End-Sprachdialog in Echtzeit, eine Open-Source-Implementierung der GPT-4o-Sprachinteraktion

Umfassende Einführung Ultravox ist ein innovatives multimodales Large Language Model (LLM), das für die Sprachverarbeitung in Echtzeit entwickelt wurde. Im Gegensatz zu herkömmlichen Spracherkennungssystemen macht Ultravox eine separate Audio-Spracherkennungsstufe (ASR) überflüssig und ist in der Lage, Audiodaten direkt in den hochdimensionalen Raum...
vor 8 Monaten
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow: eine von Racer eingeführte Open-Source-Version von "Kringle", die auf SD3 basiert und auf Grafikprozessoren mit weniger als 8 GB läuft (Version mit Ein-Klick-Bereitstellung)

Umfassende Einführung Pyramid Flow ist eine effiziente autoregressive Methode zur Videogenerierung, die auf der Flow-Matching-Technik basiert. Die Methode erreicht eine höhere Recheneffizienz bei der Erzeugung und Dekomprimierung von Videoinhalten durch Interpolation zwischen verschiedenen Auflösungen und Rauschpegeln...
vor 9 Monaten
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI: Eine Open-Source-Engine zur schnellen Erstellung nodaler Workflows

Umfassende Einführung Flowgram.ai ist eine von ByteDance entwickelte Open-Source-Engine zur Erstellung von Prozessen. Es basiert auf der Bearbeitung von Knoten, um Entwicklern bei der schnellen Erstellung von Workflows zu helfen, unterstützt zwei Modi: festes Layout und freie Verknüpfung. Das Projekt ist in TypeScript geschrieben ...
vor 5 Monaten
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision: ein quelloffenes visuelles Sprachmodell zur Unterstützung multimodaler Argumentation

Umfassende Einführung R1-Onevision ist ein quelloffenes multimodales Makro-Sprachmodell, das vom Fancy-MLLM-Team entwickelt wurde. Es konzentriert sich auf die tiefgreifende Kombination von Sehen und Sprache und ist in der Lage, multimodale Eingaben wie Bilder und Text zu verarbeiten und Leistungen in den Bereichen visuelles Denken, Bildverständnis, mathematisches Lösen usw. zu erbringen ....
vor 5 Monaten
02.8K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: KI-Datenanalyse- und Visualisierungs-Client für die schnelle Erstellung von Diagrammen und Berichten

Allgemeine Einführung DataLine ist ein leistungsfähiges KI-Werkzeug zur Datenanalyse und -visualisierung, mit dem Benutzer durch einfache Operationen mit einer Vielzahl von Datenquellen interagieren können. Ob es sich um eine CSV-Datei oder eine gängige Datenbank wie Postgres, MySQL, Snowflake, SQL...
vor 6 Monaten
02.8K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

CoolCline: eine weitere verbesserte Version des intelligenten Programmierassistenten von Cline, die die Vorteile von ClineRoo Cline und Bao Cline vereint.

Allgemeine Beschreibung CoolCline ist ein leistungsstarker Coding-Assistent, der die besten Eigenschaften von Cline, Roo Cline und Bao Cline vereint. Er arbeitet nahtlos mit Ihrer Befehlszeilenschnittstelle (CLI) und Ihrem Editor zusammen, um Ihnen die leistungsfähigste...
vor 7 Monaten
02.8K