AI Open-Source-Projekt

Insgesamt 1020 Artikel
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: Generierung von hochauflösenden 3D-Modellen aus einem einzigen Bild

Allgemeine Einführung TripoSG ist ein Open-Source-Projekt, das vom VAST-KI-Forschungsteam entwickelt wurde, um hochwertige 3D-Modelle aus einem einzigen Bild zu erzeugen. Das Projekt verwendet eine groß angelegte Gleichrichter-Fluss-Wandler-Technologie, kombiniert mit einem hybriden überwachten Training und hochwertigen Datensätzen, um die generierten 3D-Modelle...
vor 5 Monaten
02.5K
无服务器快速部署Grok3国内镜像站

Serverlose schnelle Bereitstellung Grok3 inländischen Spiegel Website

Allgemeine Einführung Grok Playground ist ein Open-Source-Projekt, das von dem Team von "Technical Crawling Shrimp" entwickelt wurde. Die Hauptfunktion dieses Tools besteht darin, den Benutzern die Möglichkeit zu geben, innerhalb von 10 Sekunden eine Grok3-Inlandsspiegelseite einzurichten. Grok3 ist ein Modell der künstlichen Intelligenz, das von xAI eingeführt wurde, und ...
vor 5 Monaten
02.5K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: Erreichen Sie ganz einfach null E-Mails in Ihrem Posteingang, mit Hilfe von KI, die Sie beim Kategorisieren, Filtern und Verarbeiten Ihrer E-Mails unterstützt.

Allgemeine Beschreibung Inbox Zero ist eine Open-Source-App für die E-Mail-Verwaltung, die Nutzern helfen soll, mit einem KI-Assistenten schnell Null E-Mails im Posteingang zu haben. Die App bietet eine Vielzahl von Funktionen, darunter automatisches Beantworten, Archivieren, Kennzeichnen und Weiterleiten von E-Mails, Verwalten und Abbestellen von Newslettern, Blockieren von kalten E-Mails, Verfolgen von...
vor 8 Monaten
02.4K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: Erstellung von Wissensgraphen zur Automatisierung von Aufgabenplanung und -durchführung

Umfassende Einführung GraphAgent ist ein automatisiertes intelligentes Körpersystem, das Graphengenerierung, Aufgabenplanung und Aufgabenausführung integriert. Es ist in der Lage, strukturierte und unstrukturierte Daten zu verarbeiten, komplexe semantische Abhängigkeitsgraphen zu erstellen und Benutzeraufgaben durch Selbstplanung und Tool-Matching effizient auszuführen.GraphAgent...
vor 7 Monaten
02.4K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: natürlich gesprochener Dialog mit niedriger Latenz und KI

Allgemeine Einführung RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Unterhaltungen in Echtzeit mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden ein Mikrofon, um ihre Stimme einzugeben, und das System nimmt das Audio über einen Browser auf, wandelt es schnell in Text um, und ein großes Sprachmodell (LLM) erzeugt...
vor 3 Monaten
02.4K
Dia:生成超现实多人对话的文本转语音模型

Dia: ein Text-to-Speech-Modell zur Erzeugung hyperrealistischer Multiplayer-Dialoge

Allgemeine Einführung Dia ist ein Open-Source-Text-to-Speech (TTS)-Modell, das von Nari Labs entwickelt wurde und sich auf die Erzeugung von hyperrealistischem Dialog-Audio konzentriert. Es wandelt Text-Skripte in einem einzigen Prozess in realistische Multi-Charakter-Dialoge um, unterstützt Emotions- und Intonationskontrolle und generiert sogar nonverbale Repräsentationen...
vor 4 Monaten
02.4K
茴香豆:基于LLM(大型语言模型) 的群聊助手

Fennel Bean: LLM (Large Language Model) basierter Gruppenchat-Assistent

Umfassende Einführung HuixiangDou ist ein auf einem groß angelegten Sprachmodell (LLM) basierender Gruppenchat-Assistent, der durch einen dreistufigen Vorverarbeitungs-, Ablehnungs- und Antwortprozess für Gruppenchatszenarien entwickelt wurde. Er ist in der Lage, Benutzerfragen zu beantworten, ohne eine Informationsüberflutung zu verursachen. Das Projekt bietet ein komplettes Web ...
vor 6 Monaten
02.4K
TheoremExplainAgent:利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Erzeugen von mehr als 5-minütigen animierten Mathe-Erklärvideos mit Manim

Allgemeine Einführung TheoremExplainAgent ist ein innovatives Projekt, das vom TIGER AI Lab entwickelt wurde, um komplexe mathematische und wissenschaftliche Theoreme mithilfe von Techniken der künstlichen Intelligenz in leicht verständliche Videoanimationen zu verwandeln. Das Werkzeug basiert auf dem Large Language Model (LLM...
vor 6 Monaten
02.4K
SongGen:自动生成歌曲的单阶段自回归Transformer

SongGen: Ein einstufiger autoregressiver Transformator für die automatische Songgenerierung

Umfassende Einführung SongGen ist ein quelloffenes, einstufiges autoregressives Transformer-Modell, das für die Generierung von Text in Songs entwickelt wurde. Das Modell ist in der Lage, aus Texteingaben Lieder mit Gesang und Hintergrundmusik zu generieren. SongGen bietet eine fein abgestufte Kontrolle über eine Vielzahl musikalischer Attribute...
vor 6 Monaten
02.4K
Trackers:用于视频对象跟踪的开源工具库

Trackers: Open-Source-Werkzeugbibliothek für die Verfolgung von Videoobjekten

Allgemeine Einführung Trackers ist eine Open-Source-Python-Werkzeugbibliothek, die sich auf die Verfolgung von mehreren Objekten in Videos konzentriert. Sie integriert mehrere führende Verfolgungsalgorithmen wie SORT und DeepSORT und ermöglicht es dem Benutzer, verschiedene Modelle zur Objekterkennung zu kombinieren (wie YOLO...
vor 3 Monaten
02.4K
Deep Research:基于AI的深度研究助手,提供高效的研究工具和报告生成功能

Deep Research: ein KI-gestützter Deep Research-Assistent, der effiziente Recherchetools und Funktionen zur Berichterstellung bietet

Allgemeine Einführung Deep Research ist ein KI-basierter Forschungsassistent, der iterative Tiefenforschung durch die Kombination von Suchmaschinen, Web-Crawling und großen Sprachmodellen durchführt. Das Projekt wurde von dzhng auf GitHub veröffentlicht mit dem Ziel, eine einfach zu bedienende Deep Research-Genera...
vor 4 Monaten
02.4K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab: ein experimentelles Dialogwerkzeug zur Erforschung des iterativen Denkens über die Mensch-Computer-Zusammenarbeit

CoT-Lab ist eine experimentelle Schnittstelle zur Erforschung neuer Paradigmen in der Zusammenarbeit zwischen Mensch und Computer. Basierend auf der Theorie der kognitiven Belastung und den Prinzipien des aktiven Lernens erleichtert CoT-Lab eine tiefgreifende kognitive Abstimmung zwischen Menschen und Künstlicher Intelligenz (KI) durch die Schaffung von Beziehungen zwischen "Denkpartnern". Das Projekt zielt darauf ab...
vor 6 Monaten
02.4K
DeepResearcher:基于强化学习驱动AI研究复杂问题

DeepResearcher: Auf Verstärkungslernen basierende Fahr-KI zur Untersuchung komplexer Probleme

Umfassende Einführung DeepResearcher ist ein Open-Source-Projekt, das vom GAIR-NLP-Team an der Shanghai Jiao Tong University entwickelt wurde. Es ist ein intelligentes Forschungswerkzeug, das auf großen Sprachmodellen (Large Language Models, LLMs) basiert, die durchgängig in realen Webumgebungen durch Reinforcement Learning (RL) trainiert werden. Das Projekt ...
vor 4 Monaten
02.4K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT: Ein multimodales Grand-Modell für das Verständnis von Bild- und Videoregionen zur Verbesserung der Analyse visueller Inhalte

Umfassende Einführung Omni-RGPT ist ein multimodales großes Sprachmodell, das das Verstehen von Bildern und Videos auf Regionsebene ermöglicht. Durch die Einführung der Token-Mark-Technik ist Omni-RGPT in der Lage, die Zielregion im visuellen Merkmalsraum zu markieren und die Zielregion durch regionale Hinweise (z.B. Boxen oder...
vor 7 Monaten
02.4K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: Automatische Generierung von Markdown-Dokumenten aus Code-Struktur und Inhalt.

Allgemeine Einführung CodeWeaver ist ein Kommandozeilen-Tool, mit dem Code-Bibliotheken in einzelne, einfach zu navigierende Markdown-Dokumente eingebettet werden können. Es erzeugt eine strukturierte Darstellung der Dateihierarchie eines Projekts, indem es Verzeichnisse rekursiv durchsucht und den Inhalt jeder Datei in Codeblöcke einbettet. Dieses Werkzeug...
vor 6 Monaten
02.4K
自动解析PDF内容并提取文字与表格的开源服务

Automatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-Diensten

Umfassende Einführung Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität und kann gescannte PDFs in durchsuchbaren Text umwandeln. Es läuft auf Docker und bietet zwei Modelle...
vor 4 Monaten
02.4K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ein Open-Source-Tool zur automatischen Segmentierung beliebiger bewegter Objekte aus Videos

Allgemeine Einführung SegAnyMo ist ein Open-Source-Projekt, das von einem Team von Forschern der UC Berkeley und der Universität Peking entwickelt wurde, darunter Mitglieder wie Nan Huang. Dieses Tool konzentriert sich auf die Videoverarbeitung und kann automatisch beliebige sich bewegende Objekte in einem Video identifizieren und segmentieren, wie zum Beispiel Menschen, Tiere oder...
vor 4 Monaten
02.4K
Local Deep Research:本地运行的生成深度研究报告工具

Local Deep Research: ein lokal betriebenes Tool zur Erstellung detaillierter Forschungsberichte

Allgemeine Einführung Local Deep Research ist ein quelloffener KI-Forschungsassistent, der Benutzern helfen soll, tiefgreifende Forschungen durchzuführen und detaillierte Berichte für komplexe Probleme zu erstellen. Er unterstützt die lokale Ausführung, so dass die Nutzer Forschungsaufgaben erledigen können, ohne auf Cloud-Dienste angewiesen zu sein. Das Tool ...
vor 3 Monaten
02.4K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: Ein grafisches hybrides multimodales Reasoning-Modell Open Source von Kunlun Wanwen

Allgemeine Einführung Skywork-R1V ist ein vom SkyworkAI-Team (Kunlun Wanwei) entwickeltes und auf GitHub veröffentlichtes Open-Source-Modell für multimodales schlussfolgerndes Denken, das in der Lage ist, Bilder und Text gleichzeitig zu verarbeiten, logische Schlussfolgerungen in mehreren Schritten durchzuführen und besonders gut komplexe Bildprobleme zu analysieren. Diese...
vor 5 Monaten
02.4K
Zev:用自然语言快速查询终端命令的CLI工具

Zev: Ein CLI-Tool zur schnellen Abfrage von Terminal-Befehlen in natürlicher Sprache

Allgemeine Einführung Zev ist ein benutzerfreundliches Tool für die Befehlszeilenschnittstelle (CLI), mit dem Benutzer schnell Terminalbefehle in natürlicher Sprache abfragen und erzeugen können. Anstatt sich eine komplexe Befehlssyntax merken zu müssen, generiert Zev Terminalbefehle, indem es Ihre Bedürfnisse in Alltagssprache beschreibt. Basierend auf Ope...
vor 4 Monaten
02.4K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: Bildschirmfotos der Benutzeroberfläche werden in strukturierte Elemente zerlegt, um das Verständnis und die Bearbeitung großer Modelle zu erleichtern

Allgemeine Einführung OmniParser ist ein von Microsoft entwickeltes Tool zum Parsen von Benutzeroberflächen-Screenshots in strukturierte und leicht verständliche Elemente. Dieses Tool verbessert die Fähigkeit von GPT-4V, genaue Aktionen im entsprechenden Oberflächenbereich zu generieren....
vor 6 Monaten
02.4K
CogView4:生成中英双语高清图片的开源文生图模型

CogView4: ein quelloffenes grafisches Modell zur Erzeugung zweisprachiger hochauflösender Bilder in Chinesisch und Englisch

Allgemeine Einführung CogView4 ist ein Open-Source-Text-zu-Grafik-Modell, das vom KEG Lab (THUDM) an der Tsinghua Universität entwickelt wurde und sich auf die Umwandlung von Textbeschreibungen in hochwertige Bilder konzentriert. Es unterstützt die zweisprachige Eingabe von Stichwörtern und ist besonders gut darin, chinesische Stichwörter zu verstehen und Bilder mit chinesischen Schriftzeichen zu erzeugen,...
vor 5 Monaten
02.4K
HN中文播客:自动抓取热门科技文章,AI生成中文总结并转换为播客

HN Chinese Podcast: Automatische Erfassung populärer technischer Artikel, KI-generierte chinesische Zusammenfassungen und Umwandlung in Podcasts

Allgemeine Einführung Das Projekt Hacker News Chinese Podcast ist eine innovative Plattform, die auf KI-Technologie basiert. Ziel ist es, jeden Tag automatisch beliebte Artikel auf Hacker News zu erfassen und mithilfe von KI chinesische Zusammenfassungen und Podcast-Inhalte zu erstellen. Das Projekt wird von ccbikai geleitet ...
vor 6 Monaten
02.4K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit: Ein Open-Source-Tool für die Bearbeitung von Bildern mit Anweisungen in natürlicher Sprache

Allgemeine Einführung Step1X-Edit ist ein Open-Source-Framework zur Bildbearbeitung, das vom Stepfun AI-Team entwickelt wurde und auf GitHub gehostet wird. Es kombiniert ein multimodales großes Sprachmodell (Qwen-VL) und einen Diffusionstransformator (DiT), um es den Benutzern zu ermöglichen, Bilder durch ein einfaches und natu...
vor 3 Monaten
02.4K
OpenSearch-SQL:将自然语言转为SQL查询的开源工具

OpenSearch-SQL: Ein Open-Source-Tool zur Umwandlung natürlicher Sprache in SQL-Abfragen

Umfassende Einführung OpenSearch-SQL ist ein Open-Source-Projekt, es ist ein leistungsfähiges Text-to-SQL-Tool, das die Beschreibungen des Benutzers in natürlicher Sprache in SQL-Abfrageanweisungen umwandeln kann, um Menschen, die nicht mit der Datenbank vertraut sind, einen einfachen Zugriff auf die Daten zu ermöglichen. Dieses Projekt wurde entwickelt von O...
vor 5 Monaten
02.4K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPT Researcher: Erstellung umfassender, detaillierter Forschungsberichte mit lokalen und webbasierten Daten

Umfassende Einführung GPT Researcher ist ein autonomes Agententool, das auf dem Large Language Model (LLM) basiert und für die Durchführung von lokalen und Web-Recherchen sowie die Erstellung detaillierter Forschungsberichte entwickelt wurde. Das Tool bietet eine stabile Leistung und höhere Geschwindigkeit, indem es die Arbeit der Agenten parallelisiert und sicherstellt, dass die Informationen genau sind...
vor 4 Monaten
02.4K
Story-Flicks:输入主题自动生成儿童短故事视频

Story-Flicks: Eingabe von Themen zur automatischen Generierung von Kurzgeschichten-Videos für Kinder

Umfassende Einführung Story-Flicks ist ein Open-Source-KI-Tool, das Benutzern hilft, schnell HD-Geschichtenvideos zu erstellen. Benutzer müssen nur ein Story-Thema eingeben, und das System generiert den Story-Inhalt mithilfe eines umfangreichen Sprachmodells und kombiniert die von der KI generierten Bilder, Audios und Untertitel, um ein vollständiges Video zu erstellen...
vor 5 Monaten
02.3K
Paper to Podcast:把学术论文转换为多人对话播客

Paper to Podcast: Umwandlung akademischer Papiere in Podcasts mit Konversation für mehrere Personen

Allgemeine Einführung Paper to Podcast ist ein Open-Source-Tool, das darauf spezialisiert ist, akademische Forschungsarbeiten in lebendige und unterhaltsame Podcasts zu verwandeln. Es nutzt die Technologie der künstlichen Intelligenz, um ein PDF-formatiertes Papier in einen Dialog zwischen drei Charakteren - dem Moderator, dem Lernenden und dem Experten - zu verwandeln, um komplexe...
vor 4 Monaten
02.3K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: Ein Open-Source-Tool für die flexible Anbindung und Verwaltung von KI-Intelligenzen

Allgemeine Einführung AgentIQ ist ein Open-Source-Tool von NVIDIA, das Entwicklern helfen soll, KI-Intelligenzen effizient zu verbinden und zu verwalten. Es ermöglicht Intelligenzen aus verschiedenen Frameworks die nahtlose Zusammenarbeit, die Verbindung von Unternehmensdaten und -tools sowie die Erstellung von Workflows wie das Aufrufen von Funktionen. Die größte Stärke des Tools ist...
vor 5 Monaten
02.3K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO: Unterstützung für kundenspezifische Bilderzeugungstools für ein oder mehrere Themen (geeignet für E-Commerce-Grafiken)

UNO ist ein Open-Source-Framework zur Bilderzeugung, das vom ByteDance Intelligent Creation Team entwickelt wurde. Es basiert auf dem FLUX.1-Modell und konzentriert sich auf die Generierung von benutzerdefinierten Bildern mit einem oder mehreren Objekten durch einen "Weniger-zu-Mehr"-Ansatz.UNO verwendet den Diffusionstransformator...
vor 4 Monaten
02.3K
PrimisAI Nexus:构建可扩展AI多智能体系统与任务自动化的轻量框架

PrimisAI Nexus: ein leichtgewichtiges Framework für den Aufbau skalierbarer KI-Multi-Intelligenz-Systeme und Aufgabenautomatisierung

Allgemeine Einführung PrimisAI Nexus ist ein leichtgewichtiges, quelloffenes Python-Framework, das auf GitHub gehostet und vom PrimisAI-Team entwickelt wird. Es zielt darauf ab, Benutzern zu helfen, skalierbare, multi-intelligente KI-Körpersysteme durch Large Language Modelling (LLM) zu erstellen und zu verwalten,...
vor 5 Monaten
02.3K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: ein KI-Forschungsautomatisierungswerkzeug für die Sammlung und Analyse von Informationen in mehreren Runden

Allgemeine Einführung Shandu ist ein Open-Source-Forschungssystem auf der Grundlage künstlicher Intelligenz, das auf GitHub gehostet und vom Entwickler jolovicdev erstellt wird. Es nutzt die Technologien LangChain und LangGraph und zielt darauf ab, automatisierte, umfassende und...
vor 4 Monaten
02.3K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: Deklarative Grammatik und MCP-Integration für den schnellen Aufbau von Multi-Intelligent Body Workflows

Allgemeine Einführung Fast-Agent ist ein Open-Source-Tool, das vom evalstate-Team auf GitHub gepflegt wird und Entwicklern helfen soll, Multi-Intelligence-Workflows schnell zu definieren, zu testen und zu erstellen. Es basiert auf einer einfachen deklarativen Syntax und unterstützt die Verwendung von MCP (Mode...
vor 5 Monaten
02.3K
Onyx:连接企业知识库的智能AI聊天平台

Onyx: die intelligente KI-Chat-Plattform, die Wissensdatenbanken von Unternehmen miteinander verbindet

Allgemeine Einführung Onyx (früher bekannt als Danswer) ist eine Open-Source-KI-Chat-Plattform, die vom onyx-dot-app-Team entwickelt wurde, um Unternehmen bei der Integration und Verwaltung von Dokumenten, Anwendungen und Mitarbeiterdaten zu unterstützen. Sie bietet umfangreiche Chat-Funktionen mit Unterstützung für die Anbindung beliebiger Large Language Models (LLM...
vor 5 Monaten
02.3K
文颜:一键美化Markdown文章,适配多个自媒体平台格式(开源本地客户端)

Wenyan: Verschönerung von Markdown-Artikeln mit einem Mausklick, Anpassung an die Formate mehrerer Medienplattformen (lokaler Open-Source-Client)

Umfassende Einführung WenYan ist ein Werkzeug für Markdown Artikel Satz und Verschönerung, unterstützt die Umwandlung von bearbeiteten Markdown Artikel in ein Format geeignet für WeChat, Zhihu, Today's Schlagzeilen und anderen Plattformen. Benutzer können den Artikel mit einem Klick kopieren, der Artikel direkt...
vor 7 Monaten
02.3K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou: ein Werkzeug zur Erstellung und Bearbeitung von Fotos, das die Gesichtszüge bewahrt

Allgemeine Einführung InfiniteYou ist ein Open-Source-Projekt, das vom ByteDance Intelligent Creation Team entwickelt wurde. Es basiert auf der Diffusion Transformers (DiTs)-Technologie und verwendet das FLUX.1-dev-Modell. Die Kernfunktion besteht darin, dass Benutzer ein Foto hochladen und eine Textbeschreibung eingeben können,...
vor 5 Monaten
02.3K
Coding-Tutor:提供个性化编程指导的智能教学助手

Coding-Tutor: ein intelligenter Lehrassistent, der eine personalisierte Programmieranleitung bietet

Allgemeine Einführung Coding-Tutor ist ein Open-Source-Projekt, das auf GitHub gehostet wird und vom Entwickler iwangjian erstellt wurde, um Lernenden ein personalisiertes Programmierungserlebnis zu bieten. Es verwendet Konversations-KI-Technologie, um auf der Grundlage des Wissenshintergrunds des Benutzers zu lernen und...
vor 6 Monaten
02.3K
GAG:利用大模型模拟人类行为生成社交关系图谱

GAG: Generierung eines Graphen sozialer Beziehungen unter Verwendung eines großen Modells zur Simulation menschlichen Verhaltens

Allgemeine Einführung GraphAgent ist ein Open-Source-Framework, das auf GitHub gehostet und von Ji-Cather entwickelt wird. Es nutzt das Large Language Model (LLM), um menschliches Verhalten zu simulieren und dynamische, soziale Graphen mit textuellen Attributen zu erzeugen. Dieses Tool ist für soziale Online-Medien geeignet...
vor 5 Monaten
02.3K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice: eine grafische Text-zu-Sprache-Schnittstelle auf der Grundlage von Silizium-basierten Flow-APIs

Allgemeine Einführung Text2Voice ist ein Open-Source-Tool, das Text-to-Speech-Funktionalität auf der Grundlage einer Silizium-basierten Mobilitäts-API bietet, mit einer sauberen grafischen Benutzeroberfläche (GUI) als seine beste Eigenschaft. Es wurde vom Entwickler Sheldon Lee auf GitHub erstellt, um...
vor 4 Monaten
02.3K
VOP:提取复杂图表与数学公式的OCR工具

VOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer Formeln

Umfassende Einführung Das Versatile OCR Program ist ein Open-Source-Tool zur optischen Zeichenerkennung (OCR), das für die Arbeit mit komplexen akademischen und Bildungsdokumenten entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDFs, Bildern und anderen Dokumenten extrahieren und...
vor 4 Monaten
02.3K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Allgemeine Einführung HumanOmni ist ein quelloffenes multimodales Big Model, das vom HumanMLLM-Team entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Analyse von menschlichen Videos und kann sowohl Bild als auch Ton verarbeiten, um Emotionen, Handlungen und Dialoginhalte zu verstehen. Das Projekt verwendet 2...
vor 5 Monaten
02.3K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: ein Open-Source-Suchwerkzeug, das intelligente Schlussfolgerungen unterstützt

Allgemeine Einführung OpenDeepSearch ist ein Open-Source-Suchwerkzeug, das vom sentient-agi-Team entwickelt wurde. Es kombiniert Large Language Modelling (LLM) und Intelligent Reasoning Agents, um Benutzern die Möglichkeit zu geben, Webseiten nach Informationen zu durchsuchen und auf einfache Weise präzise Antworten zu erhalten. Diese ...
vor 5 Monaten
02.3K
TestDriver:使用AI自动测试软件的智能工具

TestDriver: ein intelligentes Tool für automatisierte Softwaretests mit KI

Allgemeine Einführung TestDriver ist eine Website, die mit Hilfe künstlicher Intelligenz Entwickler beim Testen von Software unterstützt. Sie automatisiert die Aufgabe des Testens von Software, indem sie menschliche Handlungen simuliert, wie z. B. das Klicken einer Maus oder die Eingabe von Text. Das Herzstück der Website ist ein "Computer mit einem KI-Agenten", der wie ein echter Mensch arbeitet...
vor 4 Monaten
02.3K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: Open-Source-Framework zur Erzeugung von Videos beliebiger 3D- und 4D-Szenen

Allgemeine Einführung GenXD ist ein Open-Source-Projekt, das von der National University of Singapore (NUS) und dem Microsoft-Team entwickelt wurde. Es konzentriert sich auf die Generierung beliebiger 3D- und 4D-Szenen, um das Problem der 3D- und 4D-Generierung in der realen Welt zu lösen, das durch unzureichende Daten und die Komplexität des Modelldesigns entsteht. Das Projekt wurde entwickelt von ...
vor 4 Monaten
02.3K
Abogen:将多种文本格式转换为有声读物的工具

Abogen: ein Tool zur Konvertierung verschiedener Textformate in Hörbücher

Allgemeine Einführung Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in qualitativ hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, was für die Produktion von Hörbüchern geeignet ist...
vor 3 Monaten
02.3K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: ein Open-Source-Tool zur Vervollständigung des gesamten Prozesses der wissenschaftlichen Forschung mit intelligenten Agenten

Allgemeine Einführung AgentLaboratory ist ein Open-Source-Tool, das auf GitHub gehostet und von Samuel Schmidgall entwickelt wird. Es verwendet intelligente Agenten, die von Large Language Models (LLMs) gesteuert werden, um Forschern bei dem gesamten Prozess der wissenschaftlichen...
vor 5 Monaten
02.3K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus: ein lokales Management-Backend für Dify

Umfassende Einführung Dify-Plus ist eine KI-Anwendungsentwicklungsplattform, die auf der Sekundärentwicklung des Open-Source-Projekts Dify basiert. Sie fügt ein neues, auf Dify basierendes Verwaltungszentrum hinzu und optimiert die Funktionalität für Unternehmensszenarien. Das Projekt war ursprünglich für den internen Gebrauch von Unternehmen gedacht. Später stellte sich heraus, dass die Community ähnliche Bedürfnisse hat...
vor 5 Monaten
02.2K
OneLine:生成热点事件时间轴的AI工具

OneLine: ein KI-Tool zur Erstellung von Zeitleisten für aktuelle Ereignisse

Allgemeine Einführung OneLine ist ein Open-Source-Tool zur Erstellung von Zeitleisten für heiße Ereignisse, das auf GitHub gehostet und vom Benutzer chengtx809 entwickelt wurde. Es generiert schnell eine Zeitleiste von Ereignissen anhand von Schlüsselwörtern, die vom Benutzer eingegeben werden, und zeigt die Zeit, den Titel, die Beschreibung und die Personen, die mit dem Ereignis in Verbindung stehen, an...
vor 4 Monaten
02.2K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: Feinabstimmung von Sprachmodellen mithilfe von Wissensgraphen zur Erzeugung synthetischer Daten

Umfassende Einführung GraphGen ist ein Open-Source-Framework, das von OpenScienceLab, einem KI-Labor in Shanghai, entwickelt wurde und auf GitHub gehostet wird. Es konzentriert sich auf die Optimierung der überwachten Feinabstimmung von Large Language Models (LLMs), indem es die Erzeugung synthetischer Daten durch Wissensgraphen anleitet. Es wurde entwickelt aus ...
vor 3 Monaten
02.2K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: Asiatische Spracherkennung und Speech-to-Text-Modelle für asiatische Sprachen

Umfassende Einführung Dolphin ist ein Open-Source-Modell, das von DataoceanAI und der Tsinghua-Universität entwickelt wurde und sich auf Spracherkennung und Spracherkennung für asiatische Sprachen konzentriert. Es unterstützt 40 Sprachen in Ostasien, Südasien, Südostasien und dem Nahen Osten sowie 22 chinesische Dialekte...
vor 4 Monaten
02.2K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

Company Researcher: Ein Tool zur Unternehmensrecherche. Geben Sie die Webadresse eines Unternehmens ein, um detaillierte Informationen zu erhalten.

Allgemeine Beschreibung Company Researcher (Company Researcher) ist ein kostenloses und quelloffenes Tool, das den Nutzern helfen soll, einen schnellen und umfassenden Überblick über ein beliebiges Unternehmen zu erhalten. Geben Sie einfach die URL des Unternehmens ein, und das Tool sammelt umfassende Informationen aus dem Internet, die Informationen über die Organisation, ihre Produkte...
vor 4 Monaten
02.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus Fotos

Allgemeine Einführung ChatAnyone ist ein innovatives Projekt, das vom HumanAIGC-Team entwickelt wurde. Es nutzt Techniken der künstlichen Intelligenz, um aus einem einzigen Foto und einer Audioeingabe digitale menschliche Porträtvideos mit Oberkörperbewegungen zu erzeugen. Das Projekt basiert auf einem hierarchischen Bewegungsdiffusionsmodell, das Kopfbewegungen erzeugt...
vor 4 Monaten
02.2K
Orchestra: Aufbau intelligenter KI-Teams für eine einfachere und effizientere kollaborative Multi-Intelligenz-Entwicklung

Orchestra: Aufbau intelligenter KI-Teams für eine einfachere und effizientere kollaborative Multi-Intelligenz-Entwicklung

Orchestra ist ein innovatives, leichtgewichtiges Python-Framework, das sich auf den Aufbau kollaborativer Systeme mit mehreren Intelligenzen auf der Grundlage des Large Language Model (LLM) konzentriert. Es verwendet eine einzigartige Methode zur Anordnung von Intelligenzen, so dass mehrere KI-Intelligenzen wie ein Symphonieorchester harmonisch zusammenarbeiten können. Durch die Modellierung ...
vor 7 Monaten
02.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: KI-Assistent für die Verwaltung persönlicher Gesundheitsdaten, Hochladen von Untersuchungsberichten für maßgeschneiderte Gesundheitspläne

Allgemeine Einführung OpenHealthForAll ist ein Open-Source-Projekt, das den Nutzern helfen soll, ihre persönlichen Gesundheitsdaten zu verwalten und zu verstehen. Durch den Einsatz von Technologien der künstlichen Intelligenz bietet OpenHealthForAll einen lokal betriebenen Gesundheitsassistenten, der den Nutzern hilft, ihre...
vor 6 Monaten
02.2K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT: ein Open-Source-Projekt zur Erstellung und Ausführung automatisierter KI-Intelligenzen

Allgemeine Einführung AgentGPT ist ein Open-Source-Projekt, das vom Reworkd-Team entwickelt und auf GitHub gehostet wird. Es wurde entwickelt, um Nutzern die Möglichkeit zu geben, selbstständig KI-Intelligenzen über einen Browser zu erstellen, zu konfigurieren und einzusetzen. Benutzer setzen einfach ein Ziel, und AgentGPT kann...
vor 5 Monaten
02.2K
Claude生成深度研究报告的MCP服务

Claude's MCP-Dienst für die Erstellung ausführlicher Forschungsberichte

Allgemeine Einführung MCP Server Deep Research ist ein Open-Source-Tool, das durch künstliche Intelligenz und Websuche automatisch strukturierte Forschungsberichte für komplexe Probleme erstellt. Benutzer geben eine Forschungsfrage ein, und das Tool zerlegt die Frage, sucht nach maßgeblichen Informationen, bewertet die Glaubwürdigkeit der Quellen...
vor 3 Monaten
02.2K
LitServe:快速部署企业级通用AI模型推理服务

LitServe: schnelle Bereitstellung von universellen KI-Modellinferenzdiensten auf Unternehmensebene

Umfassende Einführung LitServe ist eine Open-Source-KI-Modell-Service-Engine von Lightning AI, die auf FastAPI aufbaut und sich auf die schnelle Bereitstellung von Inferenzdiensten für Allzweck-KI-Modelle konzentriert. Es unterstützt Modelle, die von großen Sprachmodellen (LLMs), visuellen...
vor 5 Monaten
02.2K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: Ein hybrides Videogenerierungsmodell mit Unterstützung für den Betrieb auf einem niedrigen Grafikprozessor

Allgemeine Einführung HunyuanVideoGP ist ein von DeepBeepMeep entwickeltes Modell zur Generierung von Videos in großem Maßstab, das für Benutzer von Low-End-GPUs konzipiert ist. Das Modell ist eine verbesserte Version des ursprünglichen Hunyuan-Video-Modells, das den Speicher- und Grafikspeicherbedarf deutlich reduziert...
vor 6 Monaten
02.2K
Thera:任意尺寸图像放大、去锯齿的开源工具

Thera: Open-Source-Tools zur Bildvergrößerung und -entschärfung in beliebiger Größe

Allgemeine Einführung Thera ist ein Open-Source-Tool für die Superauflösung von Bildern, das von einem Team der ETH Zürich und der Universität Zürich entwickelt wurde. Es kann niedrig aufgelöste Bilder auf beliebige Skalen zoomen, wie z.B. 2x, 3.14x oder sogar nicht-ganzzahlige Vielfache, und...
vor 4 Monaten
02.2K
混元Turbo S:腾讯推出的快思考大模型(开放申请)

Hybrid Turbo S: Tencent's Big Model for Thinking Fast (offen für Bewerbungen)

Umfassende Einführung Tencent Turbo S ist eine neue Generation von Tencents selbst entwickeltem Schnelldenker-Modell, das am 27. Februar 2025 auf der offiziellen Website von Tencent Cloud vorgestellt wurde. Es unterscheidet sich von den traditionellen langsam denkenden Modellen (z. B. Deepseek R1, Hybrid T1) dadurch, dass es "zweite Antworten" realisieren kann,...
vor 5 Monaten
02.2K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: Effiziente Lösungen für das Training von KI-Modellen in großem Maßstab bereitstellen

Umfassende Einführung ColossalAI ist eine Open-Source-Plattform, die von HPC-AI Technologies entwickelt wurde, um eine effiziente und kostengünstige Lösung für das Training und die Inferenz umfangreicher KI-Modelle zu bieten. Durch die Unterstützung mehrerer paralleler Strategien, heterogener Speicherverwaltung und Training mit gemischter Präzision ist ColossalAI...
vor 6 Monaten
02.2K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch: ein Visualisierungstool zur Überwachung und Optimierung von LLM-Prozessen auf der Grundlage des DSPy-Frameworks

Umfassende Einführung LangWatch ist eine umfassende Plattform für den Betrieb von Large Language Models (LLM), die Überwachung, Analyse, Bewertung, Datensatzverwaltung und Cue-Optimierung bietet. Die Plattform basiert auf dem DSPy-Framework der Stanford University und wurde entwickelt, um den Benutzern eine bessere Verwaltung und Optimierung...
vor 7 Monaten
02.2K