AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel
Insgesamt 914 Artikel

Tags: KI Open-Source-Projekte

uniOCR:跨平台开源的文字识别工具-首席AI分享圈

uniOCR: plattformübergreifendes Open-Source-Tool zur Texterkennung

Allgemeine Einführung uniOCR ist ein Open-Source-Tool zur Texterkennung, das vom mediar-ai-Team entwickelt wurde. Es basiert auf der Sprache Rust und unterstützt macOS-, Windows- und Linux-Systeme. Es unterstützt macOS, Windows und Linux-Systeme. Benutzer können es verwenden, um Text aus Bildern zu extrahieren, die Bedienung ist einfach und kostenlos. uniOCRs Hauptmerkmal ist die plattformübergreifende Unterstützung...

Serena:语义检索和编辑代码的免费MCP工具-首席AI分享圈

Serena: ein kostenloses MCP-Tool für die semantische Suche und Bearbeitung von Code

Allgemeine Einführung Serena ist ein freies und quelloffenes Programmiertool, das vom Oraios AI-Team entwickelt und auf GitHub gehostet wird. Es ist ein leistungsfähiger Code-Assistent, der direkt in Ihrer Codebasis arbeitet, um Entwickler bei der Analyse, Bearbeitung und Ausführung von Code zu unterstützen.Serena wird über das Language Server Protocol (LSP) implementiert...

EasyControl:将人像转为吉卜力风格图像的免费工具-首席AI分享圈

EasyControl: ein kostenloses Tool, das Porträts in Bilder im Ghibli-Stil verwandelt

Allgemeine Einführung EasyControl ist ein Open-Source-Projekt, das eine effiziente und flexible Steuerung der Bilderzeugung auf Basis der Diffusionstransformator (DiT)-Architektur bietet. Unter ihnen ist Ghibli Control LoRA eines seiner besonderen Merkmale, indem es nur 100 asiatische Gesichter und deren GPT-4o generierte Bilder im Ghibli-Stil verwendet...

YOLOE:实时视频检测和分割物体的开源工具-首席AI分享圈

YOLOE: ein Open-Source-Tool für Videoerkennung und Objektsegmentierung in Echtzeit

YOLOE ist ein Open-Source-Projekt, das von der Multimedia Intelligence Group (THU-MIG) der Tsinghua University School of Software entwickelt wurde und den vollständigen Namen "You Only Look Once Eye" trägt. Es basiert auf dem PyTorch-Framework und ist eine Erweiterung der YOLO-Serie, die jedes Objekt in Echtzeit erkennen und segmentieren kann. Das Projekt wird auf GitHub gehostet, ...

集成多种先进语音合成服务的开源运营项目-首席AI分享圈

Operatives Open-Source-Projekt, das mehrere fortschrittliche Sprachsynthesedienste integriert

Allgemeine Einführung Open-VoiceCanvas ist eine Open-Source-Plattform für Sprachsynthese, die vom ItusiAI-Team entwickelt wurde. Sie unterstützt mehr als 50 Sprachen und kann Text in natürliche Sprache umwandeln sowie personalisierte Stimmen durch Hochladen von Audio klonen. Das Projekt integriert OpenAI TTS, AWS Polly und MiniMax drei...

VideoMind:视频按时间戳定位内容与问答的开源项目-首席AI分享圈

VideoMind: Video nach Zeitstempel Positionierung Inhalt und Q&A Open-Source-Projekt

Allgemeine Einführung VideoMind ist ein quelloffenes multimodales KI-Tool, das sich auf Inferenz, Fragen und Zusammenfassungen für lange Videos konzentriert. Es wurde von Ye Liu von der Hong Kong Polytechnic University und einem Team des Show Lab an der National University of Singapore entwickelt. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgaben in Planung,...

Emigo:在Emacs中使用AI完成复杂编程任务的助手-首席AI分享圈

Emigo: ein Assistent für komplexe Programmieraufgaben mit KI in Emacs

Allgemeine Einführung Emigo ist ein quelloffener KI-Programmierassistent für Emacs, der von MatthewZMD auf GitHub entwickelt wurde. Emigo ist ein Open-Source-KI-Programmierassistent für Emacs, der von MatthewZMD auf GitHub entwickelt wurde. Er hilft Programmierern bei der Code-Analyse, -Generierung, -Änderung und anderen Aufgaben in Emacs durch die Integration eines groß angelegten Sprachmodells (LLM).

SegAnyMo:从视频中自动分割任意运动物体的开源工具-首席AI分享圈

SegAnyMo: ein Open-Source-Tool zur automatischen Segmentierung beliebiger bewegter Objekte aus Videos

Allgemeine Einführung SegAnyMo ist ein Open-Source-Projekt, das von einem Team von Forschern der UC Berkeley und der Universität Peking entwickelt wurde, darunter Mitglieder wie Nan Huang. Dieses Tool konzentriert sich auf die Videoverarbeitung und kann automatisch beliebige bewegte Objekte in einem Video identifizieren und segmentieren, z. B. Menschen, Tiere oder Fahrzeuge. Es kombiniert TAP...

GenXD:生成任意3D和4D场景视频的开源框架-首席AI分享圈

GenXD: Open-Source-Framework zur Erzeugung von Videos beliebiger 3D- und 4D-Szenen

Allgemeine Einführung GenXD ist ein Open-Source-Projekt, das von der National University of Singapore (NUS) und dem Microsoft-Team entwickelt wurde. Es konzentriert sich auf die Generierung beliebiger 3D- und 4D-Szenen und löst das Problem der 3D- und 4D-Generierung in der realen Welt aufgrund unzureichender Daten und der Komplexität des Modelldesigns. Das Projekt analysiert Kamera- und Objektbewegungen,...

ChatAnyone:从照片生成半身数字人肖像视频的工具-首席AI分享圈

ChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus Fotos

Allgemeine Einführung ChatAnyone ist ein innovatives Projekt, das vom HumanAIGC-Team entwickelt wurde. Es nutzt Techniken der künstlichen Intelligenz, um digitale menschliche Porträtvideos mit Oberkörperbewegungen aus einem einzigen Foto und einer Audioeingabe zu erzeugen. Das Projekt basiert auf einem hierarchischen Bewegungsdiffusionsmodell, das Kopfbewegungen, Gesten und Mimik für...

Search-R1:强化学习训练大模型搜索与推理的工具-首席AI分享圈

Search-R1: Verstärkungslernen zum Trainieren großer Modelle für Suche und Schlussfolgerungen

Allgemeine Einführung Search-R1 ist ein Open-Source-Projekt, das von PeterGriffinJin auf GitHub entwickelt wurde und auf dem veRL-Framework aufbaut. Es verwendet Reinforcement Learning (RL)-Techniken, um große Sprachmodelle (LLMs) zu trainieren, so dass die Modelle selbstständig lernen können, Schlussfolgerungen zu ziehen und Suchmaschinen zur Lösung von Problemen aufzurufen. Das Projekt unterstützt Qwen2.5...

DeepGemini:多模型编排任务并封装为API接口-首席AI分享圈

DeepGemini: Multi-Modell-Orchestrierung von Aufgaben und Kapselung in einer API-Schnittstelle

Allgemeine Einführung DeepGemini ist ein Open-Source-Projekt, das vom Entwickler Thomas Sligter ins Leben gerufen wurde. Es ist ein KI-Management-Tool, das Multi-Modell-Orchestrierung unterstützt, das Hauptmerkmal ist die Fähigkeit, eine Vielzahl von KI-Modellen flexibel zu kombinieren, und durch die OpenAI-kompatible API-Schnittstelle aufgerufen. Das Projekt basiert auf Python 3.11 und ...

Optexity:用人类演示训练AI执行网页操作的开源项目-首席AI分享圈

Optexity: ein Open-Source-Projekt zum Trainieren von KI für die Durchführung von Webaktionen mit menschlichen Demonstrationen

Allgemeine Einführung Optexity ist ein Open-Source-Projekt auf GitHub, das vom Optexity-Team entwickelt wurde. Sein Kern ist es, menschliche Demonstrationsdaten zu verwenden, um KI zu trainieren, um Computeraufgaben zu erledigen, insbesondere Webseitenoperationen. Das Projekt enthält drei Code-Bibliotheken: ComputerGYM, AgentAI und Playwright, die ...

II-Researcher:深度搜索与分步推理解答复杂问题-首席AI分享圈

II-Researcher: Deep Search und Stepwise Reasoning zur Beantwortung komplexer Fragen

Allgemeine Einführung II-Researcher ist ein Open-Source-Forschungstool für künstliche Intelligenz, das vom Intelligent-Internet-Team entwickelt wurde und auf GitHub gehostet wird. Es wurde für die Tiefensuche und komplexe Schlussfolgerungen konzipiert und ist in der Lage, komplexe Fragen durch intelligente Websuchen und mehrstufige Analysen zu beantworten. Das Projekt wurde am 27. März 2025 gestartet...

Cua:让AI代理在macOS/Linux沙盒中安全执行应用-首席AI分享圈

Cua: KI-Agenten zur sicheren Ausführung von Anwendungen in macOS/Linux-Sandboxen befähigen

Allgemeine Einführung Cua ist ein Open-Source-Projekt namens Computer-Use Agent (ausgesprochen "koo-ah"), entwickelt für Apple Silicon Geräte zu erstellen und auszuführen High-Performance-macOS und Linux virtuelle Maschinen bei Geschwindigkeiten nahe 90% nativ. Es ist für Apple Silicon Geräte entwickelt, können erstellen und ausführen High-Performance-macOS und Linux virtuelle Maschinen, Geschwindigkeiten in der Nähe der nativen Gerät 90%. Cua verwendet Ap...

Paper to Podcast:把学术论文转换为多人对话播客-首席AI分享圈

Paper to Podcast: Umwandlung akademischer Papiere in Podcasts mit Konversation für mehrere Personen

Allgemeine Einführung Paper to Podcast ist ein Open-Source-Tool, das darauf spezialisiert ist, akademische Forschungsarbeiten in lebendige und unterhaltsame Podcasts zu verwandeln. Es macht komplexe akademische Inhalte leicht verständlich, indem es die Technologie der künstlichen Intelligenz nutzt, um ein PDF-formatiertes Papier in einen Dialog zwischen drei Personen zu verwandeln - dem Moderator, dem Lernenden und dem Experten. Dies ...

de_DEDeutsch