AI Open-Source-Projekt

Insgesamt 1020 Artikel
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: Ein hybrides Videogenerierungsmodell mit Unterstützung für den Betrieb auf einem niedrigen Grafikprozessor

Allgemeine Einführung HunyuanVideoGP ist ein von DeepBeepMeep entwickeltes Modell zur Generierung von Videos in großem Maßstab, das für Benutzer von Low-End-GPUs konzipiert ist. Das Modell ist eine verbesserte Version des ursprünglichen Hunyuan-Video-Modells, das den Speicher- und Grafikspeicherbedarf deutlich reduziert...
vor 6 Monaten
01.8K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Serverlose Bereitstellung einer multimodalen Gemini-Dialogseite

Allgemeine Einführung Gemini Playground ist ein Open-Source-Projekt entwickelt, um Benutzern zu helfen, schnell einen multimodalen Dialog Website bereitstellen. Das Projekt wird durch technische Crawling Garnelen entwickelt, unterstützen die Verwendung von Gemini API Key in 10 Sekunden, um den Einsatz zu vervollständigen. Ob der Benutzer ist ...
vor 6 Monaten
02.7K
wdoc:从海量、多源文档中检索内容并总结知识

wdoc: Abrufen von Inhalten und Zusammenfassen von Wissen aus umfangreichen Dokumenten aus mehreren Quellen

Umfassende Einführung wdoc ist ein leistungsfähiges RAG-System (Retrieval Augmentation Generation), das für die Verarbeitung und Analyse einer großen Anzahl unterschiedlicher Dokumente entwickelt wurde. Es ist in der Lage, eine Vielzahl von Dokumenttypen abzurufen, darunter PDFs, Webseiten, YouTube-Videos, Audiodateien usw. wdoc eignet sich besonders für die Verarbeitung...
vor 6 Monaten
02.2K
Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频

Magic 1-For-1: effizientes Open-Source-Projekt zur Erstellung von Videos, das behauptet, ein einminütiges Video in einer Minute zu erstellen

Umfassende Einführung Magic 1-For-1 ist ein effizientes Modell zur Videogenerierung, das die Speichernutzung optimiert und die Inferenzlatenz reduziert. Das Modell zerlegt die Aufgabe der Text-zu-Video-Generierung in zwei Teilaufgaben: Text-zu-Bild-Generierung und Bild-zu-Video-Generierung, was ein effizienteres Training und eine effizientere...
vor 6 Monaten
02.6K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: KI-Datenanalyse- und Visualisierungs-Client für die schnelle Erstellung von Diagrammen und Berichten

Allgemeine Einführung DataLine ist ein leistungsfähiges KI-Werkzeug zur Datenanalyse und -visualisierung, mit dem Benutzer durch einfache Operationen mit einer Vielzahl von Datenquellen interagieren können. Ob es sich um eine CSV-Datei oder eine gängige Datenbank wie Postgres, MySQL, Snowflake, SQL...
vor 6 Monaten
02.8K
FinRobot:提升金融数据分析效率和投资研究的的智能体

FinRobot: Ein intelligenter Körper zur Verbesserung der Effizienz von Finanzdatenanalyse und Investment Research

Umfassende Einführung FinRobot ist eine Open-Source-KI-Intelligenzplattform, die von der AI4Finance Foundation entwickelt wurde und für Finanzanalysen gedacht ist. Sie deckt nicht nur traditionelle Sprachmodelle ab, sondern beinhaltet auch eine Vielzahl von KI-Technologien, um eine umfassende Lösung für die Finanzindustrie zu bieten...
vor 6 Monaten
02.5K
Simba:收纳文档的知识管理系统,无缝集成到任何RAG系统

Simba: ein Wissensmanagementsystem für die Organisation von Dokumenten, das sich nahtlos in jedes RAG-System integrieren lässt.

Allgemeine Einführung Simba ist ein portables Wissensmanagementsystem (KMS), das sich nahtlos in jedes Retrieval Augmentation Generation (RAG)-System integrieren lässt. Das Projekt wurde vom GitHub-Benutzer GitHamza0206 erstellt und bietet eine effiziente Wissensmanagementlösung für eine Vielzahl von...
vor 6 Monaten
02.2K
LocalPdfChatRAG:支持本地多源PDF文档问答的智能聊天工具

LocalPdfChatRAG: Intelligentes Chat-Tool zur Unterstützung lokaler Fragen zu PDF-Dokumenten mit mehreren Quellen

Umfassende Einführung LocalPdfChatRAG ist ein Open-Source-Projekt, das darauf abzielt, intelligente Chat-Funktionen zu implementieren, indem lokale PDF-Dokumente mit Retrieval Augmented Generation (RAG)-Modellen kombiniert werden. Das Projekt ermöglicht es Nutzern, PDF-Dokumente hochzuladen und Fragen in natürlicher Sprache zu stellen, um vom Dokument zu den entsprechenden...
vor 6 Monaten
02.3K
Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

Goku: Erzeugt detaillierte und konsistente Videos, ideal für die Erstellung von Werbespots mit detaillierten Figuren und Objekten.

Umfassende Einführung Goku ist ein föderiertes Bild- und Videogenerierungsmodell, das auf Stromtransformationstechniken basiert und für eine Leistung auf Industrieniveau entwickelt wurde. Es integriert fortschrittliche, qualitativ hochwertige visuelle Generierungstechniken, einschließlich feinkörniger Datensammlung, Modelldesign und Stromtransformationsformulierung...
vor 6 Monaten
03.1K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: ein intelligenter KI-Desktop-Assistent, der auf Gemini aufbaut und sehen, hören und sprechen kann

Allgemeine Einführung Gemini Cursor ist ein intelligenter Desktop-Assistent, der auf Googles Gemini 2.0 Flash-Modell (experimentell) basiert. Er ermöglicht visuelle, auditive und sprachliche Interaktionen über eine multimodale API und bietet Echtzeit-Niedrig-Latenz-Nutzung...
vor 6 Monaten
03.9K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: ein KI-gesteuertes Tool zur Datenvisualisierung

Allgemeine Einführung Data Formulator ist ein von Microsoft Research entwickeltes Open-Source-Tool zur KI-gesteuerten Datenvisualisierung. Das Tool kombiniert eine grafische Benutzeroberfläche (GUI) und natürlichsprachliche Eingaben (NL), um Benutzern die schnelle Erstellung und Iteration durch einfache Interaktionen und Befehle zu ermöglichen...
vor 6 Monaten
02.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: eine quelloffene iOS-KI-App, die auf OLMoE-Modellen basiert und offline läuft

Allgemeine Einführung Ai2 OLMoE ist eine Open-Source-App für iOS, die vom Allen Institute for AI (Ai2, Allen Institute for Artificial Intelligence) entwickelt wurde, um KI-Modelle bereitzustellen, die vollständig auf Geräten laufen. Die App nutzt die Open-Source-OLMoE von Ai2...
vor 6 Monaten
03.4K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily: ein KI-Assistent zur Erstellung von Sitzungsprotokollen, Transkription und Erstellung von Sitzungszusammenfassungen in Echtzeit

Allgemeine Beschreibung Meetily ist ein von Zackriya Solutions entwickelter KI-gestützter Meeting-Assistent, der Audioaufnahmen von Meetings in Echtzeit erfasst, Sprachtranskriptionen durchführt und Zusammenfassungen von Meetings erstellt. Einzigartig ist, dass die gesamte Verarbeitung lokal auf dem Gerät erfolgt, wodurch die Privatsphäre des Nutzers...
vor 6 Monaten
03K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT Box: Browser Plugin, damit ChatGPT auf anderen Webseiten funktioniert

Allgemeine Einführung ChatGPT Box ist eine Open-Source-Browser-Erweiterung, die entwickelt wurde, um ChatGPT tief in den Browser eines Benutzers zu integrieren. Entwickelt von josStorer, unterstützt das Tool mehrere Sprachen und bietet eine Vielzahl von Funktionen wie das Aufrufen von Chat-Paaren auf jeder Seite...
vor 4 Monaten
02.5K
小半 WordPress AI 助手:实现对话、文章生成与翻译的 WordPress AI助手插件

Little Half WordPress AI Assistant: Ein WordPress AI Assistant Plugin für Dialoge, Beitragserstellung und Übersetzung

Umfassende Einführung WordPress AI Assistant Plugin (wp-ai-chat) ist ein Open-Source-WordPress-Plugin, das entwickelt wurde, um Benutzern eine Vielzahl von AI-Funktionen zur Verfügung zu stellen, einschließlich AI-Dialog, Artikelgenerierung, Artikelzusammenfassung, Artikelübersetzung und Lesen von Inhalten. Das Plugin unterstützt das Andocken mehrerer ...
vor 6 Monaten
02.6K
Solana Agent Kit:连接AI智能体与Solana协议的开源工具包

Solana Agent Kit: ein Open-Source-Toolkit zur Anbindung von KI-Intelligenzen an das Solana-Protokoll

Allgemeine Einführung Solana Agent Kit ist ein Open-Source-Toolkit, das entwickelt wurde, um KI-Intelligenzen nahtlos mit dem Solana-Blockchain-Protokoll zu verbinden. Das Kit ermöglicht es sowohl KI-Forschern als auch Entwicklern von Kryptowährungen, beliebige modelltrainierte intelligente Körper zu verwenden, um...
vor 6 Monaten
02.4K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora: Extraktion von Hörbuchuntertiteln und mehrsprachige Übersetzung, Transkription von Hörbüchern in mehrere Sprachen

Umfassende Einführung LiberSonora, was so viel wie "freier Klang" bedeutet, ist ein leistungsstarkes KI-gestütztes Open-Source-Hörbuch-Toolset. Es unterstützt intelligente Untertitel-Extraktion, KI-Titel-Generierung, mehrsprachige Übersetzung usw. und ist in der Lage, Batch-Offline-Verarbeitung unter GPU-Beschleunigung...
vor 6 Monaten
02.4K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: KI-gestütztes Aktienanalyse-Tool, Echtzeit-Überwachung von selbst ausgewählten Aktienkursen und eingehende Analyse auf der Grundlage von KI

Umfassende Einführung go-stock ist ein KI-gestütztes Aktienanalyse-Tool, das auf Wails und NaiveUI basiert. Das Tool ist in der Lage, Aktienkurse in Echtzeit zu überwachen und bietet eine Kosten- und Gewinn/Verlust-Anzeige sowie eine Up/Down-Alarm-Push-Funktion. Alle Daten werden lokal gespeichert, um sicherzustellen, dass die Benutzer...
vor 6 Monaten
02.8K
KTransformers:大模型推理性能引擎:极致加速,灵活赋能

KTransformers: Leistungsstarke Engine für die Inferenz großer Modelle: Extreme Beschleunigung, flexible Befähigung

KTransformers: Ein hochleistungsfähiges Python-Framework zur Überwindung des Engpasses bei der Inferenz großer Modelle. Es ist mehr als nur ein einfaches Werkzeug zur Modellausführung, es ist eine Reihe von extrem leistungsfähigen Optimierungsmotoren und eine flexible Plattform zur Schnittstellenerweiterung. KTransf...
vor 6 Monaten
03K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: Ein RAG-Rahmenwerk für das Verstehen ultralanger Videos mit Unterstützung für multimodales Retrieval und Wissensgraphenkonstruktion

Umfassende Einführung VideoRAG ist ein Retrieval-verbessertes generatives Framework für die Verarbeitung und das Verständnis von sehr langen kontextuellen Videos. Das Tool kombiniert eine graphengesteuerte textuelle Wissensbasis mit hierarchischer multimodaler Kontextkodierung zur effizienten Verarbeitung auf einer einzigen NVIDIA RTX 3090 GPU...
vor 6 Monaten
03K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructor: eine Python-Bibliothek zur Vereinfachung strukturierter Arbeitsabläufe für große Sprachmodelle

Allgemeine Einführung Instructor ist eine beliebte Python-Bibliothek, die für die Verarbeitung strukturierter Ausgaben von Large Language Models (LLMs) entwickelt wurde. Sie basiert auf Pydantic und bietet eine einfache, transparente und benutzerfreundliche API für die Verwaltung von Daten...
vor 6 Monaten
02.4K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: Eine intelligente Einrichtung für die Analyse von Thorax-Röntgenbildern unter Verwendung multimodaler Makromodelle

Umfassende Einführung MedRAX ist eine hochmoderne KI-Intelligenz, die für die Analyse von Thorax-Röntgenbildern (CXR) entwickelt wurde. Es integriert modernste CXR-Analysetools und multimodale große Sprachmodelle, um komplexe medizinische Anfragen ohne zusätzliches Training dynamisch zu verarbeiten.
vor 5 Monaten
02.7K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: Open-Source-großes Modell Instant-Messaging-Roboter, Unterstützung für mehrere WeChat, QQ, Flybook und andere Multi-Plattform-Einsatz von AI-Roboter

LangBot ist eine große modellbasierte Instant-Messaging-Bot-Plattform, die mehrere Messaging-Plattformen und große Modelle unterstützt. Die Plattform passt sich an QQ, WeChat (WeChat für Unternehmen, WeChat für Privatpersonen), Flybook, Discord, OneBot und andere Messaging-Plattformen an und unterstützt Open...
vor 6 Monaten
02.9K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: eine generische semantische Chunking-Strategie basierend auf Llama-70B

Umfassende Einführung zChunk ist eine neuartige Chunking-Strategie, die von ZeroEntropy entwickelt wurde und eine Lösung für generisches semantisches Chunking bieten soll. Die Strategie basiert auf dem Llama-70B-Modell, das den Chunking-Prozess von Dokumenten optimiert, indem es die Generierung von Chunks anregt und so sicherstellt, dass die Informationsabfrage auf hohem Niveau...
vor 6 Monaten
02.3K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrt

Allgemeine Einführung Hibiki ist ein von Kyutai Labs entwickeltes Echtzeit-Sprachübersetzungsmodell mit hoher Wiedergabetreue. Im Gegensatz zu herkömmlichen Offline-Übersetzern ist Hibiki in der Lage, natürliche Sprachübersetzungen in der Zielsprache in Echtzeit zu generieren, während der Benutzer spricht, und auch Textübersetzungen zu liefern. Das Modell...
vor 6 Monaten
03.2K
Qwen4Mac:在Mac菜单栏中使用千问(Qwen)大模型随时对话

Qwen4Mac: Verwenden Sie Qwens große Modelle in der Mac-Menüleiste für Unterhaltungen zu jeder Zeit!

Allgemeine Einführung Qwen4Mac ist ein Open-Source-Projekt, das entwickelt wurde, um das Qwen Large Language Model (LLM) in die Menüleiste des Macs zu integrieren, so dass es von den Benutzern jederzeit einfach aufgerufen und verwendet werden kann. Das Projekt wird von andreaturchet entwickelt und gepflegt und bietet eine einfache Möglichkeit für...
vor 6 Monaten
02.1K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI: ein Offline-KI-Assistent, der in Ihrem Telefon läuft, angepasst für DeepSeek-R1 (5.37GB)

Allgemeine Einführung Pocket AI (chinesische Version von PocketPal AI) ist ein leistungsfähiger Offline-KI-Assistent, der es Benutzern ermöglicht, jederzeit und überall mit KI zu sprechen. Er basiert auf Small Language Models (SLMs) und läuft auf Mobiltelefonen ohne Internetverbindung, speziell angepasst an die chinesische Benutzererfahrung. Mundwerk...
vor 6 Monaten
03.1K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: KI-Assistent für die Verwaltung persönlicher Gesundheitsdaten, Hochladen von Untersuchungsberichten für maßgeschneiderte Gesundheitspläne

Allgemeine Einführung OpenHealthForAll ist ein Open-Source-Projekt, das den Nutzern helfen soll, ihre persönlichen Gesundheitsdaten zu verwalten und zu verstehen. Durch den Einsatz von Technologien der künstlichen Intelligenz bietet OpenHealthForAll einen lokal betriebenen Gesundheitsassistenten, der den Nutzern hilft, ihre...
vor 6 Monaten
02K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: quelloffenes LLM-Schwachstellen-Scan-Tool, das umfassende Fuzz-Tests und Angriffstechniken bietet

Allgemeine Einführung Agentic Security ist ein quelloffenes LLM (Large Language Model) Schwachstellen-Scan-Tool, das Entwicklern und Sicherheitsexperten umfassende Fuzz-Tests und Angriffstechniken bietet. Das Tool unterstützt benutzerdefinierte Regelsätze oder agentenbasierte Angriffe, ist in der Lage LLM AP zu integrieren...
vor 6 Monaten
02.7K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: ein quelloffenes multimodales Modell zur Unterstützung des Videoverstehens und mehrerer Dialogrunden

Umfassende Einführung CogVLM2 ist ein quelloffenes multimodales Modell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde. Es basiert auf der Llama3-8B-Architektur und zielt darauf ab, eine vergleichbare oder sogar bessere Leistung als GPT-4V zu bieten. Das Modell unterstützt Bildverständnis, Mehrrunden-Dialog und visuelle...
vor 6 Monaten
02.4K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: Leistungsstarke und einfach zu bedienende Software für das Facelifting und die Bearbeitung von Fotos und Videos

Allgemeine Einführung VisoMaster ist ein leistungsfähiges und einfach zu bedienendes Video-Gesichtstausch- und Bearbeitungswerkzeug, das künstliche Intelligenztechnologie verwendet, um natürliche und realistische Gesichtstauscheffekte zu erzielen. Egal, ob es sich um ein Bild oder ein Video handelt, VisoMaster kann mit einfachen Operationen hochwertige Face-Swap-Ergebnisse erzeugen, die...
vor 6 Monaten
04K
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro: ein Tool zur Vereinfachung des Prozesses der Feinabstimmung von Modellen der gängigen visuellen Open-Source-Sprachen

Umfassende Einführung Maestro ist ein von Roboflow entwickeltes Tool, das den Prozess der Feinabstimmung multimodaler Modelle vereinfacht und beschleunigt, so dass jeder seine eigenen visuellen Makromodelle trainieren kann. Es bietet fertige Rezepte für die Feinabstimmung beliebter visueller Sprachmodelle (VLMs) wie F...
vor 6 Monaten
02.5K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

Bilingual Book Maker: Nutzen Sie die KI-Übersetzung, um zweisprachige E-Books zu erstellen, ein automatisches Übersetzungswerkzeug für Bücher

Allgemeine Einführung Bilingual Book Maker ist ein Open-Source-Projekt, das Benutzern helfen soll, mehrsprachige Versionen von eBooks mithilfe von KI-Technologie zu erstellen. Das Tool verwendet hauptsächlich ChatGPT für die Übersetzung und unterstützt mehrere Dateiformate wie epub, txt und srt...
vor 6 Monaten
02.7K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: Stapelweise Extraktion von strukturierten Informationen aus Dokumenten und automatisierte Analyse

Allgemeine Einführung Rowfill ist eine Open-Source-Plattform zur Dokumentenverarbeitung, die für Wissensarbeiter entwickelt wurde. Sie nutzt fortschrittliche Techniken der künstlichen Intelligenz, um Daten aus komplexen Dokumenten, Bildern und PDFs zu extrahieren, zu analysieren und zu verarbeiten. Rowfill unterstützt Native Large Language Model (LLM) und Ope...
vor 6 Monaten
02.3K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPT Researcher: Erstellung umfassender, detaillierter Forschungsberichte mit lokalen und webbasierten Daten

Umfassende Einführung GPT Researcher ist ein autonomes Agententool, das auf dem Large Language Model (LLM) basiert und für die Durchführung von lokalen und Web-Recherchen sowie die Erstellung detaillierter Forschungsberichte entwickelt wurde. Das Tool bietet eine stabile Leistung und höhere Geschwindigkeit, indem es die Arbeit der Agenten parallelisiert und sicherstellt, dass die Informationen genau sind...
vor 4 Monaten
02.1K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker: Intelligentes Dialogsystem für digitale Menschen, das große Sprachmodelle und visuelle Modelle für neue interaktive Erlebnisse kombiniert

Allgemeine Einführung Linly-Talker ist ein innovatives digitales Dialogsystem, das Large Language Models (LLMs) mit visuellen Modellen kombiniert, um einen neuartigen Ansatz für die Interaktion zwischen Mensch und Computer zu schaffen. Das System integriert eine Vielzahl von Technologien wie Whisper, Linly, Micros...
vor 6 Monaten
02.6K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: Einfache Integration mehrerer KI-Modelle und Erstellung multimodaler Anwendungen auf der Basis von Gradio

Allgemeine Einführung ai-gradio ist ein Open-Source-Python-Toolkit, das Entwicklern helfen soll, mehrere KI-Modelle einfach zu integrieren und zu nutzen. Das Projekt baut auf Gradio auf und bietet eine einheitliche Schnittstelle zur Unterstützung mehrerer KI-Modelle und -Dienste. Egal, ob es sich um Text, Sprache oder Video...
vor 6 Monaten
02.9K
ColiVara:基于视觉嵌入的文档存储与检索服务

ColiVara: Auf visueller Einbettung basierender Dokumentenspeicher- und Retrievaldienst

Allgemeine Einführung ColiVara ist ein Dokumentenspeicher- und -abrufdienst, der auf der Technologie der visuellen Einbettung basiert. Es macht eine optische Zeichenerkennung (OCR) oder Textextraktion überflüssig und vermeidet das Problem zerbrochener Formulare oder verlorener Bilder. ColiVara unterstützt mehr als 100 Dateiformate, einschließlich PDF...
vor 6 Monaten
02.4K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: eine Open-Source-Vorlage für den schnellen Aufbau einer lokalen KI-Umgebung

Umfassende Einführung Das n8n Self-Hosted AI Starter Kit ist eine Open-Source-Docker-Compose-Vorlage, die für die schnelle Initialisierung einer umfassenden lokalen KI- und Low-Code-Entwicklungsumgebung entwickelt wurde. Die vom n8n-Team entwickelte Suite kombiniert die selbst gehostete n8n-Plattform mit einer Reihe kompatibler KI-Anwendungen...
vor 6 Monaten
03.2K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: Unüberwachte Live-Aufnahme und Auto-Slicing, Upload-Tool für B-Station

Umfassende Einführung bilive ist ein Tool, das für die Live-Aufnahme von B-Sendern entwickelt wurde und extrem schnelle Live-Aufnahme, Auto-Slicing, Pop-up-Rendering und Untertitelgenerierung bietet. Das Tool ist kompatibel mit extrem niedrig konfigurierten Rechnern, unterstützt 7x24 Stunden unbeaufsichtigte Aufnahme, identifiziert und rendert automatisch Pop-ups und Untertitel,...
vor 6 Monaten
02.6K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Kostengünstiges Verstärkungslernen für die Generalisierungsfähigkeit von visuellen Sprachmodellen

Umfassende Einführung R1-V ist ein Open-Source-Projekt, das darauf abzielt, einen Durchbruch in der visuellen Sprachmodellierung (VLM) durch kostengünstiges Reinforcement Learning (RL) zu erzielen. Das Projekt nutzt überprüfbare Belohnungsmechanismen, um VLMs zu motivieren, allgemeine Zählfähigkeiten zu erlernen. Erstaunlich ist, dass R1-V's 2B ...
vor 6 Monaten
02.8K
DSPy Examples:展示DSPy功能的实用示例

DSPy-Beispiele: Praktische Beispiele zur Demonstration der DSPy-Funktionalität

Allgemeine Einführung Die DSPy Example Codebase ist eine GitHub Codebase, die vom Langtrace AI Team gepflegt wird und eine Vielzahl von Beispielen für AI-Programme zeigt, die mit DSPy erstellt wurden. Die Codebase wurde entwickelt, um die vielen Funktionen von DSPy anhand von realen Beispielen zu demonstrieren, um Entwicklern ein besseres Verständnis...
vor 6 Monaten
02.8K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab: ein experimentelles Dialogwerkzeug zur Erforschung des iterativen Denkens über die Mensch-Computer-Zusammenarbeit

CoT-Lab ist eine experimentelle Schnittstelle zur Erforschung neuer Paradigmen in der Zusammenarbeit zwischen Mensch und Computer. Basierend auf der Theorie der kognitiven Belastung und den Prinzipien des aktiven Lernens erleichtert CoT-Lab eine tiefgreifende kognitive Abstimmung zwischen Menschen und Künstlicher Intelligenz (KI) durch die Schaffung von Beziehungen zwischen "Denkpartnern". Das Projekt zielt darauf ab...
vor 6 Monaten
02.1K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: Eine einheitliche API für die Integration von bekannter Spracherzeugung, Sprachtranskription und Sprachmodellierung

Allgemeine Einführung Orate ist ein KI-Toolkit, das sich auf Spracherzeugung und Transkription konzentriert. Es bietet eine einheitliche API, die sich nahtlos mit führenden KI-Anbietern wie OpenAI, ElevenLabs und AssemblyAI integrieren lässt, um Nutzern zu helfen,...
vor 6 Monaten
02.7K
Reflex LLM Examples:展示大语言模型实际应用的AI应用集合

Reflex LLM Examples: eine Sammlung von KI-Anwendungen, die praktische Anwendungen von großen Sprachmodellen demonstrieren

Allgemeine Einführung Reflex LLM Examples ist ein Open-Source-Projekt, das vom Reflex-Entwicklungsteam ins Leben gerufen wurde, um praktische Anwendungen des Large Language Model (LLM) zu demonstrieren. Das Projekt bringt mehrere KI-Anwendungen zusammen, die auf Reflex aufbauen, und zeigt Anwendungen von Googl...
vor 6 Monaten
02.1K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: Schnelle API-Generierung und -Bereitstellung durch natürliche Sprache

Allgemeine Einführung LLM API Engine ist ein Open-Source-Projekt, das Entwicklern helfen soll, schnell KI-gestützte APIs zu erstellen und einzusetzen. Das Projekt nutzt das Large Language Model (LLM) und intelligente Web-Crawling-Technologie, um Benutzern die Erstellung von benutzerdefinierten APIs durch Beschreibungen in natürlicher Sprache zu...
vor 6 Monaten
02.2K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: Kleineres und schnelleres mehrsprachiges Speech-to-Text-Tool als Whisper-Large v3

Umfassende Einführung PengChengStarling (PengCheng Labs) ist ein mehrsprachiges Tool zur automatischen Spracherkennung (ASR), das Sprache in verschiedenen Sprachen in entsprechenden Text umwandeln kann. Dieses Toolkit wurde auf der Grundlage des icefall-Projekts entwickelt und bietet einen vollständigen Spracherkennungsprozess...
vor 6 Monaten
02.2K
Doc2XAPITranslate:文档全文翻译:快速将英文PDF/MD论文翻译为中文文档

Doc2XAPITranslate: Volltextübersetzung von Dokumenten: englische PDF/MD-Dokumente schnell in chinesische Dokumente übersetzen.

Umfassende Einführung Doc2XAPITranslate ist ein leistungsstarkes Volltext-Übersetzungstool, das für die schnelle Übersetzung von englischen PDF- oder Markdown-Dokumenten in chinesische Dokumente entwickelt wurde. Das Tool unterstützt eine Vielzahl von Übersetzern, darunter DeepSeek, OpenAI, O...
vor 6 Monaten
02.6K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion

SpeechGPT 2.0-Preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf der Grundlage von Millionen von Stunden an Sprachdaten trainiert wurde. Das System ist mit einem anthropomorphen Sprachausdruck und einer niedrigen Latenzzeit von 100 ms ausgestattet, was eine natürliche und...
vor 6 Monaten
02.8K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: quelloffene, skalierbare Programmierintelligenz, die Programmieraufgaben für den gesamten Prozess automatisiert

Allgemeine Einführung Goose ist ein von Block, Inc. entwickeltes Open-Source-KI-Agententool, das Entwicklern helfen soll, alltägliche Entwicklungsaufgaben zu automatisieren. Es unterstützt eine breite Palette von Large Language Models (LLMs) und interagiert mit dem Benutzer über die Kommandozeile oder Desktop-Anwendungsschnittstellen...
vor 6 Monaten
03.8K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: Open Source Cursor für Front-End-Design, Entwurf und Veröffentlichung von Code in React-Anwendungen

Allgemeine Einführung Onlook ist ein Open-Source-Design-Tool für Designer und Entwickler, mit dem Benutzer direkt in einer laufenden React-Anwendung entwerfen und Designänderungen in Code umwandeln können. Das Tool bietet ein intuitives visuelles Bearbeitungserlebnis ähnlich wie Figma oder Webf...
vor 6 Monaten
02.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: Wandelt Liedtexte in ein Basismodell eines kompletten Songs um und unterstützt eine breite Palette von Musikstilen

Allgemeine Einführung YuE ist ein Open-Source-Basismodell für die Generierung kompletter Songs, das sich auf die Umwandlung von Liedtexten in komplette Songs konzentriert. Im Gegensatz zu anderen Modellen, die nur kurze Schnipsel von nicht gesungener Musik generieren, ist YuE in der Lage, komplette Songs mit Lead- und Backing Vocals von bis zu mehreren Minuten Länge zu generieren. Das Modell befasst sich mit der Musikgenerierung in...
vor 6 Monaten
03.1K
Supermemory:导入书签和网页内容构建个人知识库

Supermemory: Importieren von Lesezeichen und Webinhalten zum Aufbau einer persönlichen Wissensdatenbank

Allgemeine Einführung Supermemory ist ein Open-Source-Projekt, das Benutzern helfen soll, ihr "zweites Gehirn" aufzubauen. Mit einer leistungsstarken Chrome-Erweiterung und KI-Technologie ermöglicht es den Nutzern, Daten von Webseiten, Twitter-Lesezeichen und Co. einfach zu speichern, zu organisieren und abzurufen.
vor 6 Monaten
02.9K
Open NotebookLM:将PDF转换为播客的开源工具

Open NotebookLM: PDF in Podcasts von Open-Source-Tools konvertieren

Allgemeine Einführung Open NotebookLM ist ein Open-Source-Projekt, das entwickelt wurde, um jedes PDF-Dokument in einen Podcast zu konvertieren. Das Tool verwendet quelloffene Large Language Model (LLM)- und Text-to-Speech (TTS)-Modelle zur Verarbeitung von PDF-Inhalten, um natürliche Dialoge zu erzeugen, die für Audio-Podcasts geeignet sind...
vor 6 Monaten
02.7K
Langui:开源的AI用户界面组件库

Langui: eine quelloffene Bibliothek von KI-Benutzerschnittstellen-Komponenten

Allgemeine Einführung Langui von LangbaseInc ist eine Open-Source-Bibliothek für Benutzeroberflächenkomponenten, die für generative KI und Large Language Modelling (LLM)-Projekte entwickelt wurde. Die Bibliothek basiert auf Tailwind CSS und bietet eine Sammlung von vorgefertigten UI-Komponenten, die Entwicklern helfen, schnell...
vor 7 Monaten
02.3K
MNN-LLM-Android:MNN 多模态语言模型的安卓应用

MNN-LLM-Android: MNN Multimodale Sprachmodellierung für Android

Umfassende Einführung MNN (Mobile Neural Network) ist ein effizientes, leichtgewichtiges Deep-Learning-Framework, das von Alibaba entwickelt und für mobile Geräte optimiert wurde. MNN ist nicht nur in der Lage, schnelle Inferenzen auf mobilen Geräten durchzuführen, sondern unterstützt auch multimodale Aufgaben, einschließlich...
vor 6 Monaten
03.3K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator: ein Tool zur Umwandlung von Webinhalten in RSS-Feeds mittels AI

Allgemeine Einführung AI RSS ist ein innovatives Tool, das Webinhalte mithilfe von KI-Technologie in RSS-Feeds umwandelt. Es besteht aus zwei Hauptteilen: einem Browser-Plugin und einer Server-Seite. Das Browser-Plugin ermöglicht es Benutzern, Listen von Webseiten auszuwählen und strukturierte Datenbeschreibungsdateien (SDD) zu erzeugen...
vor 7 Monaten
02.5K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: Eine RAG-Systemlösung aus einer Hand zur Vereinfachung der Datenerstellung und Modellfeinabstimmung

Umfassende Einführung UltraRAG ist eine RAG-Systemlösung (Retrieval Augmented Generation), die gemeinsam von der THUNLP-Gruppe an der Tsinghua University, der NEUIR-Gruppe an der Northeastern University, Modelbest.Inc und dem 9#AISoft-Team vorgeschlagen wurde. Der Rahmen basiert auf agilem Einsatz und modularem Aufbau...
vor 7 Monaten
02.1K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: ein quelloffenes Text-zu-Sprache-Modell für hochwertige Spracherzeugung und Klonen

Allgemeine Einführung Llasa-3B ist ein Open-Source-Text-to-Speech-Modell (TTS), das vom Audio Lab der Hong Kong University of Science and Technology (HKUST Audio) entwickelt wurde. Das Modell basiert auf der Llama-3.2B-Architektur, die sorgfältig abgestimmt wurde, um eine qualitativ hochwertige Spracherzeugung zu bieten, die nicht nur mehrere...
vor 6 Monaten
03.1K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

Fast GraphRAG: Ein hochpräzises und kostengünstiges Werkzeug zur Erzeugung grafischer Sucherweiterungen

Umfassende Einführung Fast GraphRAG ist ein Open-Source-Tool, das von Circlemind AI entwickelt wurde, um eine effiziente und genaue Retrieval Augmentation Generation (RAG) durch Knowledge Graph- und PageRank-Algorithmen zu ermöglichen. Das Tool passt sich auf intelligente Weise an die Nutzung durch den Benutzer an...
vor 7 Monaten
02.4K