AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1
Insgesamt 910 Artikel

Tags: KI Open-Source-Projekte Seite 44

Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包-首席AI分享圈

Clone Voice: Mehrsprachiges, samplefreies Tool zum Klonen von Stimmen basierend auf xtts_v2 für Windows.

Allgemeine Beschreibung Clone Voice ist ein Open-Source-Tool zum Klonen von Klängen, das eine webbasierte Schnittstelle bietet, mit der Benutzer Stimmen klonen können, indem sie beliebige Klänge oder persönliche Sprachaufnahmen verwenden. Das Tool ist einfach zu bedienen und kann lokal mit einer vorkompilierten Anwendung auch ohne NVIDIA GPU ausgeführt werden. Es unterstützt...

StreamingT2V:从文本到长视频的动态且可扩展的生成技术-首席AI分享圈

StreamingT2V: Dynamische und skalierbare Generierung von Text zu langen Videos

Allgemeine Einführung StreamingT2V ist ein öffentliches Projekt, das vom Picsart AI-Forschungsteam entwickelt wurde und sich auf die Erzeugung kohärenter, dynamischer und skalierbarer langer Videos auf der Grundlage von Textbeschreibungen konzentriert. Diese Technologie verwendet einen fortschrittlichen autoregressiven Ansatz, der die zeitliche Konsistenz des Videos garantiert, eng mit dem Beschreibungstext übereinstimmt und eine hohe Bildqualität beibehält...

Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器-首席AI分享圈

Text2Video-Zero: Text-zu-Video-Nullbeispiel-Generator vom Picsart AI Research Team veröffentlicht

Allgemeine Einführung Text2Video-Zero ist eine offizielle Implementierung eines Text-zu-Video-Generators für GitHub, der vom Picsart AI Research Team entwickelt wurde. Das Projekt bietet eine neue Möglichkeit, Text-Cues zu verwenden, um Videos mit zeitlicher Konsistenz und korrekt verfolgten Text-Cues zu erzeugen. Das Team hat auch eine...

Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声-首席AI分享圈

Retrieval-basierte Sprachumwandlung WebUI: Ein Rahmenwerk für Retrieval-basierte Sprachumwandlung | Simulation realer Gesangsstimmen

Comprehensive Introduction Retrieval based Voice Conversion WebUI ist ein einfaches und leicht zu bedienendes VITS-basiertes Sprachkonvertierungs-Framework, das die Sprachkonvertierung zwischen beliebigen Sprechern ermöglicht, einschließlich Song-Covers und Sprachwechsel in Echtzeit. Es zeichnet sich durch eine geringe Latenzzeit, einen ausgezeichneten Stimmänderungseffekt, eine geringe Datenmenge und...

VoiceCraft:开源零样本语音克隆与文本转语音工具-首席AI分享圈

VoiceCraft: Open-Source-Null-Sample-Sprachklonierung und Text-to-Speech-Tool

Umfassende Einführung VoiceCraft ist ein Open-Source-Sprachbearbeitungs- und Null-Sample-Sprachsynthesewerkzeug, das auf dem Neural Codec-Sprachmodell basiert. Es verwendet eine innovative Methode zur Erzeugung kodierter Sequenzen, die das Einfügen, Löschen und Ersetzen bestehender Sprachsequenzen ermöglicht, um natürliche und kohärente bearbeitete Sprache zu erzeugen. Gleichzeitig ...

CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式-首席AI分享圈

CoAI.Dev (Chat Nio): B/C-Lösung aus einer Hand für KI-Aggregationsanwendungen mit flexibler Abrechnung und Unterstützung von Abonnementmodellen

Allgemeine Einführung CoAI.Dev (ehemals Chat Nio) ist eine Chat-Plattform, die mehrere KI-Modelle integriert und verteiltes Streaming, Bilderzeugung, geräteübergreifende Gesprächssynchronisation und -teilung unterstützt. Sie implementiert ein Abonnement- und Token-Abrechnungssystem, einen Schlüsseltransitservice und Unterstützung für mehrere Modelle und umfasst auch eine verbundene Suche und KI...

ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI-首席AI分享圈

ChatOllama: Lokale Echtzeit-Chat-Anwendung UI basierend auf Nuxt 3 und Ollama

Umfassende Einführung ChatOllama ist ein quelloffenes Online-Chat-Anwendungsprojekt, das auf einem groß angelegten Sprachmodell (LLM) basiert, das zahlreiche Sprachmodelle und Wissensbasisverwaltung unterstützt. Benutzer können die Plattform für die Modellverwaltung (Listenanzeige, Download, Löschen), den Chat mit Modellen und andere Funktionen nutzen. Das Projekt verwendet das Nuxt 3 Framework ...

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Umfassende Einführung MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team am Shanghai Artificial Intelligence Lab entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es kann multimodale PDF-Dokumente, die Bilder, Formeln, Tabellen und andere Elemente enthalten, in einfach zu analysierende M...

Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)-首席AI分享圈

Diffusers Image Outpaint: superstarkes Open-Source-KI-Bilderweiterungstool, Bildübermalung (Image Outpainting)

Allgemeine Einführung Diffusers Image Outpaint ist ein leistungsstarkes AI-Bilderweiterungstool, das von Hugging Face-Community-Mitglied fffiloni entwickelt wurde. Das Tool verwendet fortschrittliche Diffusionsmodellierungstechniken, um ein Bild nahtlos zu erweitern (die Ränder des Bildes zu übermalen), um ein hochwertiges Bild zu erzeugen...

Tap4 AI WebUI:开源轻量级AI工具导航项目-首席AI分享圈

Tap4 AI WebUI: Open-Source-Projekt für leichtgewichtige KI-Werkzeuge

Umfassende Einführung Tap4 AI WebUI ist ein Open-Source-leichte AI-Tool Navigation Website-Projekt , entworfen, um Benutzer leicht ihre eigenen AI-Tool-Katalog zu bauen. Das Projekt verwendet Next.js und Supabase Technologie-Stack, Unterstützung für mehrsprachige SEO-Optimierung, um AI-Tools Klassifizierung Filterung, Suche und detaillierte Anzeige-Funktionen ...

CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版-首席AI分享圈

CodeFormer: Bild- und Video-Gesichtsrestaurierung, Wiederherstellung alter Fotos, bietet eine Ein-Klick-Bereitstellungsversion

CodeFormer Allgemeine Einführung CodeFormer ist eine Codebasis für die robuste blinde Gesichtsreparatur, die von einem Forscherteam am S-Lab der Nanyang Technological University entwickelt und auf der NeurIPS 2022 vorgestellt wurde. Das Projekt nutzt die Codebook Lookup Transformer-Technologie, die darauf abzielt, die...

GFPGAN:腾讯开源的人脸修复算法-首席AI分享圈

GFPGAN: Tencents Open-Source-Algorithmus zur Gesichtsreparatur

Umfassende Einführung GFPGAN (Generative Facial Prior GAN) ist ein Open-Source-Algorithmus zur Gesichtsreparatur, der von Tencent ARC (Applied Research Center) entwickelt wurde. Der Algorithmus nutzt reichhaltige und vielfältige Prior-Faktoren, die in vortrainierten Gesichts-GANs (z.B. StyleGAN2) für die blinde Gesichtsreparatur gekapselt sind....

Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型-首席AI分享圈

Moshi: ein Echtzeit-Sprachdialog-Framework mit Unterstützung für mehrere Sprachen und Akzente für Sprachdialog-Basismodelle

Umfassende Einführung Moshi Chat ist ein durchgängiger Echtzeit-KI-Sprachassistent, der von Kyutai, einem französischen Non-Profit-KI-Labor, entwickelt wurde. Er hört nicht nur in Echtzeit zu, sondern nimmt auch an natürlichen Gesprächen teil und unterstützt multimodale Interaktionen, einschließlich der Fähigkeit zu sehen, zu hören und zu sprechen.Moshi Chat versteht die Intonation des...

QAnything:高度集成RAG处理流程的本地知识库问答系统-首席AI分享圈

QAnything: Ein lokales Wissensdatenbank-Q&A-System mit hoch integrierten RAG-Prozessen

QAnything Allgemeine Einführung QAnything (Question and Answer based on Anything) ist ein von NetEase eingeführtes lokales Wissensbasis-Q&A-System, das alle Arten von Dateiformaten und Datenbanken unterstützt und offline installiert und verwendet werden kann. Es kann PDF-, Word-, PPT-, XLS- und andere Dokumentformate verarbeiten, unterstützt...

de_DEDeutsch