AI Open-Source-Projekt

Insgesamt 1020 Artikel
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: Das weltweit führende leichtgewichtige, leistungsstarke End-Side Big Model

Allgemeine Einführung ModelBest ist ein Unternehmen, das sich auf die Entwicklung von leichtgewichtigen und leistungsstarken Großmodellen konzentriert und sich der Anwendung fortschrittlicher KI-Technologien auf Mainstream-Unterhaltungselektronik und alle Arten von Endgeräten des täglichen Lebens widmet. Seine MiniCPM-Serie von Endseitenmodellen mit extremer Rechenleistung und Speichernutzungseffizienz...
vor 10 Monaten
02.9K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: KI-generierte PPT, Präsentationserstellung

Umfassende Einführung AiPPT ist ein PPT-Generierungstool, das auf der Technologie der künstlichen Intelligenz basiert und dem Benutzer helfen soll, schnell professionelle Präsentationen zu erstellen. Es generiert automatisch inhaltsreiche und schön gestaltete Folien, indem es Themen eingibt, Dateien hochlädt oder URLs bereitstellt, usw. Es unterstützt native Diagramme, Animationen und 3D-Spezialeffekte...
vor 6 Monaten
03.3K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: Open-Source-Plattform für die Produktion von digitalen menschlichen Kursen, PPT Ein-Klick-Generation Klonen von digitalen menschlichen Vortragsvideos

Umfassende Einführung Easegen ist eine Open-Source-Plattform zur Erstellung digitaler menschlicher Kurse, die darauf abzielt, die Effizienz der Produktion und Verwaltung von Lehrinhalten durch KI-Technologie zu verbessern. Die Plattform bietet eine Komplettlösung von der Kursproduktion über das Videomanagement bis hin zur intelligenten Befragung, die es den Nutzern ermöglicht, digitale Videokurse mit menschlicher Erklärung zu erstellen...
vor 10 Monaten
03.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas: kollaborative Codebearbeitung, Open-Source-Version von OpenAI Canvas/Claude Artifacts

Allgemeine Einführung LangChain präsentiert Open Canvas, eine Open-Source-Webanwendung, die die Bearbeitung von Dokumenten und die Zusammenarbeit mit eingebauter Dual-Agent-Speicherfunktionalität und integriertem Smith zur Beobachtung aller Ausführungsdetails verbessern soll. Die Plattform basiert auf OpenA...
vor 5 Monaten
03.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: Einfach zu bedienende Schnittstellenversion des Multiagentensystems AutoGen

Allgemeine Beschreibung AutoGen Studio 2.0 ist eine von AutoGen unterstützte Benutzeroberfläche, die den Prozess der Erstellung und Verwaltung von Multi-Agenten-Lösungen vereinfachen soll. Die Plattform ermöglicht es Benutzern, Agenten und ihre Arbeitsabläufe über eine intuitive Schnittstelle deklarativ zu definieren und zu modifizieren...
vor 7 Monaten
03.9K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: Intelligentes Open-Source-Tool zur Aufzeichnung und Zusammenfassung von Meetings, das auf OpenAI Whisper basiert

Allgemeine Einführung MeetingMind ist eine fortschrittliche KI-Anwendung, die die Effizienz der Erfassung und Zusammenfassung von Geschäftsbesprechungen verbessern soll. Die App integriert die Whisper-Technologie von OpenAI für präzise Sprache-zu-Text und nutzt IBM Watso...
vor 10 Monaten
03.4K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能

Coqui TTS (xTTS): ein Deep-Learning-Toolkit für die Text-zu-Sprache-Erzeugung mit mehrsprachiger Unterstützung und Funktionen zum Klonen von Stimmen

Umfassende Einführung Coqui TTS ist ein Open-Source-Toolkit zur Erzeugung von Text-to-Speech (TTS), das auf Deep-Learning-Techniken basiert. Es wurde sowohl in Forschungs- als auch in Produktionsumgebungen erprobt und bietet eine Vielzahl von Funktionen und Modellen, die die Umwandlung von Text in Sprache in mehreren Sprachen unterstützen....
vor 6 Monaten
03.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: eine KI-Suchmaschine, die lokale Wissensdatenbanken mit Suchinformationen verknüpft

Allgemeine Einführung MemFree ist eine fortschrittliche hybride KI-Suchmaschine, die in der Lage ist, in Texten, Bildern, Dokumenten und Webseiten zu suchen und Fragen zu stellen. Es bietet einen Ein-Klick-Zugang zu Suchergebnissen für Text, Mind Maps, Bilder und Videos. MemFree zielt darauf ab, Informationen aus der Wissensbasis des Benutzers zu extrahieren und...
vor 10 Monaten
03.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: Bilderzeugung in Echtzeit durch Eingabe von Schlüsselwörtern (kostenloser Zugang zum Flux Schnell Modell)

Allgemeine Beschreibung BlinkShot ist ein quelloffener Echtzeit-KI-Bildgenerator, der die Technologien Together AI und Flux Schnell nutzt, um Benutzern die Möglichkeit zu geben, bei der Eingabe von Aufforderungen qualitativ hochwertige Bilder zu erzeugen. Die Plattform ist völlig kostenlos und unterstützt die Anpassung durch den Benutzer und sekundäre offene...
vor 10 Monaten
03.7K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: Open Source Spracherkennungs-Toolkit, Sprechertrennung / Mehr-Personen-Dialog-Spracherkennung

Umfassende Einführung FunASR ist ein Open-Source-Spracherkennungs-Toolkit, das von der Alibaba Dharmo Academy entwickelt wurde, um akademische Forschung und industrielle Anwendungen zu verbinden. Es unterstützt eine breite Palette von Spracherkennungsfunktionen, einschließlich Spracherkennung (ASR), Voice Endpoint Detection (VAD), Interpunktionswiederherstellung, Sprachmodellierung,...
vor 10 Monaten
04.4K
阿布量化交易系统:基于Python的开源量化交易平台

Abu quantitatives Handelssystem: Python-basierte Open-Source-Plattform für quantitativen Handel

Allgemeine Einführung Abu Quantitative Trading System ist eine Open-Source-Plattform, die auf Python basiert. Es wurde vom Benutzer "bbfamily" entwickelt, um Investoren bei der Umsetzung quantitativer Handelsstrategien durch Code zu unterstützen. Das System unterstützt Backtesting und Handel mit verschiedenen Finanzprodukten wie Aktien, Optionen, Futures und Bitcoin. Es...
vor 5 Monaten
02.4K
Knowledge Table:高效提取与探索结构化数据的开源工具

Knowledge Table: Ein Open-Source-Tool für die effiziente Extraktion und Erkundung von strukturierten Daten

Umfassende Einführung Knowledge Table (Knowledge Table) ist ein Open-Source-Projekt, das den Prozess der Extraktion und Erforschung strukturierter Daten aus unstrukturierten Dokumenten vereinfachen soll. Benutzer können strukturierte Wissensrepräsentationen wie Tabellen und Graphen über eine natürlichsprachliche Abfrageoberfläche erstellen. Das Tool unterstützt die Anpassung der Extraktion ...
vor 10 Monaten
02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Umfassende Einführung CogView3 ist ein fortschrittliches, textgeneriertes Bildsystem, das von der Tsinghua Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf einem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung...
vor 10 Monaten
02.9K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: Werkzeug zur Umwandlung von Sprache in Untertitel, leichtgewichtiger Client mit integrierten Schnittstellen zu Cutscene, Racer und Must-Cut

Umfassende Einführung AsrTools ist ein intelligentes Sprache-zu-Text-Tool mit eingebauten Schnittstellen von großen Herstellern wie Cutscene, Racer, Must Cut, usw. Es erfordert keine GPU oder umständliche Konfiguration und unterstützt effiziente Multi-Thread-Batch-Verarbeitung. Es basiert auf PyQt5 Entwicklung, schöne und benutzerfreundliche Schnittstelle, in der Lage, SRT und TXT-Format Wörter auszugeben...
vor 10 Monaten
04.2K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: Erreichen Sie ganz einfach null E-Mails in Ihrem Posteingang, mit Hilfe von KI, die Sie beim Kategorisieren, Filtern und Verarbeiten Ihrer E-Mails unterstützt.

Allgemeine Beschreibung Inbox Zero ist eine Open-Source-App für die E-Mail-Verwaltung, die Nutzern helfen soll, mit einem KI-Assistenten schnell Null E-Mails im Posteingang zu haben. Die App bietet eine Vielzahl von Funktionen, darunter automatisches Beantworten, Archivieren, Kennzeichnen und Weiterleiten von E-Mails, Verwalten und Abbestellen von Newslettern, Blockieren von kalten E-Mails, Verfolgen von...
vor 8 Monaten
02.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: Umkehrung der mündlichen Berechnungen des kleinen Affen, Reverse Engineering und Entschlüsselungsalgorithmen

Umfassende Einführung Ape Mouth Calculator Reverse Notes ist ein Open-Source-Projekt, das darauf abzielt, den Prozess und die Methoden des Reverse Engineering der Ape Mouth Calculator-Anwendung zu dokumentieren und zu teilen. Das Projekt enthält eine Vielzahl von Reverse-Tools und Techniken, um die Anweisungen zu verwenden, wie z.B. Frida, dexdump, usw., um den Benutzern zu helfen, die kleine Affenmund-Rechenanwendung zu verstehen und zu knacken...
vor 10 Monaten
03.1K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto: XiaoYuanKouSuan automatisches Frage- und Antwort-Tool, effizientes Lösen von mündlichen Arithmetikfragen

Umfassende Einführung Ape Mouth Calculator Automatic Question Answer Tool ist ein Python-basiertes Open-Source-Projekt, das entwickelt wurde, um die Fragen in der Ape Mouth Calculator-Anwendung durch OCR-Erkennung und Automatisierungsskripte effizient zu lösen. Das Tool nutzt Technologien wie OpenCV und Tesseract, um die Fragen auf dem Bildschirm in Echtzeit zu identifizieren...
vor 10 Monaten
02.8K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

Cloud Document Converter: Plug-in für den Download von Flying Book-Dokumenten, Konvertierung von Flying Book-Cloud-Dokumenten in lokale Dokumente im Markdown-Format

Allgemeine Einführung Cloud Document Converter ist eine Chrome-Erweiterung, mit der sich Flying Book-Cloud-Dokumente in das Markdown-Format konvertieren lassen. Benutzer können Flying Book Cloud-Dokumente einfach herunterladen oder in das Markdown-Format kopieren...
vor 9 Monaten
02.7K
QuickPiperAudiobook:一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook: ein Schlüssel zur Erzeugung von Hörbüchern in natürlicher Klangqualität, Unterstützung für PDF, epub, docx und andere Formate

Umfassende Einführung QuickPiperAudiobook ist ein Open-Source-Projekt, das entwickelt wurde, um eine Vielzahl von Textformaten (z.B. epub, mobi, txt, PDF, HTML, etc.) in natürlich klingende Hörbücher durch einen einfachen Befehl zu konvertieren. Das Tool verwendet Pi...
vor 10 Monaten
02.8K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk: Intelligenter Assistent für die Stellensuche, automatisierte Lebenslaufplatzierung (nur auf Englisch)

Allgemeine Einführung Auto_Jobs_Applier_AIHawk ist ein Tool zur Automatisierung der Stellensuche mit Hilfe von Technologie der künstlichen Intelligenz. Es hilft den Nutzern, eine große Anzahl von Lebensläufen in kurzer Zeit zu automatisieren und sie entsprechend ihren persönlichen Informationen und ihren Absichten bei der Stellensuche zu personalisieren. Das Tool wurde entwickelt, um die...
vor 8 Monaten
03.5K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI: Hochwertige AI-Modell Weiterleitung Interface-Management-System, die offizielle Website bietet kostenlose API-Kontingent täglich

Umfassende Einführung VoAPI ist ein neues, hochkarätiges und leistungsfähiges KI-Schnittstellenverwaltungs- und Vertriebssystem, das hauptsächlich für persönliche oder unternehmensinterne Verwaltungs- und Vertriebskanäle verwendet wird. Das System wurde auf der Grundlage von NewAPI entwickelt und bietet reichhaltige Funktionsmodule und eine optimierte Benutzeroberfläche, die...
vor 9 Monaten
02.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Umfassende Einführung MockingBird ist ein Open-Source-Projekt, das darauf abzielt, schnelles Sprachklonen und Text-to-Speech durch KI-Technologie zu erreichen. Benutzer müssen nur 5 Sekunden Stimmproben zur Verfügung stellen, Sie können beliebige Sprachinhalte erzeugen. Das Projekt unterstützt eine Vielzahl von chinesischen Datensätzen, und in Windows ...
vor 8 Monaten
03.4K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: Mehrsprachiges, samplefreies Tool zum Klonen von Stimmen basierend auf xtts_v2 für Windows.

Allgemeine Beschreibung Clone Voice ist ein Open-Source-Tool zum Klonen von Klängen, das eine webbasierte Schnittstelle bietet, mit der Benutzer Stimmen klonen können, indem sie beliebige Klänge oder persönliche Sprachaufnahmen verwenden. Das Tool ist einfach zu bedienen, auch ohne NVIDIA GPU, und kann mit einer vorkompilierten App verwendet werden...
vor 10 Monaten
03.4K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: Dynamische und skalierbare Generierung von Text zu langen Videos

Umfassende Einführung StreamingT2V ist ein öffentliches Projekt, das vom Picsart AI-Forschungsteam entwickelt wurde und sich auf die Erzeugung kohärenter, dynamischer und skalierbarer langer Videos auf der Grundlage von Textbeschreibungen konzentriert. Diese Technologie verwendet einen fortschrittlichen autoregressiven Ansatz, der die zeitliche Konsistenz des Videos mit dem Beschreibungstext garantiert...
vor 9 Monaten
03K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Retrieval-basierte Sprachumwandlung WebUI: Ein Rahmenwerk für Retrieval-basierte Sprachumwandlung | Simulation realer Gesangsstimmen

Comprehensive Introduction Retrieval based Voice Conversion WebUI ist ein einfach zu bedienendes VITS-basiertes Sprachkonvertierungs-Framework, das die Sprachkonvertierung zwischen beliebigen Sprechern ermöglicht, einschließlich Song-Covers und Stimmänderungen in Echtzeit. Es hat niedrige ...
vor 10 Monaten
03.5K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: Open-Source-Null-Sample-Sprachklonierung und Text-to-Speech-Tool

Umfassende Einführung VoiceCraft ist ein Open-Source-Sprachbearbeitungs- und Null-Sample-Sprachsynthese-Tool, das auf dem neuronalen Codec-Sprachmodell basiert. Es verwendet eine innovative Methode zur Generierung kodierter Sequenzen, die das Einfügen, Löschen und Ersetzen bestehender Sprachsequenzen ermöglicht, um natürliche, kohärent bearbeitete Sprache zu erzeugen...
vor 10 Monaten
03K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev (Chat Nio): B/C-Lösung aus einer Hand für KI-Aggregationsanwendungen mit flexibler Abrechnung und Unterstützung von Abonnementmodellen

Allgemeine Einführung CoAI.Dev (ehemals Chat Nio) ist eine Chat-Plattform, die mehrere KI-Modelle integriert und verteiltes Streaming, Bilderzeugung, geräteübergreifende Gesprächssynchronisation und -freigabe unterstützt. Sie implementiert ein Abonnement- und Token-Abrechnungssystem, einen Schlüsseltransitservice und mehrere...
vor 9 Monaten
03.4K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: Lokale Echtzeit-Chat-Anwendung UI basierend auf Nuxt 3 und Ollama

Umfassende Einführung ChatOllama ist ein Open-Source-Online-Chat-Anwendungsprojekt auf der Grundlage eines groß angelegten Sprachmodells (LLM), das zahlreiche Sprachmodelle und die Verwaltung der Wissensbasis unterstützt. Benutzer können die Plattform für die Modellverwaltung (Listenanzeige, Download, Löschen), den Chat mit Modellen und andere Funktionen nutzen. Das Projekt verwendet ...
vor 10 Monaten
03.3K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Umfassende Einführung MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team am Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDFs zu verarbeiten, die Bilder, Formeln, Tabellen und andere Elemente enthalten...
vor 11 Monaten
04.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: Ein Open-Source-Tool zur Umsetzung von Fotos und Videos in Anime-Stilistik

Allgemeine Einführung DCT-Net ist ein Open-Source-Projekt, das von der DAMO Academy und dem Wang Xuan Institute of Computer Technology, Peking University, entwickelt wurde und auf die stilisierte Transformation von Bildern abzielt. Das Projekt nutzt Deep-Learning-Techniken durch Domain-Calibrated Translation (Domain-Calibrat...
vor 7 Monaten
03.2K
CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版

CodeFormer: Bild- und Video-Gesichtsrestaurierung, Wiederherstellung alter Fotos, bietet eine Ein-Klick-Bereitstellungsversion

CodeFormer Allgemeine Einführung CodeFormer ist eine Codebasis für die robuste blinde Gesichtsreparatur, die von einem Forscherteam am S-Lab der Nanyang Technological University entwickelt und auf der NeurIPS 2022 vorgestellt wurde. Das Projekt nutzt einen Codebook Lookup Transformer (C...
vor 11 Monaten
03.7K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: ein Echtzeit-Sprachdialog-Framework mit Unterstützung für mehrere Sprachen und Akzente für Sprachdialog-Basismodelle

Allgemeine Einführung Moshi Chat ist ein durchgängiger Echtzeit-KI-Sprachassistent von Kyutai, einem französischen Non-Profit-KI-Labor. Er hört nicht nur in Echtzeit zu, sondern nimmt auch an natürlichen Gesprächen teil und unterstützt multimodale Interaktionen, einschließlich der Fähigkeit zu sehen, zu hören und zu sprechen.
vor 11 Monaten
02.9K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: tragbare KI-Sprachtagebuch-App mit Sprache-zu-Text-Unterstützung.

Allgemeine Einführung ALog ist eine KI-basierte Sprachtagebuchanwendung, die Nutzern helfen soll, ihr tägliches Leben per Sprache aufzuzeichnen. Es wird von duxins entwickelt und ist auf GitHub verfügbar. Benutzer können Tagebucheinträge durch Spracheingabe aufzeichnen, und die App wird die Stimme automatisch in Text umwandeln...
vor 7 Monaten
03.7K
OpenSPG:开源知识图谱引擎

OpenSPG: Open-Source-Wissensgraphen-Engine

Umfassende Einführung OpenSPG ist eine Open-Source-Wissensgraphen-Engine, die von der Ant Group in Zusammenarbeit mit OpenKG entwickelt wurde und auf dem SPG-Framework (Semantic Augmented Programmable Graph) basiert. Die Engine wurde entwickelt, um Funktionen wie explizite semantische Repräsentation, logische Regeldefinition und einen operativen Rahmen zur Unterstützung der Konstruktion und Verwaltung von Wissensgraphen zu bieten...
vor 11 Monaten
03.9K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: ein Open-Source-Projekt, das eine intelligente Speicherschicht für KI-Assistenten und -Agenten bereitstellt

Allgemeine Einführung Mem0 (ausgesprochen "mem-zero") ist ein Open-Source-Projekt, das eine intelligente Speicherschicht für KI-Assistenten und Agenten bereitstellt. Es merkt sich Benutzerpräferenzen, passt sich an individuelle Bedürfnisse an und verbessert sich mit der Zeit, was es ideal für kundenunterstützende Chatbots, KI-Assistenten und autonome Systeme macht...
vor 11 Monaten
03.9K
GaiaNet node:安装和运行自己的本地模型在线代理服务

GaiaNet-Knoten: Installieren und betreiben Sie Ihren eigenen lokalen Modell-Online-Proxy-Dienst

Allgemeine Einführung GaiaNet-AI/gaianet-node ist ein Open-Source-Projekt, das es Nutzern ermöglicht, den Standard-Node-Software-Stack auf Mac, Linux oder Windows WSL mit einem einzigen Befehl schnell zu installieren. Benutzer können Knoten initialisieren, Konfigurationen anpassen,...
vor 11 Monaten
02.8K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Vorhersage der Wahrscheinlichkeit künftiger Ereignisse auf der Grundlage von Suchwissen

Allgemeine Einführung Forecast AI ist eine hervorragende Prognoseplattform, die auf fortschrittlicher Technologie der künstlichen Intelligenz basiert. Sie nutzt leistungsstarke Datenanalysen und Algorithmen des maschinellen Lernens, um den Nutzern hochpräzise Vorhersagen über zukünftige Ereignisse zu liefern. Ob es sich um politische Wahlen, wirtschaftliche Trends oder gesellschaftliche Ereignisse handelt, Forecast ...
vor 11 Monaten
03.2K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: Revolutionäre Werkzeuge zur Spracherzeugung und zum Klonen von Sprache

Umfassende Einführung GPT-SoVITS ist ein Open-Source-Sprachkonvertierungs- und -synthesewerkzeug, das das GPT-Modell und die SoVITS-Sprachwandlertechnologie kombiniert. Das Tool unterstützt die fliegende Text-zu-Sprache-Konvertierung mit null und wenigen Samples sowie die Migration von Sprachstilen mit nur 5 Sekunden Audio-Samples. Zu seinen Funktionen gehören sprachübergreifende ...
vor 11 Monaten
03.2K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: schnelles und kontrollierbares mehrsprachiges (7000+ Sprachen unterstützt) Text-to-Speech-Tool

Allgemeine Einführung IMS Toucan ist ein modernes Text-to-Speech (TTS) Toolkit, das vom Institut für Maschinelle Sprachverarbeitung (IMS) an der Universität Stuttgart entwickelt wurde. Das Toolkit unterstützt mehr als 7000 Sprachen und ist schnell, kontrollierbar und hat geringe Anforderungen an die...
vor 6 Monaten
03.1K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam: Open-Source-Echtzeit-KI-Gesichtstausch-Tool, ein Foto für Live-Gesichtstausch in Echtzeit

Allgemeine Einführung Deep Live Cam ist ein Open-Source-Tool für künstliche Intelligenz, das die Ersetzung von Gesichtern in Echtzeit und die Erstellung von Fake-Videos aus einem einzigen Foto ermöglicht. Mithilfe fortschrittlicher Deep-Learning-Algorithmen kann das Tool Gesichter in Echtzeit während eines Live-Streamings oder Videoanrufs ersetzen und so die Privatsphäre des Nutzers schützen und...
vor 9 Monaten
03.5K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI: Textgenerierte Film- und TV-Erzählung und automatisiertes Bearbeitungswerkzeug

Allgemeine Einführung NarratoAI ist ein vollautomatisches Tool, das Film- und Videoerzählung, automatische Bearbeitung, Synchronisation und Untertitelerstellung integriert. Es stützt sich auf die Technologie der groß angelegten Sprachmodellierung (LLM), um automatisch Texte zu generieren und Videos mit entsprechenden Synchronisationen und Untertiteln automatisch zu bearbeiten.
vor 11 Monaten
03.3K
Vector Vein(向量脉络):无代码AI工作流构建平台

Vector Vein: Code-freie KI-Plattform zur Erstellung von Workflows

Umfassende Einführung Vector Vein ist eine Code-freie Plattform zur Erstellung von KI-Workflows, mit der Benutzer leicht intelligente, automatisierte Workflows erstellen können. Da keine Programmierkenntnisse erforderlich sind, können Benutzer einfach verschiedene Funktionsmodule per Drag-and-Drop miteinander verbinden, um komplexe KI-Workflows zu...
vor 8 Monaten
02.9K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: Animationswerkzeug zur Erstellung dynamischer Porträts aus Standbildern und Videos

Allgemeine Einführung LivePortrait ist ein fortschrittliches KI-Tool für dynamische Porträtanimationen, das von Racer Technology entwickelt wurde. Es nutzt eine innovative KI-Technologie, um Standbilder in lebendige Videoanimationen zu verwandeln. Ob Sie nun echte Fotos, Animationsstile oder künstlerische Porträts verwenden, LivePortrait...
vor 9 Monaten
03.2K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: Aufbau von KI-Intelligenzen mit Gedächtnis, Wissen und Werkzeugen

Umfassende Einführung PhiData ist ein Framework für die Entwicklung intelligenter KI-Assistenten. Es ermöglicht KI-Assistenten, sich an langfristigen Gesprächen zu beteiligen, genauen Geschäftskontext bereitzustellen und eine Vielzahl von Operationen durch erweiterte Speicher-, Wissensintegrations- und Tool-Aufruf-Fähigkeiten durchzuführen.PhiData verbessert nicht nur die...
vor 5 Monaten
03.1K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: ein Spracherzeugungsmodell, das die Stimme eines echten Sprechers imitiert (ChatTTS-Beschleunigungspaket mit einem Klick)

Allgemeine Einführung ChatTTS ist ein generatives Sprachmodell, das für Dialogszenarien entwickelt wurde. Es erzeugt natürliche und ausdrucksstarke Sprache, unterstützt mehrere Sprachen und mehrere Sprecher und ist für interaktive Dialoge geeignet. Das Modell erreicht dies, indem es feinkörnige rhythmische Merkmale wie Lachen, Pausen und Zwischenrufe vorhersagt und steuert,...
vor 6 Monaten
03.1K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus: KI-Tool zur Erstellung von Kurzvideos mit einem Klick, kostenloses Batch-Mixing

Umfassende Einführung MoneyPrinterPlus ist ein Open-Source-Projekt, das darauf abzielt, alle Arten von Kurzvideos mit einem Klick durch KI-Technologie zu erstellen und zu mischen und sie automatisch auf mehreren Videoplattformen wie Jieyin, Shutterbugs, Xiaohongshu und Video Number zu veröffentlichen. Das Tool unterstützt lokale und cloudbasierte Sprachmodelle, einschließlich Chat...
vor 11 Monaten
03.4K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: eine quelloffene KI-Chat-App, die die Oberfläche und Funktionalität von ChatGPT nachahmt

Allgemeine Einführung Chatbot UI ist ein Open-Source-Projekt, das Entwicklern helfen soll, personalisierte und intelligente Konversationsschnittstellen zu erstellen. Das Projekt bietet eine Reihe von Schnittstellenkomponenten und interaktiven Funktionen, die leicht in das bestehende Chatbot-System integriert werden können, um den Benutzern einen flüssigeren und intelligenteren Dialogkörper zu bieten...
vor 11 Monaten
04.6K
GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面

GLIGEN GUI: Präzise Steuerung der Position von Bildelementen, intuitive grafische Oberfläche basierend auf ComfyUI

Allgemeine Einführung GLIGEN GUI ist eine intuitive grafische Benutzeroberfläche auf der Basis von ComfyUI, die die Verwendung des GLIGEN-Modells vereinfacht, eines neuartigen Text-Bild-Modells, das eine präzise Spezifikation der Position von Objekten in einem Bild ermöglicht. Mit GLIGE...
vor 11 Monaten
02.7K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: AI Voice Toolkit für den lokalen Einsatz

Umfassende Einführung Easy-Voice-Toolkit ist ein multifunktionales Toolkit, das auf dem Open Source Speech Project basiert und eine breite Palette von automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv einsetzen...
vor 11 Monaten
03.4K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Video Face Swap Enhancement Tool | Voice Sync Video Mouth Moves

Allgemeine Beschreibung FaceFusion ist eine hochmoderne Cloud-Plattform mit integriertem Gesichtsaustausch und -verbesserung, die für den Bild-zu-Video- und Bild-zu-Bild-Austausch optimiert ist und mit 5 professionellen Modellen für eine einwandfreie Ausgabe sorgt. Darüber hinaus führt es eine Gesichtsverbesserung mit 7 Modellen unter Verwendung von 3...
vor 6 Monaten
05.5K
Kotaemon:简单部署的开源多模态文档问答工具

Kotaemon: ein einfach zu verwendendes Open-Source-Werkzeug für multimodale Dokumentenquizs

Allgemeine Einführung Kotaemon ist ein quelloffenes Q&A-Tool für Dokumente, das Endbenutzern und Entwicklern Q&A-Funktionen auf der Grundlage von Retrieval Augmented Generation (RAG) bietet. Das Projekt wurde von Cinnamon entwickelt und unterstützt eine Vielzahl von LLM-API-Anbietern (z.B. OpenA...
vor 11 Monaten
03.4K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos: Open-Source-Tool zur Erstellung intelligenter KI-Foto-IDs

Umfassende Einführung HivisionIDPhotos ist ein Open-Source-Leichtbau-KI-Dokument Foto-Produktionstool, kann intelligent identifizieren die Benutzer Foto-Szene und Keying, ein Standard-Dokument Foto im Einklang mit einer Vielzahl von Spezifikationen zu generieren. Das Tool unterstützt benutzerdefinierte Hintergrundfarben und Größen, und in der Zukunft wird auch Schönheit und...
vor 11 Monaten
03.2K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: Fotos zum Sprechen bringen | Mouth Sync Audio | Synthesised Mouth Sync Video | Free Digital People

Allgemeine Einführung SadTalker ist ein Open-Source-Tool, das ein einzelnes Porträtfoto mit einer Audiodatei kombiniert, um realistische sprechende Avatar-Videos für eine Vielzahl von Szenarien zu erstellen, wie z. B. personalisierte Nachrichten, Bildungsinhalte und mehr. Revolutionärer Einsatz von 3D-Modellierungstechnologien wie ExpNet und PoseVA...
vor 6 Monaten
03.4K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking: Audio-gesteuertes Lippensynchronisations- und Videobearbeitungssystem

Allgemeine Einführung VideoReTalking ist ein innovatives System, das es dem Benutzer ermöglicht, lippensynchrone Gesichtsvideos auf der Grundlage des eingegebenen Audios zu erzeugen, wobei qualitativ hochwertige und lippensynchrone Ausgabevideos auch bei unterschiedlichen Emotionen entstehen. Das System unterteilt dieses Ziel in drei aufeinanderfolgende Aufgaben: mit typischen Ausdrücken...
vor 8 Monaten
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Komplettes digitales menschliches Videogenerierungs-Framework | Portrait zu Video | Pose zu Video | Lippensynchronisation

Allgemeine Einführung MuseV ist ein öffentliches Projekt auf GitHub mit dem Ziel, Avatar-Videos von unbegrenzter Länge und hoher Wiedergabetreue zu erzeugen. Es basiert auf Diffusionstechnologie und bietet Image2Video, Text2Image2Video, Video2Video...
vor 8 Monaten
05.6K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Unstrukturiert: Open-Source-Vorverarbeitung unstrukturierter Dokumente, Tools zur Verarbeitung unstrukturierter Daten

Umfassende Einführung Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumente, etc. Ihr Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungsabläufen, insbesondere für große Sprachmodelle (LL...
vor 11 Monaten
03.3K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html: Extrahieren von Daten aus einer HTML-URL, Ausgabe von einfachem Text/Markdown

Allgemeine Einführung magic-html ist eine Python-Bibliothek, die den Prozess der Extraktion von Inhalten aus HTML vereinfachen soll. Egal, ob es sich um komplexe HTML-Strukturen oder einfache Webseiten handelt, diese Bibliothek zielt darauf ab, dem Benutzer eine bequeme und effiziente Schnittstelle zu bieten. Sie unterstützt die multimodale Extraktion...
vor 11 Monaten
02.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: Intelligentes Werkzeug zur Verarbeitung von Webinformationen, kostenlose API für die Erfassung von Webinhalten

WebPilot Allgemeine Einführung Webpilot ist ein freier und quelloffener "Web-Assistent", der es Ihnen ermöglicht, frei mit jeder Webseite zu kommunizieren oder automatisierte Aufgaben durchzuführen. Sie müssen nicht zwischen Seiten wechseln oder kopieren und einfügen, wählen Sie einfach Text aus oder geben Sie Befehle ein, Webpilot...
vor 12 Monaten
03.7K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT: Aufbau eines Entwicklungsrahmens für KI-native Datenanwendungen, der Multi-Modell-Management und intelligente Datenverarbeitung integriert

Umfassende Einführung DB-GPT ist ein Open-Source-Framework zur Entwicklung nativer KI-Datenanwendungen, das auf AWEL (Agentic Workflow Expression Language) und Smart-Body-Technologien basiert. Das Projekt zielt darauf ab, eine Infrastruktur im Bereich großer Modelle aufzubauen...
vor 5 Monaten
02.8K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: Erzeugen Sie ausdrucksstarke Sprechvideos mit einem einzigen Avatarbild!

DreamTalk Umfassende Einführung DreamTalk ist ein von der Tsinghua Universität, der Alibaba Gruppe und der Huazhong Universität für Wissenschaft und Technologie gemeinsam entwickeltes System zur Erzeugung von ausdrucksstarken Sprechern. Es besteht hauptsächlich aus drei Teilen: einem Netzwerk zur Rauschunterdrückung, einem Stilexperten für Lippen und einem Stilprädikator, der auf...
vor 8 Monaten
03.2K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID: Laden Sie ein Bild hoch und migrieren Sie die Porträtfunktionen, um verschiedene Bildstile zu erzeugen.

Umfassende Einführung InstantID ist eine fortschrittliche Technologie, die darauf ausgerichtet ist, Bilder mit personalisierten Stilen oder Posen in Sekundenschnelle zu generieren und dabei ein hohes Maß an Wiedergabetreue anhand eines einzigen Referenz-ID-Bildes zu gewährleisten. Die Technologie verwendet eine auf einem Diffusionsmodell basierende Lösung, die Gesichtsbilder, Landmark-Maps...
vor 12 Monaten
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master Chinesische Version: Cue-Word-Tool zur Optimierung der Porträt-Erstellung

Allgemeine Einführung ComfyUI Portrait Master (chinesische Version) ist ein Werkzeug zur Erstellung von Porträtstichwörtern, das für KI-Bildgestalter entwickelt wurde. Das Tool hilft dem Benutzer, qualitativ hochwertige Porträts zu erstellen, indem es die Stichwörter optimiert. Die Benutzer können verschiedene Linsen je nach Bedarf auswählen...
vor 12 Monaten
03.8K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: Allround-Tool für die AI-Bildbearbeitung, Löschen, Erweitern, Ersetzen von Elementen und Zeichnen von Text.

Allgemeine Einführung IOPaint ist ein kostenloses und quelloffenes KI-Bildbearbeitungsprogramm, das das Löschen, Reparieren und Erweitern von Bildern unterstützt. Es verwendet hochmoderne KI-Modelle, um Benutzern zu helfen, unerwünschte Objekte aus Bildern zu entfernen, Fehler zu reparieren, neue Inhalte hinzuzufügen und sogar Bilder zu...
vor 10 Monaten
015.2K