Projet open source sur l'IA

Total 1020 articles
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab : modèle d'IA dédié à la reconnaissance OCR, PDF to Markdown (open source/API)

Introduction complète Datalab propose une gamme de modèles d'IA avancés axés sur l'OCR, l'analyse de la mise en page, la conversion de PDF en Markdown et bien plus encore. Ces modèles sont non seulement très performants, mais aussi faciles à utiliser et open source. Les modèles Marker de la plateforme peuvent rapidement et précisément...
Il y a 9 mois
03.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest : Le premier modèle léger et performant de type End-Side Big Model au monde

Introduction générale ModelBest est une entreprise qui se concentre sur le développement de grands modèles légers et très performants, et qui se consacre à l'application de technologies d'IA avancées à l'électronique grand public et à tous les types d'appareils finaux de la vie quotidienne. Sa série MiniCPM de modèles d'extrémité dotés d'une puissance arithmétique et d'une efficacité d'utilisation de la mémoire extrêmes...
Il y a 10 mois
03K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy : Outil de conversation audio multilingue à partir de contenus multisources, une alternative open source aux capacités de podcasting de NotebookLM

Introduction générale Podcastfy est un paquetage Python open source qui utilise la technologie d'intelligence artificielle générative (GenAI) pour convertir du contenu web, des fichiers PDF, du texte, des images, des vidéos youtube et bien d'autres sources en...
Il y a 10 mois
03K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT : AI Generated PPT, Génération de présentations

Introduction AiPPT est un outil de génération de PPT basé sur la technologie de l'intelligence artificielle, conçu pour aider les utilisateurs à créer rapidement des présentations professionnelles. Il génère automatiquement des diapositives riches en contenu et joliment conçues en saisissant des thèmes, en téléchargeant des fichiers ou en fournissant des URL, etc. Il prend en charge les graphiques natifs, les animations et les...
Il y a 6 mois
03.3K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen : plateforme open source de production de cours sur l'homme numérique, clonage en un seul clic de vidéos de cours sur l'homme numérique (PPT)

Introduction Easegen est une plateforme open source de création de cours humains numériques qui vise à améliorer l'efficacité de la production et de la gestion du contenu pédagogique grâce à la technologie de l'intelligence artificielle. La plateforme fournit une solution unique allant de la production de cours à la gestion vidéo en passant par l'interrogation intelligente, ce qui permet aux utilisateurs de créer des cours vidéo numériques expliqués par l'homme...
Il y a 10 mois
03.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas : toile collaborative d'édition de code, version open source d'OpenAI Canvas/Claude Artifacts

Introduction générale LangChain présente Open Canvas, une application web open source conçue pour améliorer l'expérience d'édition de documents et de collaboration avec une fonctionnalité de mémoire à double agent intégrée et un smith intégré pour observer tous les détails de l'exécution. La plateforme est alimentée par OpenA...
il y a 5 mois
03.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio : une interface facile à utiliser pour le système multi-agents AutoGen

Description générale AutoGen Studio 2.0 est une interface utilisateur basée sur AutoGen conçue pour simplifier le processus de création et de gestion de solutions multi-agents. La plateforme permet aux utilisateurs de définir et de modifier de manière déclarative les agents et leurs flux de travail à travers une interface intuitive...
Il y a 7 mois
03.9K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind : Outil Open Source d'enregistrement et de synthèse de réunions intelligentes reposant sur OpenAI Whisper

Introduction générale MeetingMind est une application d'IA avancée conçue pour améliorer l'efficacité de la capture et du résumé des réunions d'affaires. L'application intègre la technologie Whisper d'OpenAI pour une conversion précise de la parole en texte et utilise IBM Watso...
Il y a 10 mois
03.5K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能

Coqui TTS (xTTS) : une boîte à outils d'apprentissage profond pour la génération de texte à partir de la parole avec un support multilingue et des capacités de clonage de la voix

Introduction complète Coqui TTS est une boîte à outils open source de génération de synthèse vocale avancée basée sur des techniques d'apprentissage profond. Il a été testé dans des environnements de recherche et de production, et fournit un ensemble riche de fonctionnalités et de modèles qui prennent en charge la conversion texte-parole dans de nombreuses langues.
Il y a 6 mois
03.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree : un moteur de recherche IA qui mélange des bases de connaissances locales avec des informations de recherche

Introduction générale MemFree est un moteur de recherche hybride avancé capable de rechercher et de poser des questions à travers des textes, des images, des documents et des pages web. Il fournit un accès en un seul clic aux résultats de recherche pour les textes, les cartes mentales, les images et les vidéos. Il permet d'accéder en un seul clic aux résultats de recherche de textes, de cartes heuristiques, d'images et de vidéos....
Il y a 10 mois
03.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot : génération d'images en temps réel en tapant des mots (accès gratuit au modèle Flux Schnell)

Description générale BlinkShot est un générateur d'images IA en temps réel open source qui utilise les technologies Together AI et Flux Schnell pour permettre aux utilisateurs de générer des images de haute qualité au fur et à mesure qu'ils saisissent des invites. La plateforme est entièrement gratuite et prend en charge la personnalisation de l'utilisateur...
Il y a 10 mois
03.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR : boîte à outils de reconnaissance vocale open source, séparation du locuteur / reconnaissance vocale de dialogues multi-personnes

Introduction complète FunASR est une boîte à outils de reconnaissance vocale open-source développée par l'Alibaba Dharmo Academy pour faire le lien entre la recherche académique et les applications industrielles. Il prend en charge un large éventail de fonctions de reconnaissance vocale, notamment la reconnaissance de la parole (ASR), la détection des terminaisons vocales (VAD), la récupération de la ponctuation, la modélisation de la langue, la...
Il y a 10 mois
04.5K
UltraPixel:革新超高分辨率图像生成技术,图像细节丰富

UltraPixel : technologie révolutionnaire de génération d'images à ultra-haute résolution avec des détails d'image riches

Introduction générale UltraPixel est une technologie avancée de génération d'images à ultra-haute résolution conçue pour créer des images de très haute qualité et riches en détails. Elle a été développée par l'utilisateur GitHub catcathh et présentée à NeurIPS 2024.U...
Il y a 10 mois
02.9K
SiYuan(思源笔记):隐私优先的个人知识管理软件,支持AI写作/问答聊天

SiYuan (SiYuan Notes) : logiciel de gestion des connaissances personnelles axé sur la protection de la vie privée et doté d'une fonction de rédaction AI et d'un système de chat Q&A.

Généralités : SiYuan Notes (SiYuan) est un logiciel de gestion des connaissances personnelles axé sur la confidentialité qui est entièrement open source et prend en charge l'auto-hébergement. Il est écrit en TypeScript et Golang, fournit des références fines au niveau du bloc et Markdown WYSIWYG (WYSIWY...
Il y a 6 mois
03.9K
阿布量化交易系统:基于Python的开源量化交易平台

Abu quantitative trading system : plateforme de trading quantitatif open source basée sur Python

Introduction générale Abu Quantitative Trading System est une plateforme open source basée sur Python. Elle a été créée par l'utilisateur "bbfamily" pour aider les investisseurs à mettre en œuvre des stratégies de trading quantitatives par le biais du code. Le système prend en charge le backtesting et le trading de divers produits financiers tels que les actions, les options, les contrats à terme et le bitcoin. Il...
il y a 5 mois
02.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

Knowledge Table : un outil open source pour l'extraction et l'exploration efficaces de données structurées

Introduction complète Knowledge Table (Knowledge Table) est un projet open source conçu pour simplifier le processus d'extraction et d'exploration de données structurées à partir de documents non structurés. Les utilisateurs peuvent créer des représentations de connaissances structurées telles que des tableaux et des graphiques par le biais d'une interface d'interrogation en langage naturel. L'outil permet de personnaliser l'extraction ...
Il y a 10 mois
02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型

CogView3 : modèle d'image de génération de texte par diffusion en cascade de Wisdom Spectrum (open source)

Introduction complète CogView3 est un système avancé de génération d'images par le texte développé par l'Université Tsinghua et Think Tank Team (Chi Spectrum Qingyan). Il est basé sur un modèle de diffusion en cascade et génère des images de haute résolution en plusieurs étapes. Il est basé sur un modèle de diffusion en cascade et génère des images de haute résolution à travers plusieurs étapes.
Il y a 10 mois
03K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools : outil de conversion de la parole en sous-titres, client léger avec interfaces intégrées pour Cutscene, Racer et Must-Cut

Introduction AsrTools est un outil de synthèse vocale intelligent avec des interfaces intégrées de grands acteurs comme Cutscene, QuickScope, MustCut, etc. Il ne nécessite pas de GPU ou de configuration encombrante, et supporte un traitement par lots efficace et multithread. Il est basé sur le développement PyQt5, une interface belle et conviviale, capable de produire des mots aux formats SRT et TXT...
Il y a 10 mois
04.2K
Surya:专业多语言文档OCR工具,开源本地部署

Surya : Outil professionnel d'OCR de documents multilingues, Déploiement natif Open Source

Introduction complète Surya est une boîte à outils d'OCR de documents multilingues open source qui prend en charge la reconnaissance de texte dans plus de 90 langues. Il effectue non seulement la détection de texte ligne par ligne, mais aussi l'analyse de la mise en page, la détection de l'ordre de lecture et la reconnaissance de tableaux....
Il y a 10 mois
05.2K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Boîte de réception Zéro : Atteignez facilement le niveau zéro dans votre boîte de réception, avec l'aide de l'IA pour vous aider à catégoriser, filtrer et traiter vos e-mails.

Description générale Inbox Zero est une application open source de gestion des emails conçue pour aider les utilisateurs à atteindre rapidement la boîte de réception zéro grâce à un assistant IA. L'application offre une variété de fonctionnalités telles que la réponse automatique, l'archivage, l'étiquetage et le transfert d'emails, la gestion et le désabonnement aux lettres d'information, le blocage des...
Il y a 8 mois
02.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks : notes inversées de calcul oral du petit singe, rétro-ingénierie et algorithmes de décryptage

Introduction complète Ape Mouth Calculator Reverse Notes est un projet open source qui vise à documenter et à partager le processus et les méthodes de rétro-ingénierie de l'application Ape Mouth Calculator. Le projet contient une variété d'outils et de techniques de rétro-ingénierie pour utiliser les instructions, telles que Frida, dexdump , etc., pour aider les utilisateurs à comprendre et à craquer l'addition arithmétique orale du petit singe...
Il y a 10 mois
03.1K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto : outil automatique de questions-réponses de XiaoYuanKouSuan, permettant de résoudre efficacement les problèmes d'arithmétique orale.

Introduction complète Ape Mouth Calculator Automatic Question Answer Tool est un projet open source basé sur Python conçu pour résoudre efficacement les questions dans l'application Ape Mouth Calculator grâce à la reconnaissance OCR et à des scripts d'automatisation. L'outil utilise des technologies telles que OpenCV et Tesseract pour identifier les questions à l'écran en temps réel...
Il y a 10 mois
02.8K
QuickPiperAudiobook:一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook : une clé pour générer des livres audio de qualité sonore naturelle, prise en charge des formats PDF, epub, docx et autres.

Introduction complète QuickPiperAudiobook est un projet open source conçu pour convertir une variété de formats de texte (e.g. epub, mobi, txt, PDF, HTML, etc.) en livres audio à la sonorité naturelle par le biais d'une simple commande. L'outil utilise Pi...
Il y a 10 mois
02.8K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI : outil open source d'exploration asynchrone du web pour extraire des données structurées sans LLM

Introduction complète Crawl4AI est un outil d'exploration du web asynchrone open source conçu pour les grands modèles de langage (LLM) et les applications d'intelligence artificielle (IA). Il simplifie le processus d'exploration du web et d'extraction de données, supporte l'exploration efficace du web et fournit des formats de sortie adaptés aux LLM pour...
Il y a 9 mois
03.8K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk : Intelligent Job Search Assistant, Automated CV Placement (en anglais uniquement)

Introduction générale Auto_Jobs_Applier_AIHawk est un outil d'automatisation de la recherche d'emploi utilisant la technologie de l'intelligence artificielle. Il aide les utilisateurs à automatiser l'envoi d'un grand nombre de CV en peu de temps et à les personnaliser en fonction de leurs informations personnelles et de leurs intentions de recherche d'emploi. L'outil est conçu pour...
Il y a 8 mois
03.5K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口

simple-one-api : intégration en un clic d'une variété d'API de grands modèles libres, interface OpenAI externe unifiée

Introduction complète simple-one-api est un projet open source conçu pour simplifier l'intégration de plusieurs API de grands modèles. Il prend en charge les API compatibles avec OpenAI telles que ThousandFans Big Model Platform, Xunfei Starfire Big Model, Tencent Mixed Element, MiniMax et Deep-Seek...
Il y a 9 mois
03.1K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI : système de gestion de l'interface de transfert de modèles d'IA de grande valeur, le site web officiel fournit un quota d'API gratuit sur une base quotidienne.

Introduction complète VoAPI est un nouveau système de gestion et de distribution d'interface de modèle IA de haut niveau et de haute performance, qui est principalement utilisé pour la gestion interne et les canaux de distribution des particuliers ou des entreprises. Développé sur la base de NewAPI, le système fournit des modules fonctionnels riches et une interface utilisateur optimisée, dans le but d'améliorer...
Il y a 9 mois
02.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird : clonage vocal rapide et formation de modèles, synthèse vocale basée sur xtts v2

Introduction complète MockingBird est un projet open source qui vise à réaliser un clonage vocal rapide et une synthèse vocale grâce à la technologie de l'IA. Les utilisateurs n'ont qu'à fournir des échantillons de voix de 5 secondes, vous pouvez générer n'importe quel contenu vocal. Le projet prend en charge une variété d'ensembles de données chinoises, et dans Windows ...
Il y a 8 mois
03.4K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice : outil de clonage vocal multilingue, sans échantillon, basé sur xtts_v2 pour Windows.

Description générale Clone Voice est un outil de clonage sonore open source qui fournit une interface web permettant aux utilisateurs de cloner des voix à partir de n'importe quel son ou enregistrement vocal personnel. L'outil est facile à utiliser, même sans GPU NVIDIA, et peut être utilisé avec une application pré-compilée...
Il y a 10 mois
03.5K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V : Génération dynamique et évolutive de textes vers des vidéos longues

Introduction complète StreamingT2V est un projet public développé par l'équipe de recherche en IA Picsart qui vise à générer des vidéos longues cohérentes, dynamiques et évolutives basées sur des descriptions textuelles. Cette technologie utilise une approche autorégressive avancée qui garantit la cohérence temporelle de la vidéo avec le texte de description...
Il y a 9 mois
03K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Conversion vocale basée sur la recherche WebUI : un cadre pour la conversion vocale basée sur la recherche simulant les voix de chant de la vie réelle

Introduction complète Conversion vocale basée sur l'extraction WebUI est un cadre de conversion vocale basé sur VITS, facile à utiliser, qui permet la conversion vocale entre n'importe quels locuteurs, y compris les reprises de chansons et les changements de voix en temps réel. Il a une faible ...
Il y a 10 mois
03.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft : Outil open source de clonage de la parole à zéro échantillon et de synthèse vocale

Introduction complète VoiceCraft est un outil open source d'édition de la parole et de synthèse vocale sans échantillon basé sur le modèle de langage du codec neuronal. Il utilise une méthode innovante de génération de séquences codées qui permet des opérations d'insertion, de suppression et de remplacement sur des séquences de parole existantes afin de générer une parole éditée naturelle et cohérente...
Il y a 10 mois
03.1K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev (Chat Nio) : solution unique de B/C pour les applications d'agrégation d'IA avec une facturation flexible et la prise en charge d'un modèle de plan d'abonnement

Introduction générale CoAI.Dev (anciennement Chat Nio) est une plateforme de chat qui intègre plusieurs modèles d'IA et prend en charge le streaming distribué, la génération d'images, la synchronisation et le partage des conversations entre appareils. Elle met en œuvre un système d'abonnement et de facturation par jeton, un service de...
Il y a 9 mois
03.4K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama : application locale de chat en temps réel basée sur Nuxt 3 et Ollama

Introduction ChatOllama est un projet d'application de chat en ligne open source basé sur un modèle de langue à grande échelle (LLM), prenant en charge de nombreux modèles de langue et la gestion d'une base de connaissances. Les utilisateurs peuvent utiliser la plateforme pour la gestion des modèles (affichage de la liste, téléchargement, suppression), le chat avec les modèles et d'autres fonctions. Le projet utilise ...
Il y a 10 mois
03.3K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Introduction complète MinerU est un outil d'extraction de données open source développé par l'équipe OpenDataLab du Shanghai Artificial Intelligence Laboratory, qui se concentre sur l'extraction efficace du contenu de documents PDF complexes, de pages web et de livres électroniques. Il est capable de prendre des PDF multimodaux contenant des images, des formules, des tableaux et d'autres éléments...
Il y a 11 mois
04.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net : un outil open source pour transposer des photos et des vidéos en animes stylisés

Introduction générale DCT-Net est un projet open source développé par DAMO Academy et Wang Xuan Institute of Computer Technology, Peking University, visant à animer la transformation stylisée des images. Le projet utilise des techniques d'apprentissage profond par le biais de la traduction calibrée par domaine (Domain-Calibrat...
Il y a 7 mois
03.2K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI : projet open source de navigation dans un outil d'IA léger

Introduction Tap4 AI WebUI est un projet open source de site web de navigation d'outils d'IA, conçu pour aider les utilisateurs à construire facilement leur propre catalogue d'outils d'IA. Le projet utilise les technologies Next.js et Supabase, ainsi que l'optimisation SEO multi-langues pour fournir des outils...
Il y a 10 mois
03.2K
CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版

CodeFormer : restauration d'images et de vidéos, restauration de vieilles photos, offre une version de déploiement en un clic

CodeFormer Introduction générale CodeFormer est une base de code pour la réparation robuste de visages aveugles, développée par une équipe de chercheurs du S-Lab, Nanyang Technological University et présentée à NeurIPS 2022. Le projet utilise un transformateur de recherche de codebook (C...
Il y a 11 mois
03.8K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi : un cadre de dialogue vocal en temps réel avec prise en charge de plusieurs langues et accents pour les modèles de base du dialogue vocal

Introduction générale Moshi Chat est un assistant vocal d'IA en temps réel de bout en bout conçu par Kyutai, un laboratoire d'IA français à but non lucratif. Il ne se contente pas d'écouter en temps réel, mais s'engage également dans des conversations naturelles et prend en charge les interactions multimodales, y compris la capacité de voir, d'entendre et de parler.Moshi Ch...
Il y a 11 mois
03K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything : un système de questions et réponses sur la base de connaissances locales avec des processus RAG hautement intégrés

QAnything Introduction détaillée QAnything (Question and Answer based on Anything) est un système de questions-réponses de base de connaissances locale lancé par NetEase, qui prend en charge toutes sortes de formats de fichiers et de bases de données, et qui peut être installé et utilisé hors ligne.....
Il y a 11 mois
03.1K
StickerBaker:用AI制作个性贴纸图片

StickerBaker : Créez des images autocollantes personnalisées grâce à l'IA

Description générale stickerbaker est un créateur d'autocollants open source qui utilise la technologie de l'intelligence artificielle pour créer une variété d'autocollants intéressants. Que vous vouliez un simple autocollant de chat ou que vous souhaitiez créer une série d'autocollants divers, stickerbaker peut répondre à vos besoins...
Il y a 11 mois
03.3K
ALog:便携AI语音日记应用,支持语音转文字。

ALog : application portable de journal vocal AI avec prise en charge de la synthèse vocale.

Introduction générale ALog est une application de journal vocal basée sur l'IA conçue pour aider les utilisateurs à enregistrer leur vie quotidienne par la voix. Elle est développée par duxins et en libre accès sur GitHub. Les utilisateurs peuvent enregistrer des entrées de journal par saisie vocale, et l'application convertit automatiquement la voix en texte...
Il y a 7 mois
03.7K
OpenSPG:开源知识图谱引擎

OpenSPG : moteur de graphe de connaissances open source

Introduction complète OpenSPG est un moteur de graphe de connaissances open source développé par Ant Group en collaboration avec OpenKG, basé sur le cadre SPG (Semantic Augmented Programmable Graph). Le moteur est conçu pour fournir des fonctionnalités telles que la représentation sémantique explicite, la définition de règles logiques et un cadre opérationnel pour soutenir la construction et la gestion de graphes de connaissances de domaine...
Il y a 11 mois
04K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0 : un projet open source qui fournit une couche de mémoire intelligente pour les assistants et agents d'IA

Introduction générale Mem0 (prononcé "mem-zero") est un projet open source qui fournit une couche de mémoire intelligente pour les assistants et agents IA. Il se souvient des préférences de l'utilisateur, s'adapte aux besoins individuels et s'améliore au fil du temps, ce qui le rend idéal pour les chatbots, les assistants d'IA et les systèmes autonomes...
Il y a 11 mois
03.9K
Void:基于VSCode的开源Cursor替代品

Void : une alternative au curseur basée sur le code VSCode

Introduction générale Void est une alternative open source à Cursor basée sur une branche du dépôt vscode. Il fournit un environnement de développement puissant conçu pour fournir aux développeurs une expérience de codage plus efficace. L'objectif de Void est d'améliorer continuellement ses fonctionnalités et sa stabilité grâce aux contributions de la communauté et à l'itération rapide...
Il y a 10 mois
03.7K
GaiaNet node:安装和运行自己的本地模型在线代理服务

Nœud GaiaNet : installez et exécutez votre propre modèle local de service proxy en ligne

Introduction générale GaiaNet-AI/gaianet-node est un projet open source qui permet aux utilisateurs d'installer rapidement la pile logicielle de nœuds par défaut sur Mac, Linux ou Windows WSL à l'aide d'une seule commande. Les utilisateurs peuvent initialiser les noeuds, personnaliser les configurations, télécharger...
Il y a 11 mois
02.8K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0 : basé sur le modèle d'OCR multimodal de bout en bout QWen2 0.5B

Introduction complète GOT-OCR2.0 est un modèle de reconnaissance optique de caractères (OCR) Open Source co-proposé par StepStar, qui vise à faire évoluer la technologie OCR vers OCR-2.0 grâce à un modèle unifié de bout en bout. Le modèle prend en charge un large éventail de tâches d'OCR, y compris la reconnaissance de textes normaux, de gr...
Il y a 11 mois
02.9K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine : Prédire la probabilité d'événements futurs sur la base de la connaissance de la recherche

Introduction générale Forecast AI est une superbe plateforme de prévision basée sur une technologie avancée d'intelligence artificielle. Elle utilise de puissants algorithmes d'analyse de données et d'apprentissage automatique pour fournir aux utilisateurs des prédictions très précises sur les événements futurs. Qu'il s'agisse d'élections politiques, de tendances économiques ou d'événements sociaux, Forecast ...
Il y a 11 mois
03.3K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS : Outils révolutionnaires de génération et de clonage de discours

Introduction complète GPT-SoVITS est un outil de conversion et de synthèse vocale open source qui combine le modèle GPT et la technologie de changement de voix SoVITS. L'outil prend en charge la conversion texte-parole à la volée avec zéro ou peu d'échantillons, et la migration de style de voix avec seulement 5 secondes d'échantillons audio. Ses fonctionnalités incluent la conversion ...
Il y a 11 mois
03.3K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan : outil de synthèse vocale multilingue rapide et contrôlable (plus de 7000 langues prises en charge)

Introduction générale IMS Toucan est une boîte à outils de synthèse vocale de pointe développée par l'Institut de traitement du langage naturel (IMS) de l'Université de Stuttgart, en Allemagne. Cette boîte à outils prend en charge plus de 7 000 langues. Elle est rapide, contrôlable et peu gourmande en ressources informatiques....
Il y a 6 mois
03.2K
PaddleOCR:基于飞桨的多语言OCR工具库,支持80多种语言识别

PaddleOCR : bibliothèque d'outils d'OCR multilingue basée sur Flying Paddle, prenant en charge la reconnaissance de plus de 80 langues.

Introduction PaddleOCR est une boîte à outils multilingue d'OCR basée sur PaddlePaddle, conçue pour fournir un système d'OCR pratique et ultra-léger. Il prend en charge la reconnaissance de plus de 80 langues et fournit des outils d'annotation et de synthèse des données pour...
Il y a 8 mois
03.7K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam : outil open source d'échange de visages en temps réel par l'IA, une photo pour l'échange de visages en temps réel

Introduction générale Deep Live Cam est un outil d'intelligence artificielle open source conçu pour permettre le remplacement de visages en temps réel et la génération de fausses vidéos à partir d'une seule photo. En utilisant des algorithmes avancés d'apprentissage profond, l'outil est capable de remplacer les visages en temps réel pendant la diffusion en direct ou les appels vidéo, en protégeant la vie privée de l'utilisateur et en ajoutant du plaisir...
Il y a 9 mois
03.5K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI : Narration cinématographique et télévisuelle générée par le texte et outil de montage automatisé

Introduction générale NarratoAI est un outil entièrement automatisé qui intègre la narration de films et de vidéos, l'édition automatisée, le doublage et la génération de sous-titres. Il s'appuie sur la technologie de modélisation du langage à grande échelle (LLM) pour générer automatiquement des textes et éditer automatiquement des vidéos avec les voix off et les sous-titres correspondants,...
Il y a 11 mois
03.3K
Vector Vein(向量脉络):无代码AI工作流构建平台

Vector Vein : Plate-forme de construction de flux de travail d'IA sans code

Introduction complète Vector Vein est une plateforme de construction de flux de travail d'IA sans code, conçue pour aider les utilisateurs à créer facilement des flux de travail intelligents et automatisés. Sans aucune base de programmation, les utilisateurs peuvent simplement connecter divers modules fonctionnels par des opérations de glisser-déposer pour construire des flux de travail d'IA complexes....
Il y a 8 mois
02.9K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait : Outil d'animation pour générer des portraits dynamiques à partir d'images fixes et de vidéos

Introduction générale LivePortrait est un outil avancé d'animation de portraits dynamiques développé par Racer Technology. Il utilise une technologie d'IA innovante pour transformer des images fixes en animations vidéo vivantes. Que vous utilisiez des photos réelles, des styles d'animation ou des portraits artistiques, LivePo...
Il y a 9 mois
03.3K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData : construire des intelligences IA avec de la mémoire, des connaissances et des outils

Introduction complète PhiData est un framework conçu pour développer des assistants intelligents. Il permet aux assistants intelligents d'engager des conversations à long terme, de fournir un contexte commercial précis et d'effectuer diverses opérations grâce à une mémoire améliorée, à l'intégration des connaissances et à des capacités d'invocation d'outils.
il y a 5 mois
03.2K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS : un modèle de génération de la parole qui imite la voix d'une personne réelle qui parle (ChatTTS one-click acceleration package)

Introduction générale ChatTTS est un modèle de parole génératif conçu pour les scénarios de dialogue. Il génère une parole naturelle et expressive, prend en charge plusieurs langues et plusieurs locuteurs, et convient aux dialogues interactifs. Pour ce faire, le modèle prédit et contrôle des caractéristiques rythmiques fines telles que les rires, les pauses et les interjections, sup...
Il y a 6 mois
03.2K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus : outil d'IA pour générer des vidéos courtes en un clic, mélange par lots gratuit

Introduction complète MoneyPrinterPlus est un projet open source visant à générer et à mélanger toutes sortes de courtes vidéos en un seul clic grâce à la technologie de l'IA et à les publier automatiquement sur plusieurs plateformes vidéo, telles que Jieyin, Shutterbugs, Xiaohongshu et Video Number. L'outil prend en charge les modèles vocaux locaux et basés sur le...
Il y a 11 mois
03.5K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI : une application de chat IA open-source qui imite l'interface et les fonctionnalités de ChatGPT

Introduction générale Chatbot UI est un projet open source conçu pour aider les développeurs à créer des interfaces conversationnelles personnalisées et intelligentes. Le projet fournit une série de composants d'interface et de fonctionnalités interactives qui peuvent être facilement intégrés dans le système Chatbot existant afin de fournir aux utilisateurs un corps de dialogue plus fluide et plus intelligent....
Il y a 11 mois
04.6K
GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面

Interface graphique GLIGEN : contrôle précis de la position des éléments de l'image, interface graphique intuitive basée sur ComfyUI

Introduction générale GLIGEN GUI est une interface graphique intuitive basée sur ComfyUI, conçue pour simplifier l'utilisation du modèle GLIGEN, un nouveau modèle texte-image qui permet de spécifier avec précision la position des objets dans une image. Avec GLIGE...
Il y a 11 mois
02.8K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit : kit d'outils vocaux pour un déploiement local

Introduction complète Easy-Voice-Toolkit est une boîte à outils multifonctionnelle basée sur l'Open Source Speech Project, fournissant une large gamme d'outils audio automatisés pour la reconnaissance vocale, la transcription vocale, la conversion vocale, la création d'ensembles de données et l'entraînement de modèles. Les utilisateurs peuvent utiliser ces outils de manière sélective en fonction de leurs besoins...
Il y a 11 mois
03.4K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion : Outil d'amélioration de l'échange de visages sur vidéo | Synchronisation de la voix Mouvements de la bouche sur vidéo

Description générale FaceFusion est une plateforme cloud de pointe avec des capacités intégrées d'échange et d'amélioration du visage qui optimise le processus d'échange d'image à vidéo et d'image à image avec 5 modèles professionnels pour garantir un résultat sans faille. Elle optimise le processus d'échange d'image à vidéo et d'image à image avec 5 modèles professionnels pour garantir un résultat sans faille. En outre, elle améliore le visage avec 7 modèles en utilisant 3...
Il y a 6 mois
05.5K
Kotaemon:简单部署的开源多模态文档问答工具

Kotaemon : un outil de quiz sur les documents multimodaux, simple à déployer et open source

Introduction générale Kotaemon est un outil de Q&A documentaire open source conçu pour fournir aux utilisateurs finaux et aux développeurs des fonctionnalités de Q&A basées sur la Génération Augmentée de Récupération (RAG). Le projet a été développé par Cinnamon et supporte une variété de fournisseurs d'API LLM (par exemple OpenA...
Il y a 11 mois
03.4K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos : outil open source de création de photos d'identité intelligentes par l'IA

Introduction complète HivisionIDPhotos est un outil de production de photos de documents AI léger et open source, capable d'identifier intelligemment la scène de la photo de l'utilisateur et le keying, afin de générer une photo de document standard conforme à une variété de spécifications. L'outil prend en charge les couleurs et les tailles d'arrière-plan personnalisées et, à l'avenir, il...
Il y a 11 mois
03.2K
Marker:快速将PDF转换为Markdown的开源工具

Marker : conversion rapide de PDF en Markdown outils open source

Introduction générale Marker est un outil de traitement de documents basé sur l'apprentissage profond, conçu pour convertir rapidement et précisément des fichiers PDF au format Markdown. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques....
il y a 5 mois
04.7K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker : Faire parler les photos | Audio Synchronisation de la bouche | Vidéo Synchronisation de la bouche synthétisée | Personnes numériques gratuites

Introduction générale SadTalker est un outil open source qui combine une simple photo de portrait avec un fichier audio pour créer des vidéos d'avatars parlants réalistes pour un large éventail de scénarios tels que des messages personnalisés, des contenus éducatifs et bien plus encore. L'utilisation révolutionnaire de technologies de modélisation 3D telles que ExpNet et PoseVA...
Il y a 6 mois
03.5K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking : Système de synchronisation labiale et de montage vidéo piloté par le son

Introduction générale VideoReTalking est un système innovant qui permet à l'utilisateur de générer des vidéos faciales synchronisées avec les lèvres sur la base de l'audio d'entrée, produisant des vidéos de sortie de haute qualité et synchronisées avec les lèvres, même avec des émotions différentes. Le système décompose cet objectif en trois tâches consécutives : avec des expressions typiques...
Il y a 8 mois
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk : Cadre complet de génération de vidéos humaines numériques - du portrait à la vidéo - de la pose à la vidéo - de la synchronisation labiale

Introduction générale MuseV est un projet public sur GitHub visant à générer des vidéos d'avatars de longueur illimitée et de haute fidélité. Il est basé sur la technologie de diffusion et fournit Image2Video, Text2Image2Video, Video2Video...
Il y a 8 mois
05.6K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction complète Unstructured-IO fournit un ensemble de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. Son objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les grands modèles de langage (LL...
Il y a 11 mois
03.5K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown

Introduction générale magic-html est une bibliothèque Python conçue pour simplifier le processus d'extraction du contenu de la région du corps à partir du HTML. Qu'il s'agisse de structures HTML complexes ou de simples pages web, cette bibliothèque vise à fournir une interface pratique et efficace aux utilisateurs. Elle supporte l'extraction multimodale...
Il y a 11 mois
02.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot : outil de traitement intelligent de l'information sur le Web, API gratuite pour la capture de contenu Web

WebPilot Introduction générale WebPilot est un "assistant web" gratuit et open source qui vous permet de communiquer librement avec n'importe quelle page web ou d'effectuer des tâches automatisées. Vous n'avez pas besoin de changer de page ou de copier-coller, il vous suffit de sélectionner du texte ou d'entrer des commandes, webpilot...
Il y a 12 mois
03.8K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT : Construction d'un cadre de développement d'applications de données natives de l'IA, intégrant la gestion multi-modèle et le traitement intelligent des données

Introduction DB-GPT est un cadre open source de développement d'applications de données natives de l'IA construit à l'aide d'AWEL (Agentic Workflow Expression Language) et des technologies du corps intelligent. Le projet vise à construire une infrastructure dans le domaine des grands modèles...
il y a 5 mois
03K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk : générez des vidéos parlantes expressives avec une seule image d'avatar !

DreamTalk Introduction complète DreamTalk est un cadre de génération de têtes parlantes basé sur un modèle de diffusion et développé conjointement par l'université de Tsinghua, le groupe Alibaba et l'université des sciences et technologies de Huazhong. Il se compose principalement de trois parties : un réseau de réduction du bruit, un expert en lèvres conscient du style et un prédicteur de style, qui peut être basé sur...
Il y a 8 mois
03.3K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID : téléchargez une image et migrez les fonctions de portrait pour générer différents styles d'images.

Introduction complète InstantID est une technologie avancée qui permet de générer des images avec des styles ou des poses personnalisés en quelques secondes, tout en garantissant un niveau élevé de fidélité à l'aide d'une seule image d'identification de référence. La technologie utilise une solution basée sur un modèle de diffusion en intégrant des images faciales, des cartes de repères...
Il y a 12 mois
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master version chinoise : Outil de mots clés pour optimiser la génération de portraits

Introduction générale ComfyUI Portrait Master version chinoise est un outil de génération de mots-clés pour les portraits conçu pour les créateurs d'images d'IA. L'outil aide les utilisateurs à générer des portraits de haute qualité en optimisant les mots-clés. Les utilisateurs peuvent choisir différents objectifs en fonction de la demande...
Il y a 12 mois
03.8K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint : outil polyvalent de traitement d'images AI, permettant d'effacer, de développer, de remplacer des éléments et de dessiner du texte.

Introduction générale IOPaint est un outil de traitement d'images IA gratuit et open source qui permet d'effacer, de réparer et d'agrandir les images. Il utilise des modèles d'IA de pointe pour aider les utilisateurs à supprimer facilement les objets indésirables des images, à réparer les défauts, à ajouter un nouveau contenu et même à agrandir les images.IOPa...
Il y a 10 mois
015.3K