Projet open source sur l'IA

Total 1020 articles
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT : Interface de chat AI pour visualiser les conversations basées sur les arbres

Introduction générale TreeGPT est une application de chat open source basée sur Next.js, qui se concentre sur la visualisation des conversations avec de grands modèles de langage (LLM, par exemple, GPT) à travers des structures de graphes arborescents (graphes acycliques dirigés, DAG), remplaçant les méthodes de chat linéaires traditionnelles pour améliorer la vitesse et la...
Il y a 6 mois
03K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio : Intégrer facilement de multiples modèles d'IA et construire des applications multimodales basées sur Gradio

Introduction générale ai-gradio est une boîte à outils Python open source conçue pour aider les développeurs à intégrer et à utiliser facilement plusieurs modèles d'IA. Construit sur Gradio, le projet fournit une interface unifiée pour prendre en charge plusieurs modèles et services d'IA. Qu'il s'agisse de texte, de parole ou de vidéo...
Il y a 6 mois
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit : un outil tout-en-un pour la restauration et l'édition d'images lancé par Tencent ARC

Introduction BrushEdit est un outil de réparation et d'édition d'images tout-en-un développé par Tencent ARC Labs. L'outil est basé sur la dernière technologie d'intelligence artificielle et est capable d'identifier et de réparer automatiquement les défauts des images, tout en prenant en charge l'édition interactive par les utilisateurs.BrushEdit combine...
Il y a 8 mois
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic : Des images de portraits audio génèrent des vidéos de démonstration numériques avec des expressions faciales vivantes.

Introduction générale Sonic est une plateforme innovante axée sur la perception audio globale, qui vise à générer des portraits animés par l'audio. Développée par une équipe de chercheurs de Tencent et de l'université de Zhejiang, la plateforme utilise les informations audio pour contrôler les expressions faciales et les mouvements de tête afin de générer des vidéos animées naturelles et fluides....
Il y a 4 mois
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT : Création de courtes vidéos narrées ou de résumés vidéo pour de longues vidéos en un clic à l'aide des modèles Gemini

Introduction AI2SRT est un projet open source qui utilise le grand modèle GeminiAI pour générer en un clic de courtes vidéos narrées et des résumés vidéo pour de longues vidéos, tout en prenant en charge les sous-titres de transcription audio et vidéo. Le projet vise à simplifier le processus de création de contenu vidéo et à fournir des fonctions efficaces de génération et de traduction de sous-titres. Les utilisateurs peuvent passer...
Il y a 8 mois
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer : un assistant de codage expérimental basé sur l'API DeepSeek, avec des mots repères.

Description générale DeepSeek Engineer est un puissant outil d'aide à la programmation basé sur l'API DeepSeek qui interagit avec l'utilisateur par le biais d'une interface de ligne de commande intuitive pour l'aider dans une variété de tâches de développement de logiciels. L'outil combine la puissance de la modélisation du langage à grande échelle avec...
Il y a 6 mois
02.9K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

Markdown To Poster : convertir Markdown en médias sociaux/petites affiches rouges avec édition en ligne et support de déploiement en un clic.

Description générale Markdown to Image est un composant React permettant de rendre un texte Markdown en images visuellement attrayantes pour les médias sociaux. Le projet comprend également un éditeur web intégré qui peut être utilisé comme un éditeur en ligne Markdown to poster...
Il y a 9 mois
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG : un outil d'évaluation visuelle pour optimiser les systèmes de génération d'amélioration de la recherche.

Introduction complète XRAG (eXamining the Core) est un cadre d'analyse comparative conçu pour évaluer les composants sous-jacents des systèmes avancés de génération d'augmentation de la recherche (RAG). En profilant et en analysant chaque module de base, XRAG fournit des informations sur la manière dont les différentes configurations et les différents composants affectent...
Il y a 7 mois
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS : modèle expérimental de synthèse vocale, TTS mis en œuvre à l'aide d'une approche de modélisation du langage pur

Introduction complète OuteTTS est un modèle expérimental de synthèse vocale qui utilise une approche de modélisation du langage pur pour générer une parole de haute qualité. Contrairement aux systèmes TTS traditionnels, OuteTTS ne nécessite pas d'adaptateurs externes ou d'architectures complexes. Le modèle est basé sur l'architecture LLaMa...
Il y a 6 mois
02.9K
Supermemory:导入书签和网页内容构建个人知识库

Supermemory : Importer des signets et du contenu web pour construire une base de connaissances personnelle

Introduction générale Supermemory est un projet open source conçu pour aider les utilisateurs à construire leur "deuxième cerveau". Grâce à une puissante extension Chrome et à une technologie d'intelligence artificielle, il permet aux utilisateurs de sauvegarder, d'organiser et de récupérer facilement des données à partir de pages web, de signets Twitter...
Il y a 6 mois
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft : Outil open source de clonage de la parole à zéro échantillon et de synthèse vocale

Introduction complète VoiceCraft est un outil open source d'édition de la parole et de synthèse vocale sans échantillon basé sur le modèle de langage du codec neuronal. Il utilise une méthode innovante de génération de séquences codées qui permet des opérations d'insertion, de suppression et de remplacement sur des séquences de parole existantes afin de générer une parole éditée naturelle et cohérente...
Il y a 10 mois
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM : Assistant de programmation Vim natif piloté par LLM, programmation intelligente en toute sécurité hors ligne

Introduction générale VimLM est un plugin Vim qui fournit un assistant de code piloté par le LLM (Large Language Model) natif. Interagissant avec le modèle LLM natif par le biais de commandes Vim, il obtient automatiquement le contexte du code et aide les utilisateurs à éditer du code dans Vim....
Il y a 6 mois
02.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Introduction générale Ichigo est un projet open source d'IA vocale en temps réel qui vise à étendre les modèles de langage basés sur le texte avec des capacités d'écoute natives. Le projet utilise des techniques de fusion précoces inspirées de l'article de Meta sur le caméléon....
Il y a 7 mois
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V : Génération dynamique et évolutive de textes vers des vidéos longues

Introduction complète StreamingT2V est un projet public développé par l'équipe de recherche en IA Picsart qui vise à générer des vidéos longues cohérentes, dynamiques et évolutives basées sur des descriptions textuelles. Cette technologie utilise une approche autorégressive avancée qui garantit la cohérence temporelle de la vidéo avec le texte de description...
Il y a 9 mois
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate : une API unifiée pour l'intégration de la génération de parole Well-Known, de la transcription de la parole et de la modélisation de la voix

Introduction générale Orate est une boîte à outils d'IA axée sur la génération et la transcription de la parole. Il fournit une API unifiée qui s'intègre de manière transparente avec les principaux fournisseurs d'IA tels que OpenAI, ElevenLabs et AssemblyAI afin d'aider les utilisateurs à créer des...
Il y a 6 mois
02.9K
Agentarium : gestion et coordination des interactions entre plusieurs intelligences IA

Agentarium : gestion et coordination des interactions entre plusieurs intelligences IA

Introduction générale Agentarium est un puissant framework Python dédié à la gestion et à l'orchestration d'agents intelligents d'IA (Agents). Le framework fournit un moyen flexible et intuitif de créer, gérer et orchestrer les interactions entre plusieurs agents d'IA. Il utilise A...
Il y a 7 mois
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP : un protocole open source pour une communication sécurisée et efficace entre agents intelligents

Introduction générale AgentNetworkProtocol (ANP en abrégé) est un projet de protocole open source, hébergé sur GitHub, visant à fournir des solutions de communication sécurisées et efficaces pour les agents intelligents (AI Agents). Il fonctionne selon une architecture à trois niveaux - identité et cryptage...
il y a 5 mois
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor : Base de connaissance + LLM Intelligent Code Review Mentor pour GitHub

Introduction complète CR-Mentor est un outil intelligent de révision de code qui combine une base de connaissances professionnelle avec la puissance de la modélisation des grands langages (LLM). Il prend non seulement en charge l'examen du code pour tous les langages de programmation, mais il personnalise également des critères d'examen exclusifs et des domaines d'intérêt pour les équipes sur la base des meilleures pratiques accumulées dans la base de connaissances. Grâce à...
Il y a 9 mois
02.9K
Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

Open-LLM-VTuber : un compagnon virtuel d'IA animé en Live2D pour une interaction vocale en temps réel

Introduction générale Open-LLM-VTuber est un projet open source qui permet aux utilisateurs d'interagir avec de grands modèles de langage (LLM) par le biais de la parole et du texte, et qui intègre la technologie Live2D pour présenter des personnages virtuels dynamiques. Il est compatible avec Windows, macOS et Linux, et peut être entièrement...
il y a 5 mois
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent : le modèle de langage visuel intelligent Open Source de Smart Spectrum pour l'automatisation des interfaces graphiques

Introduction complète CogAgent est un modèle de langage visuel open source développé par le groupe de recherche sur l'exploration des données de l'université de Tsinghua (THUDM), visant à automatiser le fonctionnement de l'interface utilisateur graphique (GUI) sur toutes les plates-formes. Le modèle est basé sur CogVLM (GLM-4V-9B) et prend en charge les...
Il y a 8 mois
02.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT : système de traitement de documents PDF et de questions-réponses basé sur FastAPI

Introduction générale FastAPI DocGPT est un système de quiz basé sur FastAPI qui permet aux utilisateurs de télécharger des fichiers PDF et de répondre à des quiz basés sur le contenu du document. Le système utilise la technologie d'intégration d'OpenAI pour intégrer le contenu des documents dans une base de données vectorielle Q...
Il y a 9 mois
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock : outil d'analyse boursière basé sur l'IA, suivi en temps réel de cotations boursières sélectionnées par l'utilisateur et analyse approfondie basée sur l'IA

Introduction complète go-stock est un outil d'analyse boursière basé sur l'IA et construit sur Wails et NaiveUI. L'outil est capable de surveiller en temps réel les cotations boursières, d'afficher les coûts et les profits/pertes et de déclencher des alarmes. Toutes les données sont sauvegardées localement pour...
Il y a 6 mois
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Générateur llms.txt : capturez rapidement le contenu d'un site web et générez des ensembles de données textuelles de formation LLM.

Introduction complète llmstxt-generator est un outil professionnel d'extraction et d'intégration de contenu web dédié à la préparation d'ensembles de données textuelles de haute qualité pour l'entraînement et l'inférence dans le cadre de la modélisation du langage étendu (LLM). L'outil a été développé par Mendable AI en utilisant @firec...
Il y a 7 mois
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla : un outil de chat minimaliste basé sur des points d'accès avec une intégration native au backend d'Ollama.

Description générale Charla est une application de chat basée sur un point d'accès et conçue pour engager un dialogue avec des modèles de langue maternelle. L'application s'intègre au backend Ollama, prend en charge le dialogue contextuel et enregistre les sessions de chat sous forme de fichiers Markdown. Les utilisateurs peuvent simplement...
Il y a 7 mois
02.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit : Twitter Data Crawl and Analytics pour les données des utilisateurs et les tweets de X

Introduction générale X-Kit est un outil open source conçu pour explorer et analyser les données et les tweets des utilisateurs de X (anciennement Twitter). Développé par l'utilisateur GitHub xiaoxiunique, l'outil est conçu pour aider les utilisateurs à automatiser le processus d'obtention d'informations de base et de tweets sur un utilisateur X donné et...
Il y a 8 mois
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V : Apprentissage par renforcement à faible coût pour la capacité de généralisation des modèles de langage visuel

Introduction complète R1-V est un projet open source qui vise à réaliser des percées dans la modélisation du langage visuel (VLM) grâce à l'apprentissage par renforcement (RL) à faible coût. Le projet utilise des mécanismes de récompense vérifiables pour motiver les VLM à apprendre des capacités de comptage génériques. Étonnamment, le 2B de R1-V ...
Il y a 6 mois
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio : un cadre d'interaction vocale multimodale qui reconnaît la parole et communique à l'aide de la parole clonée, entre autres caractéristiques.

Introduction complète Step-Audio est un cadre d'interaction vocale intelligente open source conçu pour fournir des capacités de compréhension et de génération vocales prêtes à l'emploi pour les environnements de production. Le cadre prend en charge les conversations multilingues (par exemple, le chinois, l'anglais, le japonais), les discours émotionnels (par exemple, heureux, triste), les dialectes régionaux (par exemple, le cantonais, le sichuan ...
Il y a 6 mois
02.9K
Laminar:开源AI产品工程化平台,轻松实现数据可视化追踪与评估

Laminar : plateforme open source d'ingénierie des produits d'IA pour faciliter la visualisation, le suivi et l'évaluation des données

Introduction complète Laminar est une plateforme open source d'optimisation de l'ingénierie de l'IA axée sur l'ingénierie de l'IA à partir des premiers principes. Elle aide les utilisateurs à collecter, comprendre et utiliser les données pour améliorer la qualité des applications LLM (Large Language Modelling)....
Il y a 8 mois
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm : un projet pédagogique expérimental pour l'apprentissage de systèmes corporels légers et multi-intelligents (exemple OpenAI)

Introduction générale Swarm est un cadre éducatif expérimental développé par OpenAI pour explorer des interfaces légères, contrôlées et faciles à tester pour les systèmes multi-agents. Le cadre est principalement utilisé pour démontrer les transferts et les modèles de routine entre les agents, aidant les développeurs à comprendre et à mettre en œuvre la coordination et l'exécution des systèmes multi-agents...
Il y a 7 mois
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT : modèle de transfert de maquillage hiérarchique autosupervisé, maquillage virtuel, migration du maquillage vers de nouveaux portraits.

Introduction SHMT (Self-supervised Hierarchical Makeup Transfer) est un projet de migration hiérarchique de maquillage auto-supervisé basé sur un modèle de diffusion latent, visant à obtenir des effets de maquillage de haute qualité grâce à des méthodes d'apprentissage non supervisées....
Il y a 7 mois
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension : extension de navigateur permettant de synchroniser le contenu généré par l'IA avec les plateformes d'autoédition en un seul clic

Introduction générale MultiPost-Extension est une puissante extension de navigateur conçue pour aider les utilisateurs à publier du contenu sur plusieurs plateformes de médias sociaux en un seul clic. L'extension prend en charge la publication simultanée sur plus de 10 plateformes principales, y compris Zhihu, Weibo, Xiaohongshu, TikTok ...
Il y a 6 mois
02.9K
AI Video Starter Kit:在浏览器中全流程创作并编辑AI视频

Kit de démarrage vidéo sur l'IA : création et édition de vidéos sur l'IA dans le navigateur, en toute fluidité

Introduction générale Video Starter Kit (Video Starter Kit) est un projet open source publié par fal-ai-community pour montrer comment utiliser des modèles d'IA pour la production de vidéos dans le navigateur. Il fournit des outils pour convertir des images en vidéo à partir de...
Il y a 7 mois
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM : service de raisonnement LLM reposant sur des données externes de graphe de connaissances en temps réel

Introduction complète Diffbot LLM Reasoning Server est un système innovant de modélisation du langage à grande échelle avec des optimisations et des améliorations spéciales basées sur l'architecture du modèle LLama. La caractéristique la plus importante du projet est l'intégration d'un graphe de connaissances en temps réel avec une génération...
Il y a 7 mois
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo : un petit modèle open source pour un raisonnement mathématique efficace et la génération de code

Introduction générale MiMo est un projet open source de modélisation de grands langages développé par Xiaomi, qui se concentre sur le raisonnement mathématique et la génération de code. Le produit principal est la famille de modèles MiMo-7B, qui contient un modèle de base (Base), un modèle de réglage fin supervisé (SFT), un modèle chimique fort formé à partir du modèle de base...
Il y a 3 mois
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest : Le premier modèle léger et performant de type End-Side Big Model au monde

Introduction générale ModelBest est une entreprise qui se concentre sur le développement de grands modèles légers et très performants, et qui se consacre à l'application de technologies d'IA avancées à l'électronique grand public et à tous les types d'appareils finaux de la vie quotidienne. Sa série MiniCPM de modèles d'extrémité dotés d'une puissance arithmétique et d'une efficacité d'utilisation de la mémoire extrêmes...
Il y a 10 mois
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume : générateur de CV libre et open source avec support multi-langues et multi-modèles

Description générale Reactive Resume est un outil de création de CV gratuit et open source conçu pour simplifier le processus de création, de mise à jour et de partage des CV. La plateforme met l'accent sur la confidentialité de l'utilisateur, sans traçage ni publicité. Les utilisateurs peuvent auto-héberger l'application en moins de 30 secondes, en prenant le contrôle total de leur...
Il y a 8 mois
02.9K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

Quanta Quest : plateforme de recherche de grands modèles et d'IA localisée pour les données personnelles (avant-première)

Introduction Quanta Quest est le premier produit au monde dont l'axe d'évolution principal est "big model end-side + C-side data localisation". Il permet aux utilisateurs de stocker localement toutes les données de Gmail, Notion, Dropbox, etc. et de les traiter à l'aide d'une base de données vectorielle pour...
Il y a 10 mois
02.9K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme : Générer localement une expression de haute fidélité, une action cohérente d'une image ou d'une vidéo, Runway Act one open source ping pong !

Introduction HelloMeme est un projet open source développé par HelloVision, qui vise à intégrer des bandes de haut niveau et de haute fidélité dans les modèles de diffusion en intégrant les Spatial Knitting Attentions...
Il y a 8 mois
02.9K
RF-DETR:实时视觉对象检测开源模型

RF-DETR : un modèle open source pour la détection d'objets visuels en temps réel

Introduction complète RF-DETR est un modèle de détection d'objets open source développé par l'équipe Roboflow. Il est basé sur l'architecture Transformer et sa caractéristique principale est l'efficacité en temps réel. Pour la première fois, le modèle atteint plus de 60 AP en temps réel sur l'ensemble de données Microsoft COCO...
il y a 5 mois
02.9K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser : Génération de code d'automatisation du navigateur pour transformer les actions de la souris en scripts Selenium Python via l'IA

Introduction générale AutoMouser est une extension Chrome qui suit intelligemment les interactions de l'utilisateur et génère automatiquement du code de test Selenium en utilisant les modèles GPT d'OpenAI. Pour ce faire, il enregistre les actions du navigateur de l'utilisateur et les convertit...
Il y a 7 mois
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic : moteur de recherche open-source alimenté par l'IA offrant des questions-réponses intelligentes, la recherche de vidéos et la génération de code d'interface utilisateur

Introduction générale Morphic est un moteur de recherche basé sur la technologie de l'intelligence artificielle avec une interface utilisateur générative conçue pour fournir des questions et réponses intelligentes et une expérience de recherche efficace. Les utilisateurs peuvent effectuer une variété de recherches avec Morphic, y compris des textes, des vidéos, etc., et peuvent enregistrer l'historique de recherche et partager les résultats de recherche.
Il y a 9 mois
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

Agrégateur : plateforme unique de recherche et d'agrégation d'agents, pool d'agents gratuits (à utiliser dans le respect des règles).

Comprehensive introduction Aggregator est un projet open source visant à créer un pool de proxy gratuit qui peut crawler une variété de nœuds de proxy disponibles. La plateforme dispose d'un système de plug-in flexible, les utilisateurs peuvent selon les besoins spéciaux du site cible, à travers des plug-ins pour réaliser des fonctions spécifiques. Le projet est principalement utilisé pour apprendre à crawler ...
Il y a 9 mois
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp : une plateforme de développement et de gestion d'IA multi-intelligence basée sur .NET

Introduction complète BotSharp est un projet open source basé sur .NET Core dédié à fournir un outil complet de construction de plateforme de chatbot IA. Il utilise la programmation C#, supporte les opérations multiplateformes et vise à simplifier l'application des algorithmes d'apprentissage automatique, permettant aux développeurs...
Il y a 7 mois
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite : style d'interface OpenAI unifié appelant plusieurs grands modèles, changement de modèle rapide et tests de comparaison

Introduction complète aisuite est une interface simple et unifiée conçue pour permettre aux développeurs d'invoquer facilement les services de plusieurs fournisseurs d'IA générative. Avec une interface similaire à celle d'OpenAI, aisuite facilite l'interaction avec les LLM (Large Language Models) les plus populaires...
Il y a 9 mois
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent : génération et évaluation automatiques de présentations PPT, de documents à PPT

Introduction générale PPTAgent est un système innovant conçu pour générer automatiquement des présentations à partir de documents. Le système s'inspire de l'approche humaine de la création de présentations, en utilisant un processus en deux étapes pour garantir la qualité du contenu et l'impact visuel. De plus, PPTAgent introduit PPTEval, un outil complet de...
Il y a 7 mois
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot : un assistant IA pour la génération de descriptions de texte ComfyUI workflows

Introduction complète ComfyUI-Copilot est un nœud personnalisé piloté par l'IA conçu pour le framework ComfyUI, visant à améliorer l'efficacité du débogage et du déploiement des algorithmes d'IA grâce à l'interaction avec le langage naturel. Il est développé par l'équipe AIDC-AI (Alibaba) et dérivé de GitHu...
Il y a 6 mois
02.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

Introduction générale Outlines est une bibliothèque open source développée par dottxt-ai pour améliorer l'application des grands modèles de langage (LLM) par la génération de textes structurés. La bibliothèque prend en charge une variété d'intégrations de modèles, y compris OpenAI, les transformateurs...
Il y a 6 mois
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Introduction générale Chatlog est un outil open source qui se concentre sur l'extraction et l'interrogation des journaux de chat à partir de la base de données locale de WeChat. Il prend en charge les versions 3.x et 4.0 de WeChat, pour les systèmes Windows et macOS. Les utilisateurs peuvent utiliser la ligne de commande, l'interface terminal ou H...
Il y a 4 mois
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree : un moteur de recherche IA qui mélange des bases de connaissances locales avec des informations de recherche

Introduction générale MemFree est un moteur de recherche hybride avancé capable de rechercher et de poser des questions à travers des textes, des images, des documents et des pages web. Il fournit un accès en un seul clic aux résultats de recherche pour les textes, les cartes mentales, les images et les vidéos. Il permet d'accéder en un seul clic aux résultats de recherche de textes, de cartes heuristiques, d'images et de vidéos....
Il y a 10 mois
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow : Un cadre minimaliste pour le développement d'applications d'IA en 100 lignes de code

Introduction PocketFlow est un framework léger de développement d'applications IA avec seulement 100 lignes de code, développé par l'équipe de The-Pocket et open source sur GitHub. Il poursuit une conception minimaliste, le contrôle du code de base en 100 lignes, aucune dépendance externe ...
il y a 5 mois
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni : un modèle de mesure finale pour la saisie multimodale et l'interaction vocale en temps réel

Introduction détaillée Qwen2.5-Omni est un modèle d'IA multimodale open source développé par l'équipe Qwen d'Alibaba Cloud. Il peut traiter de multiples entrées telles que du texte, des images, de l'audio et de la vidéo, et générer des réponses textuelles ou vocales naturelles en temps réel. Le modèle a été lancé en 2025, le 3 ...
il y a 5 mois
02.9K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM : Intégration de plusieurs sources de données dans un seul fichier texte

Introduction OneFileLLM est un outil de ligne de commande open source conçu pour consolider plusieurs sources de données en un seul fichier texte afin de faciliter l'entrée dans les grands modèles de langage (LLM). Il permet de traiter les dépôts GitHub, les articles ArXiv, les transcriptions de vidéos YouTube, les...
Il y a 4 mois
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork : un corps intelligent qui commande des ordinateurs par la voix et le texte et qui fournit un retour d'information vocal en temps réel.

Introduction générale TankWork est un agent de bureau open source conçu pour permettre à l'IA de percevoir et de contrôler votre ordinateur grâce à la vision par ordinateur et à l'interaction au niveau du système. Le cadre permet aux agents de contrôler directement les ordinateurs par le biais de commandes vocales et textuelles, de traiter le contenu de l'écran en temps réel et de fournir des...
Il y a 7 mois
02.9K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI : projet open source de navigation dans un outil d'IA léger

Introduction Tap4 AI WebUI est un projet open source de site web de navigation d'outils d'IA, conçu pour aider les utilisateurs à construire facilement leur propre catalogue d'outils d'IA. Le projet utilise les technologies Next.js et Supabase, ainsi que l'optimisation SEO multi-langues pour fournir des outils...
Il y a 10 mois
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell) : Clonage instantané de la parole dans plusieurs langues avec quelques exemples

Introduction générale OpenVoice est une méthode polyvalente de clonage vocal instantané qui vous permet de copier la voix d'un locuteur de référence et de générer un discours multilingue en utilisant uniquement de courts clips audio du locuteur. En plus de copier les tons, OpenVoice permet de contrôler finement le style de la voix, y compris les émotions...
Il y a 10 mois
02.9K
Orama:高性能全文本和向量搜索引擎

Orama : un moteur de recherche performant pour les livres en texte intégral et les vecteurs

Introduction générale Orama est un moteur de recherche open source de haute performance , écrit entièrement en TypeScript , supportant la recherche plein texte , la recherche vectorielle et la recherche hybride .Orama est conçu pour fonctionner dans n'importe quel environnement d'exécution JavaScript , fournissant des ...
Il y a 7 mois
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat : personne numérique interactive vocale en temps réel avec clonage d'images et de tonalités personnalisées, prenant en charge des solutions vocales de bout en bout et des solutions en cascade.

Introduction générale VideoChat est un projet de personne numérique d'interaction vocale en temps réel basé sur une technologie open source, supportant à la fois les schémas vocaux de bout en bout (GLM-4-Voice - THG) et les schémas en cascade (ASR-LLM-TTS-THG). Le projet permet aux utilisateurs de personnaliser les ...
Il y a 9 mois
02.9K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine : traduction d'applications à l'aide de l'IA, compatible avec toutes les principales bibliothèques i18n

Introduction générale Languine est un puissant outil de traduction développé par Midday pour aider les développeurs à rationaliser le processus de localisation de leurs applications. Avec Languine, les développeurs peuvent tirer parti de la technologie de l'IA pour générer rapidement des traductions précises et contextualisées....
Il y a 8 mois
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance : l'API du modèle Gemini est compatible avec le format OpenAI, ce qui permet de lever les restrictions régionales et de prendre en charge l'interrogation de clés multi-API.

Introduction complète Gemini Balance est un service proxy d'API OpenAI développé sur la base du framework FastAPI, visant à fournir une gestion efficace des clés multi-API et des fonctionnalités d'optimisation. Le projet prend en charge les appels de modèle Gemini, et les principales...
Il y a 4 mois
02.8K
DSPy Examples:展示DSPy功能的实用示例

Exemples DSPy : exemples pratiques démontrant les fonctionnalités de DSPy

Introduction générale La DSPy Example Codebase est une base de code GitHub maintenue par l'équipe Langtrace AI qui présente une variété d'exemples de programmes d'IA construits en utilisant DSPy. La base de code est conçue pour démontrer les nombreuses fonctionnalités de DSPy à travers des exemples réels afin d'aider les développeurs à mieux comprendre...
Il y a 6 mois
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish : intelligences multirôles examinant, validant et formatant les résultats pour produire des résultats de haute qualité

Introduction complète Kheish est un agent multirôle open source conçu pour les tâches de modélisation des grands langages (LLM) qui nécessitent une collaboration structurée, étape par étape. Kheish est plus qu'un simple coordinateur, c'est un agent intelligent à part entière, qui demande des modules à la demande, intègre des...
Il y a 7 mois
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

Assistant exécutif AI : assistant exécutif AI, rappels pour lire les courriels et planifier les horaires de travail.

Introduction générale Executive AI Assistant (EAIA) est un outil d'assistance basé sur l'IA conçu pour aider les utilisateurs à automatiser et à gérer leurs tâches quotidiennes. Développé par LangChain, l'outil est capable de traiter les courriels, de planifier, de gérer des tâches et d'autres...
Il y a 7 mois
02.8K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT Agent : un outil intelligent conçu pour analyser des données tabulaires complexes

Introduction complète TableGPT Agent est un outil intelligent basé sur le projet open source GitHub, conçu pour le traitement et l'analyse de données tabulaires. Il s'appuie sur le modèle de langage TableGPT2 et utilise l'interaction avec le langage naturel pour permettre aux utilisateurs d'interroger, de manipuler...
Il y a 6 mois
02.8K
AnkiAIUtils : Anki Flashcard Learning AI Toolset, un assistant intelligent qui optimise automatiquement les cartes mémoire

AnkiAIUtils : Anki Flashcard Learning AI Toolset, un assistant intelligent qui optimise automatiquement les cartes mémoire

Description générale AnkiAIUtils est un ensemble d'outils améliorés par l'IA et conçus pour le système d'apprentissage Anki. Développé par un étudiant en médecine, l'outil est conçu pour améliorer automatiquement les cartes avec lesquelles les utilisateurs ont des difficultés au cours du processus d'apprentissage grâce à la technologie de l'IA. Il fournit intelligemment aux utilisateurs des...
Il y a 7 mois
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress : Fournir une solution de passerelle IA efficace pour simplifier la gestion des microservices et renforcer la sécurité

Introduction complète Higress est une passerelle API cloud-native développée par Alibaba, construite sur Istio et Envoy, conçue pour fournir une planification efficace du trafic, une gouvernance des services et des solutions de sécurité. Il prend en charge les extensions Wasm pour de nombreux langages de programmation pour les activités d'IA...
Il y a 9 mois
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI : un cadre pour l'évaluation automatisée de grands modèles de langage, comparant la qualité de la sortie de différents mots repères de grands modèles.

Introduction complète DeepEval est un cadre d'évaluation LLM open source facile à utiliser pour évaluer et tester de grands systèmes de modélisation du langage. Il est similaire à Pytest mais se concentre sur les tests unitaires de la sortie LLM. Il est similaire à Pytest, mais se concentre sur les tests unitaires des résultats LLM. DeepEval combine les derniers résultats de la recherche...
Il y a 6 mois
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, qui est formé sur la base de millions d'heures de données vocales. Le système est équipé d'une expression vocale anthropomorphique et d'une réponse à faible latence de 100 ms, ce qui permet de...
Il y a 6 mois
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS : un modèle de génération de la parole qui imite la voix d'une personne réelle qui parle (ChatTTS one-click acceleration package)

Introduction générale ChatTTS est un modèle de parole génératif conçu pour les scénarios de dialogue. Il génère une parole naturelle et expressive, prend en charge plusieurs langues et plusieurs locuteurs, et convient aux dialogues interactifs. Pour ce faire, le modèle prédit et contrôle des caractéristiques rythmiques fines telles que les rires, les pauses et les interjections, sup...
Il y a 6 mois
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive : enregistrement en direct non supervisé et découpage automatique, outil de téléchargement pour la station B

Introduction bilive est un outil conçu pour l'enregistrement en direct de stations B. Il permet un enregistrement en direct extrêmement rapide, un découpage automatique, un rendu des fenêtres contextuelles et une génération de sous-titres. L'outil est compatible avec les machines à très faible configuration, prend en charge l'enregistrement sans surveillance 7x24 heures, identifie et rend automatiquement les pop-ups et les sous-titres, coupe et...
Il y a 6 mois
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash : Mise en œuvre rapide de la déduplication sémantique du texte pour améliorer l'efficacité du nettoyage des données

Introduction complète SemHash est un outil léger et flexible pour dédupliquer des ensembles de données par similarité sémantique. Il combine la génération rapide d'embedding de Model2Vec avec la recherche de similarité ANN (approximate nearest neighbour) de Vicinity....
Il y a 7 mois
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox : un macromodèle audio multimodal pour un dialogue vocal en temps réel de bout en bout, une implémentation open source de l'interaction vocale GPT-4o

Introduction complète Ultravox est un modèle multimodal innovant de grande langue (LLM) conçu pour le traitement de la parole en temps réel. Contrairement aux systèmes de reconnaissance vocale traditionnels, Ultravox élimine le besoin d'une étape séparée de reconnaissance de la parole audio (ASR), et est capable de convertir directement l'audio dans un espace...
Il y a 8 mois
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow : une version open source de "Kringle" lancée par Racer, basée sur SD3 et fonctionnant sur des GPU de moins de 8GB (version de déploiement en un clic)

Introduction complète Pyramid Flow est une méthode efficace de génération vidéo autorégressive basée sur la technique de correspondance des flux. La méthode permet d'obtenir une meilleure efficacité de calcul dans la génération et la décompression de contenu vidéo en interpolant entre différentes résolutions et différents niveaux de bruit...
Il y a 9 mois
02.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything : un système de questions et réponses sur la base de connaissances locales avec des processus RAG hautement intégrés

QAnything Introduction détaillée QAnything (Question and Answer based on Anything) est un système de questions-réponses de base de connaissances locale lancé par NetEase, qui prend en charge toutes sortes de formats de fichiers et de bases de données, et qui peut être installé et utilisé hors ligne.....
Il y a 11 mois
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI : un moteur open source pour la création rapide de flux de travail nodaux

Introduction complète Flowgram.ai est un moteur de construction de processus open source développé par ByteDance. Il est basé sur l'édition de nœuds, pour aider les développeurs à créer rapidement des flux de travail, le support de la mise en page fixe et la liaison libre deux modes . Le projet est écrit en TypeScript...
il y a 5 mois
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision : un modèle de langage visuel open source supportant le raisonnement multimodal

Introduction complète R1-Onevision est un modèle de macrolangage multimodal open source développé par l'équipe Fancy-MLLM, qui se concentre sur la combinaison profonde de la vision et du langage, capable de traiter des entrées multimodales telles que des images et du texte, et d'être performant dans les domaines du raisonnement visuel, de la compréhension d'images, de la résolution mathématique, etc.....
il y a 5 mois
02.8K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine : client d'analyse et de visualisation des données par l'IA pour la génération rapide de graphiques et de rapports

Introduction générale DataLine est un puissant outil d'analyse et de visualisation de données conçu pour aider les utilisateurs à interagir avec une variété de sources de données par le biais d'opérations simples. Qu'il s'agisse d'un fichier CSV ou d'une base de données classique telle que Postgres, MySQL, Snowflake, SQL...
Il y a 6 mois
02.8K