Dernières ressources sur l'IA

Total 2716 articles

Informations sur le cours Dernières ressources sur l'IA Base de connaissances sur l'IA Nouvelles de l'IA

mettre en ordre

écrémer signet (Internet)

InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

méso (chimie)InternVLA-A1 - Shanghai AI Lab Open Source Integration of Operational Capabilities for Embodied Large Models (Intégration des capacités opérationnelles pour les grands modèles incarnés)

InternVLA-A1 est un grand modèle d'opération incarnée mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Il est capable de comprendre, d'imaginer et d'exécuter l'intégration, et peut accomplir la tâche avec précision. Le modèle fusionne les données d'opérations réelles et simulées, et automatise la construction d'actifs hybrides virtuels-réels multimodaux à grande échelle...

Dernières ressources sur l'IA

Il y a 14 heures

0752

VoxCPM - 面壁智能联合清华开源的端到端TTS模型

méso (chimie)VoxCPM - Facing Intelligence et Tsinghua Open Source End-to-End TTS Model (modèle TTS de bout en bout)

VoxCPM est un modèle de génération de parole mis à disposition par Facade Intelligence et la Shenzhen International Graduate School de l'Université de Tsinghua. VoxCPM adopte une architecture autorégressive de diffusion de bout en bout pour générer des représentations continues de la parole directement à partir du texte, dépassant ainsi les limites de la désambiguïsation discrète traditionnelle. Grâce à la modélisation hiérarchique du langage et à la quantification à l'état fini...

Dernières ressources sur l'IA

Il y a 15 heures

01K

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

méso (chimie)InternVLA-N1 - Shanghai AI Lab Open Source Dual System Navigation End-to-End Large Model (en anglais)

InternVLA-N1 est un macromodèle de navigation à deux systèmes de bout en bout, mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Utilisant une architecture à deux systèmes, le système 2 est responsable de la compréhension des commandes linguistiques et de la planification des trajectoires à longue distance, tandis que le système 1 se concentre sur la réponse à haute fréquence et l'évitement agile des obstacles. Le modèle est entièrement formé sur la base de données synthétiques grâce à des ...

Dernières ressources sur l'IA

Il y a 15 heures

01K

WebWeaver - 阿里通义开源的新型双智能体框架

méso (chimie)WebWeaver - Ali Tongyi ouvre le code source d'un nouveau cadre corporel à double intelligence

WebWeaver est une nouvelle structure à double intelligence introduite par l'équipe d'Alibaba Tongyi, qui est principalement utilisée dans la recherche approfondie ouverte et peut simuler le processus de recherche humain, qui est divisé en deux intelligences : la planification et l'écriture.

Dernières ressources sur l'IA

Il y a 18 heures

0997

MCP Registry - GitHub推出的官方MCP服务器管理平台

méso (chimie)MCP Registry - La plateforme officielle de gestion des serveurs MCP de GitHub.

MCP Registry est une plateforme centralisée de GitHub qui aide les développeurs à découvrir et à installer plus facilement les serveurs MCP.

Dernières ressources sur l'IA

Il y a 18 heures

01.2K

VLAC - 上海AI Lab开源的具身奖励大模型

méso (chimie)VLAC - Le grand modèle open source de récompenses incorporées du Shanghai AI Lab

VLAC est un macromodèle de récompense incarnée open source du laboratoire d'intelligence artificielle de Shanghai. Basé sur le macromodèle multimodal InternVL, il fusionne les données vidéo Internet et les données de fonctionnement du robot pour fournir une estimation de la récompense du processus et de l'achèvement de la tâche pour l'apprentissage par renforcement du robot dans le monde réel.

Dernières ressources sur l'IA

Il y a 21 heures

0787

通义DeepResearch - 阿里通义开源的深度研究智能体

méso (chimie)Tongyi DeepResearch - Ali Tongyi Open Source Deep Research Intelligence Body

Tongyi DeepResearch (Tongyi DeepResearch) est un organisme intelligent open source lancé par Alibaba, conçu pour la recherche d'informations en profondeur et le raisonnement sur des tâches complexes, avec 30 milliards de paramètres, prenant en charge de multiples modes de raisonnement, y compris le mode ReAct et le mode Profondeur...

Dernières ressources sur l'IA

il y a 1 jour

02.3K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

méso (chimie)InternVLA-M1 - Le "cerveau" du laboratoire d'IA de Shanghai, un système double incarné à source ouverte

InternVLA-M1 est un "cerveau" incarné à source ouverte du laboratoire d'intelligence artificielle de Shanghai, qui est un grand modèle de fonctionnement à deux systèmes orienté vers le suivi des instructions. Il construit une boucle fermée complète couvrant "penser-agir-apprendre" et est responsable du raisonnement spatial de haut niveau et de la planification des tâches. Le modèle adopte une politique de formation en deux étapes...

Dernières ressources sur l'IA

Il y a 2 jours

02.5K

OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

méso (chimie)Guide PDF de l'OpenAI pour rester en tête à l'ère de l'IA - avec liens de téléchargement

Staying ahead in the age of AI est un guide de leadership de l'OpenAI qui aide les chefs d'entreprise à conserver un avantage concurrentiel à l'ère de l'IA. Le guide souligne la croissance rapide de l'IA, avec des versions de modèles plus rapides, des coûts plus bas et une adoption plus rapide par les entreprises...

Dernières ressources sur l'IA Informations sur le cours

Il y a 2 jours

02.7K

浙江大学免费PDF资料《大模型基础》 - 附下载链接

méso (chimie)PDF gratuit de Fundamentals of Large Models de l'Université de Zhejiang - avec lien de téléchargement

Fundamentals of Large Models fournit une analyse approfondie des technologies de base et des voies pratiques des grands modèles de langage (LLM). Partant de la théorie fondamentale de la modélisation linguistique, il explique systématiquement les principes de la conception de modèles basés sur des architectures statistiques, de réseaux neuronaux récurrents (RNN) et de transformateurs, en se concentrant sur les trois principaux grands modèles...

Dernières ressources sur l'IA Informations sur le cours

Il y a 2 jours

03K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

méso (chimie)PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool (Outil d'amélioration des mots)

PromptEnhancer est un outil open source d'amélioration des mots-guides conçu par l'équipe Mixed Meta de Tencent pour améliorer la génération de modèles texte-image (Text-to-Image, T2I). Grâce à l'approche de la chaîne de raisonnement (Chain-of-Thought, CoT) de l'utilisation ...

Dernières ressources sur l'IA

Il y a 2 jours

03K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

méso (chimie)LLaSO - Le premier modèle vocal entièrement open source de Logic Intelligence

LLaSO est un modèle vocal open source lancé par Beijing Depth Logic Intelligence Technology Co. Ltd, qui résout les problèmes de dispersion des données et de couverture insuffisante des tâches dans le domaine de la modélisation du langage vocal à grande échelle en intégrant des données vocales et textuelles et en fournissant des ensembles de données d'alignement, des ensembles de données de mise au point des commandes et des points de référence pour l'évaluation.

Dernières ressources sur l'IA

Il y a 2 jours

02.6K

混元3D 3.0 - 腾讯推出的3D生成模型，支持超高清建模

Hybrid 3D 3.0 - Modèles générés en 3D par Tencent avec prise en charge de la modélisation UHD

Hybrid 3D 3.0 est un modèle de génération 3D avancé de Tencent, basé sur la technologie de sculpture hiérarchique 3D-DiT, avec une résolution géométrique allant jusqu'à 1536³, capable de générer des modèles 3D ultra-haute définition et riches en détails, et d'exceller dans la modélisation de personnages, avec la capacité de modeler avec précision les cinq sens et la forme du corps.

Dernières ressources sur l'IA

il y a 3 jours

04.2K

UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture

UnifoLM-WMA-0 est une architecture open source de modèle de monde et d'action à travers plusieurs classes d'ontologies de robots par Yu Shu Technology, conçue pour l'apprentissage général des robots. Composé d'un modèle de monde et d'une architecture d'action, le modèle de monde comprend les lois physiques de l'interaction robot-environnement, et l'architecture d'action est responsable...

Dernières ressources sur l'IA

il y a 3 jours

04.2K

InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Outil open source de génération de vidéos audio pour Mission Vision AI

InfiniteTalk est un outil de génération de vidéos audio développé par l'équipe MeiGen-AI qui génère des vidéos parlantes de longueur illimitée sur la base de l'audio d'entrée. L'avantage principal est la technologie de synchronisation labiale précise, qui peut parfaitement faire correspondre l'audio avec la forme de la bouche du personnage pour générer des...

Dernières ressources sur l'IA

il y a 3 jours

04.6K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, Modèle de raisonnement visuel Open Source commun à HKU

Mini-o3 est un modèle open source lancé conjointement par ByteDance et l'Université de Hong Kong, qui se concentre sur la résolution de problèmes de recherche visuelle complexes. Le modèle dispose d'une puissante capacité de raisonnement interactif à plusieurs tours et peut localiser une cible par une exploration approfondie et des essais-erreurs.

Dernières ressources sur l'IA

il y a 3 jours

04.5K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - le modèle de programmation le plus solide introduit par l'OpenAI

GPT-5-Codex est un puissant modèle d'optimisation de la programmation d'OpenAI, amélioré par GPT-5 et conçu pour les ingénieurs en logiciel. Le modèle génère rapidement un code de haute qualité, prend en charge plusieurs langages de programmation et optimise le code existant pour en améliorer les performances.

Dernières ressources sur l'IA

il y a 3 jours

04.2K

ROMA - 开源的元Agent框架，自动分解复杂任务并行处理

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

ROMA (Recursive-Open-Meta-Agent) est un framework méta-agent open source développé par Sentient AGI pour résoudre efficacement des problèmes complexes par la décomposition récursive des tâches et le traitement parallèle. Supporte Python 3.12+, Docker et...

Dernières ressources sur l'IA

il y a 3 jours

04.3K

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un grand modèle multimodal mis à disposition par le Shanghai AI Lab et Huawei Rise

Lumina-DiMOO est un modèle unifié de nouvelle génération pour la génération et la compréhension multimodales lancé par le Shanghai Artificial Intelligence Laboratory (SAL) en collaboration avec Huawei Rise lors de la Conférence mondiale sur l'intelligence artificielle 2025. Basé sur la plateforme matérielle et logicielle de base de Rise AI et sur la suite de grands modèles multimodaux MindSpeed MM, il complète...

Dernières ressources sur l'IA

il y a 3 jours

03.8K

Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Outil open source de prise de notes de conférence AI local-first

Hyprnote est un outil de prise de notes de réunion AI open source et local d'abord, conçu pour les professionnels afin de protéger la vie privée des utilisateurs et d'améliorer l'efficacité des réunions. Adoptant le principe du "local first", toutes les données sont stockées et traitées sur l'appareil local de l'utilisateur afin de garantir la sécurité des données et de prendre en charge les opérations hors ligne.

Dernières ressources sur l'IA

il y a 3 jours

03.5K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Série de modèles d'inférence efficaces spécialisés Meta open source

MobileLLM-R1 est une série de modèles d'inférence efficaces conçus par Meta pour le raisonnement mathématique, programmatique et scientifique. Elle contient un modèle de base et un modèle final, avec respectivement 140 millions, 360 millions et 950 millions de versions de paramètres. Les modèles ne sont pas des modèles de chat génériques et sont...

Dernières ressources sur l'IA

Il y a 4 jours

03.8K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - Modèle de raisonnement et de pensée Baidu open source

ERNIE-4.5-21B-A3B-Thinking est le modèle de langage à grande échelle open source de Baidu axé sur les tâches de raisonnement. Utilisant l'architecture Mixed Expert (MoE), le nombre total de références s'élève à 21 milliards, chaque token active 3 milliards de paramètres pour supporter une fenêtre de contexte de 128K de long ...

Dernières ressources sur l'IA

Il y a 4 jours

04K

MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - Université Jiaotong de Shanghai - cadre de construction complet de corps mobiles intelligents à source ouverte

MobiAgent est une chaîne d'outils de corps intelligents mobiles à source ouverte du laboratoire IPADS de l'université Jiaotong de Shanghai, qui aide les utilisateurs à construire leurs propres assistants intelligents mobiles. En enregistrant la trajectoire des opérations de l'utilisateur et en générant des données de haute qualité, il forme des corps intelligents capables de comprendre des commandes en langage naturel. Parmi ses principales caractéristiques, citons l'efficacité...

Dernières ressources sur l'IA

Il y a 4 jours

04.2K

ZipVoice - 小米开源的语音合成系列模型

ZipVoice - La famille de modèles de synthèse vocale open source de Xiaomi

ZipVoice est une série de modèles de synthèse vocale (TTS) basés sur l'architecture Flow Matching et commercialisés par Xiaomi, comprenant ZipVoice (modèle de synthèse vocale à un seul locuteur, sans échantillon) et ZipVoice-Dialog (modèle de synthèse vocale pour dialogue, sans échantillon)....

Dernières ressources sur l'IA

Il y a 4 jours

04.5K

PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modèle d'IA open-source de Baidu pour la reconnaissance de texte de nouvelle génération

PP-OCRv5 est la dernière génération de modèle d'IA de reconnaissance de texte publiée par Baidu. Avec un design léger et un nombre de références de seulement 0,07B, il est adapté pour fonctionner efficacement sur les CPU et les appareils périphériques, et peut traiter plus de 370 caractères par seconde. Le modèle prend en charge le chinois simplifié, le chinois traditionnel, l'anglais, le japonais et le pinyin...

Dernières ressources sur l'IA

Il y a 4 jours

04.5K

Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework (en anglais)

Youtu-GraphRAG est un cadre de génération d'augmentation de recherche de graphes open source de Tencent Youtu Labs pour aider les grands modèles de langage à traiter les tâches complexes de questions-réponses avec plus de précision. En construisant un arbre de connaissances à quatre niveaux, les connaissances sont décomposées en quatre niveaux : attributs, relations, mots-clés et communautés, afin d'obtenir des connaissances interdomaines sur la maîtrise de l'acte...

Dernières ressources sur l'IA

Il y a 4 jours

04.2K

Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework (en anglais)

Stand-In est un cadre de génération vidéo léger, prêt à l'emploi et préservant l'identité, conçu par l'équipe WeChat Vision de Tencent. Axé sur la préservation des caractéristiques spécifiques de l'identité dans la génération vidéo, il n'a besoin que d'entraîner des paramètres supplémentaires du modèle de base 1%, et peut obtenir d'excellents résultats en matière de similarité des visages et de naturel.

Dernières ressources sur l'IA

Il y a 4 jours

04.2K

IndexTTS2 - B站开源的免费TTS模型，首个支持精确时长控制

IndexTTS2 - Modèle TTS libre à source ouverte de la station B, le premier à permettre un contrôle précis de la durée.

IndexTTS2 est un nouveau modèle de synthèse vocale libre mis à disposition par l'équipe vocale de la station B, qui réalise une avancée majeure dans l'expression émotionnelle et le contrôle de la durée. Il s'agit du premier modèle de synthèse vocale autorégressif à prendre en charge un contrôle précis de la durée. Prise en charge du clonage de la voix sans échantillon, un seul fichier audio peut copier avec précision le son...

Dernières ressources sur l'IA

Il y a 6 jours

09.3K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Le dernier modèle de génération de musique AI de MiniMax !

MiniMax Music 1.5 est un outil avancé de génération de musique par IA qui permet de générer jusqu'à 4 minutes de musique sur la base d'une description en langage naturel de l'utilisateur. Le modèle prend en charge un large éventail de styles musicaux et de personnalisation de l'ambiance, et génère des tonalités vocales naturelles et complètes, des transitions fluides et des arrangements riches en couches...

Dernières ressources sur l'IA

Il y a 7 jours

08.5K

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Université de Tsinghua Cadre de génération vidéo multimodale open source United Bytes

HuMo est un cadre de génération de vidéos multimodales mis à disposition par l'université de Tsinghua et le laboratoire de création intelligente ByteDance, qui se concentre sur la génération de vidéos centrées sur l'homme. Il permet de générer des vidéos humaines de haute qualité, finement structurées et contrôlables à partir d'entrées multimodales telles que du texte, des images et du son...

Dernières ressources sur l'IA

Il y a 7 jours

010.1K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan and Ali Dharma Institute and other open source intelligent image animation generation framework (cadre de génération d'animations d'images intelligentes)

AnyI2V est un cadre de génération d'animations d'images lancé conjointement par l'Université de Fudan, l'Alibaba Darmo Academy et d'autres, qui prend en charge la conversion d'images conditionnelles statiques (par exemple, des grilles, des nuages de points, etc.) en vidéos dynamiques sans nécessiter un processus d'apprentissage complexe et une grande quantité de données.

Dernières ressources sur l'IA

Il y a 7 jours

08.1K

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - Tencent Hybrid lance un modèle de génération de texte à partir d'images

SRPO (Semantic Relative Preference Optimization) est un modèle de génération de texte à partir d'images introduit par Tencent Mixed Meta, qui optimise le mécanisme de récompense par le biais de signaux conditionnels textuels afin de réaliser un ajustement en ligne des récompenses et de réduire la dépendance à l'égard du réglage fin hors ligne.

Dernières ressources sur l'IA

Il y a 7 jours

013.2K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - le dernier modèle de base lancé par Ali Tongyi

Qwen3-Next est une nouvelle génération de grands modèles à architecture hybride mis en libre accès par Ali Tongyi, combinant les technologies Gated DeltaNet et Gated Attention, qui permet de traiter des textes longs, d'effectuer des inférences rapides et d'économiser des ressources informatiques.

Dernières ressources sur l'IA

Il y a 7 jours

08.5K

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

Wenshin Big Model X1.1 - Le modèle de pensée profonde de Baidu pour une meilleure compréhension

Wenxin Big Model X1.1 est un modèle de pensée profonde lancé par Baidu, basé sur un cadre d'apprentissage par renforcement hybride qui se concentre sur l'amélioration de la compréhension et de la génération de langage. Le modèle excelle dans le traitement de questions complexes, le suivi d'instructions et la simulation du comportement des intelligences, et peut fournir avec précision des réponses éclairées et un contenu textuel de haute qualité.

Dernières ressources sur l'IA

il y a 1 semaine

09.3K

混元图像2.1 - 腾讯推出的开源文生图模型

Image hybride 2.1 - Modèle de graphique de fournisseur de source ouverte de Tencent

HunyuanImage 2.1 est un modèle graphique open source de Tencent conçu pour la génération d'images de haute qualité. Le modèle prend en charge la résolution native 2K, peut rendre avec précision des scènes complexes et des détails, de sorte que l'expression et le mouvement du personnage peuvent être reproduits de manière vivante.

Dernières ressources sur l'IA

il y a 1 semaine

09.8K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk - Outil gratuit de découpage sémantique de documents AI, ajustement dynamique du découpage

AntSK FileChunk est un outil gratuit de découpage intelligent de documents conçu pour les applications RAG (Retrieval Augmented Generation). La sémantique étant au cœur de l'outil, le document sera intelligemment découpé en segments sémantiquement complets et cohérents, supportant le multi-langage, ajustant dynamiquement la taille de la tranche pour assurer la cohérence contextuelle.

Dernières ressources sur l'IA

il y a 1 semaine

09.3K

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS - Plate-forme de service TTS API à guichet unique, surveillance des performances en temps réel

UnifiedTTS est une plateforme unique pour les services de synthèse vocale. Elle prend en charge plusieurs langues, dont le chinois, l'anglais, le japonais et le coréen, afin de répondre aux besoins des entreprises internationales. Grâce à une interface API unifiée, elle intègre de nombreux services de synthèse vocale, dont Micro...

Dernières ressources sur l'IA

il y a 1 semaine

09.8K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Macromodélisation ultra-efficace par Facing Face Intelligence

MiniCPM 4.1 est un modèle linguistique large ultra-efficace introduit par Facade Intelligence. Grâce à l'architecture d'attention éparse d'InfLLM v2, chaque lexème n'a besoin de calculer la corrélation qu'avec moins de 5% lexèmes, ce qui réduit considérablement la charge de traitement des textes longs. Dans le scénario d'un texte long de 128K...

Dernières ressources sur l'IA

il y a 1 semaine

010.4K

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChat Open Source Document Understanding and Semantic Retrieval Framework (Cadre de compréhension de documents et de recherche sémantique)

WeKnora est un logiciel open source de l'équipe WeChat de Tencent, basé sur le modèle LLM (Large Language Model) de compréhension de documents et de recherche sémantique, conçu pour la structure de scénarios de contenu de documents complexes et hétérogènes et conçu pour utiliser une architecture modulaire, l'intégration du prétraitement multimodal, l'indexation de vecteurs sémantiques, le rappel intelligent et le raisonnement génératif de grand modèle....

Dernières ressources sur l'IA

il y a 1 semaine

011.5K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Moteur d'entraînement de grands modèles open source du Shanghai AI Lab

XTuner V1 est une nouvelle génération de moteur d'entraînement de grands modèles en libre accès par le Shanghai Artificial Intelligence Laboratory, conçu pour l'entraînement de modèles d'experts mixtes (MoE) à très grande échelle. Développé sur la base de PyTorch FSDP, il atteint de hautes performances grâce à l'optimisation multidimensionnelle de la mémoire, de la communication et de la charge...

Dernières ressources sur l'IA

il y a 1 semaine

010K

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - une série de modèles de reconnaissance vocale lancés par Ali Tongyi Qianqian

Qwen3-ASR-Flash est le dernier modèle de reconnaissance vocale de haute précision d'Alibaba, basé sur le modèle de base Qwen3, entraîné sur des données multimodales massives. Il prend en charge 11 langues et plusieurs accents, notamment le mandarin, le sichuan, le minnan, le wu, le cantonais et d'autres dialectes...

Dernières ressources sur l'IA

il y a 1 semaine

011.8K

吴恩达的LangChain for LLM应用开发免费课程

LangChain gratuit pour le cours de développement d'applications LLM par Ernest Ng

LangChain pour le développement d'applications LLM est un cours en ligne présenté par DeepLearning.AI, avec Harrison Chase, fondateur de LangChain, et Andrew Ng.

Dernières ressources sur l'IA Informations sur le cours

Il y a 2 semaines

012.1K

吴恩达的Transformer LLMs工作原理免费课程

Cours gratuit sur le fonctionnement des LLM Transformer par Enda Wu

Les LLM transformateurs fonctionnent sur le principe que DeepLearning.AI et Jay Alammar et Maarten Grootend, auteurs de Hands-On Large Language Models...

Dernières ressources sur l'IA Informations sur le cours

Il y a 2 semaines

010.9K

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - la dernière génération de modèles de création d'images lancée par Bytes

Seedream 4.0 est un outil avancé de génération et d'édition d'images lancé par ByteDance, qui est centré sur l'intégration de la génération et de l'édition, avec des fonctionnalités puissantes telles que l'édition de commandes précises, une rétention élevée des fonctionnalités et une compréhension approfondie des intentions.

Dernières ressources sur l'IA

il y a 1 semaine

034.9K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - Le modèle d'inférence IA efficace et open source de Microsoft

rStar2-Agent est un modèle de raisonnement mathématique avancé de Microsoft qui démontre de fortes capacités de résolution de problèmes mathématiques en atteignant une précision de 80,61 TP3T dans le test AIME24. Le modèle est doté de capacités de raisonnement scientifique, atteignant dans le benchmark GPQA-Diamond...

Dernières ressources sur l'IA

Il y a 2 semaines

09.8K

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Le modèle phare de Big Language de Tongyi Qianqian

Qwen3-Max-Preview est le dernier modèle phare de langue large publié par Tongyi Qianwen. Il s'agit du modèle comportant le plus grand nombre de paramètres de la famille Qwen3, avec une taille de paramètre de plus de 1 000 milliards. Le modèle présente des améliorations significatives en matière d'inférence, de suivi des instructions, de prise en charge multilingue et de couverture des connaissances à longue traîne...

Dernières ressources sur l'IA

Il y a 2 semaines

011.4K

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modèle multimodal open source pour Meituan et l'Université Jiaotong de Shanghai

OneCAT est un nouveau modèle multimodal unifié lancé par Meituan en collaboration avec l'Université Jiaotong de Shanghai, qui adopte une architecture de décodeur pure intégrant de manière transparente des fonctions de compréhension multimodale, de génération de texte à partir d'images et d'édition d'images. Le modèle abandonne la conception des modèles multimodaux traditionnels qui s'appuient sur des codeurs visuels externes et des désambiguïsateurs...

Dernières ressources sur l'IA

Il y a 2 semaines

09.2K

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable - Bâtisseur d'applications Web IA Open Source, code généré en langage naturel

Claudable est un constructeur d'applications web open source basé sur Next.js qui combine les capacités avancées d'agent IA de Claude Code et de Cursor CLI avec l'expérience de construction d'applications simple et intuitive de Lovable...

Dernières ressources sur l'IA

Il y a 2 semaines

011K

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Ensemble de données open source sur les langues visuelles lancé par Hugging Face

FineVision est l'ensemble de données à source ouverte de Hugging Face sur le langage visuel pour l'entraînement de modèles avancés de langage visuel. Il contient 17,3 millions d'images, 24,3 millions d'échantillons, 88,9 millions de dialogues et 9,5 milliards de jetons de réponse. L'ensemble de données...

Dernières ressources sur l'IA

Il y a 2 semaines

010.5K

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - un modèle de génération humaine numérique à longue durée de vie lancé par Bytes en collaboration avec ZJU

InfinityHuman est un modèle commercial de génération de vidéos de personnages à partir de longues séries temporelles, lancé conjointement par ByteDance et l'université de Zhejiang. Le modèle est piloté par l'audio et peut générer des vidéos de personnages de haute résolution, de longue durée et visuellement cohérentes.

Dernières ressources sur l'IA

Il y a 2 semaines

09.5K

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - Le dernier modèle de Dark Side of the Moon !

Kimi K2-0905 est un modèle d'IA avancé de Dark Side of the Moon Technologies Ltd. qui excelle dans l'assistance à la programmation, génère du code efficacement et soutient la génération de code soigné et standardisé dans le développement frontal. La longueur du contexte du modèle est étendue à 256K pour gérer des tâches complexes.

Dernières ressources sur l'IA

Il y a 2 semaines

013.3K

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - Tencent open source ultra-long roaming world model

HunyuanWorld-Voyager (Hunyuan Voyager en abrégé) est le premier modèle de monde itinérant ultra-long publié par Tencent qui prend en charge la reconstruction 3D native. Il s'agit d'un nouveau cadre de diffusion vidéo qui génère des séquences de nuages de points 3D à partir de trajectoires de caméra définies par l'utilisateur à partir d'une seule image,...

Dernières ressources sur l'IA

Il y a 2 semaines

013.3K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Modèle de traduction léger open source Tencent Mixed Meta

Hunyuan-MT-7B est un modèle de traduction léger introduit par l'équipe Mixed Meta de Tencent. Avec 7 milliards de références, il prend en charge la traduction mutuelle de 33 langues et de 5 langues/dialectes folkloriques chinois, dont le cantonais, l'ouïghour et le tibétain. Dans le cadre du concours WMT2025 de l'Association internationale de linguistique computationnelle (ACL)...

Dernières ressources sur l'IA

Il y a 2 semaines

014.1K

Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Step-Star open source speech macromodelling

Step-Audio 2 mini est un macromodèle de parole de bout en bout open source de Step-Audio. Il rompt avec la structure traditionnelle du modèle de la parole et adopte une véritable architecture multimodale de bout en bout, qui transforme directement l'entrée audio brute en sortie de réponse vocale, avec une latence réduite, et comprend les informations paralinguistiques et les signaux non vocaux.

Dernières ressources sur l'IA

il y a 3 semaines

016.1K

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - Le modèle multimodal d'Apple, efficace et à source ouverte

MobileCLIP2 est une version améliorée de MobileCLIP, un modèle multimodal efficace introduit par les chercheurs d'Apple. Optimisé pour l'apprentissage par renforcement multimodal, il intègre le modèle de l'enseignant CLIP en entraînant des modèles plus performants sur l'ensemble de données DFN et en améliorant les...

Dernières ressources sur l'IA

il y a 3 semaines

016.1K

InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Shanghai AI Lab Open Source Multimodal Large Models (en anglais)

InternVL3.5 (Shusheng-Wanxiang 3.5) est un grand modèle multimodal open source du laboratoire d'intelligence artificielle de Shanghai. Le modèle est entièrement amélioré en termes de capacité générale, de capacité de raisonnement et d'efficacité de déploiement, fournissant neuf tailles de versions de 1 milliard à 241 milliards de paramètres, couvrant différents scénarios de demande de ressources, y compris les...

Dernières ressources sur l'IA

il y a 3 semaines

015.8K

FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Modélisation du langage visuel d'Apple

FastVLM (Fast Vision Language Model) est un modèle de langage visuel efficace introduit par Apple. Avec le codeur visuel hybride FastViTHD comme noyau, il incorpore les architectures convolutionnelles et Transformer pour...

Dernières ressources sur l'IA

il y a 3 semaines

013.9K

Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Ensemble d'évaluation open-source Meeseeks pour évaluer la capacité à suivre les instructions d'un modèle

Meeseeks est un ensemble d'évaluation de grands modèles open source utilisé par l'équipe M17 de Meituan pour évaluer la capacité d'un modèle à suivre les instructions. Meeseeks utilise un cadre d'évaluation à trois niveaux pour mesurer de manière exhaustive si un modèle est capable de générer des réponses en stricte conformité avec les instructions de l'utilisateur, du niveau macro au niveau micro, et n'évalue pas la connaissance du contenu de la réponse comme un élément positif....

Dernières ressources sur l'IA

il y a 3 semaines

015.8K

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - Le dernier modèle vocal d'IA de l'OpenAI

gpt-realtime est un modèle vocal avancé d'OpenAI qui prend en charge le traitement audio direct pour générer une parole naturelle et fluide. Le modèle prend en charge plusieurs langues et styles, comprend les signaux non verbaux tels que le rire et peut passer d'une langue à l'autre.

Dernières ressources sur l'IA

il y a 3 semaines

016K

Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - Tencent open source efficient intelligent body framework

Youtu-agent est un framework open source pour la construction et l'exécution d'intelligences autonomes de Tencent Youtu Labs. Le framework est performant dans les benchmarks WebWalkerQA et GAIA, avec une précision de 71,47% et 72,8% respectivement....

Dernières ressources sur l'IA

il y a 3 semaines

019.1K

HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modèle de génération de sons vidéo open source de Tencent

HunyuanVideo-Foley est un modèle open source de génération de sons vidéo conçu par l'équipe de Tencent Mixed Yuan, qui permet d'ajouter des effets sonores adaptés à des vidéos muettes. Le modèle est basé sur l'entraînement d'un ensemble de données à grande échelle, avec une architecture de convertisseur de diffusion multimodale, combinée à la représentation de la fonction de perte d'alignement et aux techniques d'optimisation de la VAE audio ...

Dernières ressources sur l'IA

il y a 3 semaines

020.6K

PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - Modèle vidéo IA auto-développé lancé par Aishi Technologies

PixVerse V5 est un grand modèle de génération vidéo par IA lancé par Aishi Technology. Le modèle peut générer un contenu vidéo de haute qualité sur la base de descriptions textuelles ou d'images saisies par l'utilisateur, et prend en charge une variété de styles, tels que l'anime, la science-fiction et le style national.

Dernières ressources sur l'IA

il y a 3 semaines

018K

问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modèle d'IA tout-en-un de Ask White

Ask White 5 est le modèle phare "Tout en un" avec un niveau d'intelligence très élevé. Ce modèle obtient de bons résultats dans de nombreuses évaluations, comme le score composite de 64,7 de l'indice AA et le score de 86 de l'évaluation des capacités STEM, qui est proche du GPT-5, le meilleur au monde.

Dernières ressources sur l'IA

il y a 3 semaines

015.5K

MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - Modèle multimodal intelligent à facettes à source ouverte de 8B paramètres

MiniCPM-V 4.5 est un modèle multimodal paramétrique 8B open-source pour Facade Intelligence, construit sur la base de Qwen3-8B et SigLIP2-400M, avec la capacité de traiter efficacement les images et les vidéos. Il offre d'excellentes performances en matière de consommation de jetons visuels, de ...

Dernières ressources sur l'IA

il y a 3 semaines

018.6K

Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - Le modèle de génération et d'édition d'images le plus puissant de Google

Gemini 2.5 Flash Image (nom de code nano banana) est un modèle de génération et d'édition d'images de pointe de Google qui maintient la cohérence des personnages d'une scène à l'autre et prend en charge l'édition précise d'images par le biais du langage naturel, par exemple en rendant les arrière-plans flous et en supprimant les taches.

Dernières ressources sur l'IA

il y a 3 semaines

018.1K

Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - Modèle open source de génération vidéo pilotée par l'audio d'Ali Tongyi

Wan2.2-S2V est un modèle de génération vidéo multimodale open source d'Ali Tongyi. Il suffit d'une image statique et d'un morceau d'audio pour générer une vidéo humaine numérique de haute qualité et prendre en charge une variété de types d'images et de cadres.

Dernières ressources sur l'IA

il y a 3 semaines

018.3K

吴恩达面向开发者的ChatGPT提示工程免费课程

Cours gratuit sur ChatGPT Tip Engineering for Developers par Ernest Ng

ChatGPT Tip Engineering for Developers est un cours conjoint de DeepLearning.AI et OpenAI conçu pour les développeurs, avec Isa Fulford, Andrew Ng pour enseigner comment utiliser les grands modèles de langage (LLM)....

Dernières ressources sur l'IA Informations sur le cours

il y a 3 semaines

016K

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

Ask o4 - Un modèle de réflexion parallèle introduit par Ask o4 qui ouvre 8 pistes de réflexion en même temps.

Ask White o4 est un modèle innovant de réflexion parallèle qui ouvre 8 voies de réflexion en même temps, analyse le problème sous plusieurs angles et filtre automatiquement la solution optimale. Le modèle incorpore des techniques avancées d'apprentissage par renforcement Long-CoT et d'apprentissage par récompense de processus, possède de puissantes capacités de raisonnement profond et donne de bons résultats dans les tâches complexes.

Dernières ressources sur l'IA

il y a 3 semaines

015.7K

VibeVoice - 微软推出的文本到语音模型

VibeVoice - Modélisation de la synthèse vocale par Microsoft

VibeVoice est un nouveau modèle de synthèse vocale de Microsoft. Ce modèle génère un son conversationnel à partir de quatre locuteurs différents et prend en charge jusqu'à 90 minutes de sortie vocale continue, ce qui supprime les limites de durée des systèmes TTS traditionnels.

Dernières ressources sur l'IA

il y a 3 semaines

020.2K

SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modèles de génération de scènes 3D open source de Qunar Technologies

SpatialGen est un modèle de génération de scènes 3D open source de Qunar Technology, basé sur l'architecture du modèle de diffusion, qui prend en charge la génération d'images multi-vues spatio-temporellement cohérentes sur la base de descriptions textuelles, d'images de référence et d'une disposition spatiale 3D, et qui permet de générer des scènes gaussiennes 3D et d'effectuer le rendu de vidéos itinérantes.

Dernières ressources sur l'IA

il y a 3 semaines

014.8K

EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3 - Modèle de génération d'animation humaine numérique multimodale open source

EchoMimicV3 est un modèle multimodal de génération de vidéos humaines numériques lancé par Ant Group, avec 1,3 milliard de paramètres, capable de gérer des entrées multiples telles que l'audio, le texte, les images, etc. pour générer des animations humaines numériques de haute qualité.

Dernières ressources sur l'IA

il y a 3 semaines

014.7K

Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - Une nouvelle génération de modèles de reconnaissance vocale lancée conjointement par Nail et Tongyi

Fun-ASR est un grand modèle de reconnaissance vocale lancé conjointement par Nail et Tongyi Labs. Le modèle a été entraîné avec des données audio massives et peut identifier avec précision la terminologie multi-industrielle, telle que l'Internet, la technologie, la décoration intérieure, etc. Le modèle est combiné avec les informations de l'entreprise Nail pour l'optimisation de l'inférence afin de réduire le problème des...

Dernières ressources sur l'IA

Il y a 4 semaines

020.2K

Squibler - AI小说辅助写作平台，助力构思到创作全过程

Squibler - Plate-forme d'écriture assistée par IA qui alimente l'ensemble du processus, de l'idée à la création

Squibler est une puissante plateforme d'écriture assistée par l'IA, conçue pour les écrivains, qui aide les utilisateurs dans l'ensemble du processus, de la conception à la publication en passant par la création. La plateforme fournit une variété de modèles d'histoires couvrant les romans, les scénarios, les nouvelles, etc. Les utilisateurs n'ont qu'à entrer le concept initial, et l'IA peut générer les grandes lignes, les personnages, les scènes...

Dernières ressources sur l'IA

Il y a 4 semaines

015.7K

91写作 - 开源的AI智能小说创作平台

91Writing - Plateforme open source de création de romans intelligents par l'IA

91Writing est un outil de création de romans d'IA entièrement open source, développé sur la base de Vue 3 et Element Plus, intégrant une variété de modèles d'IA avancés, tels que GPT, Claude, Gemini, etc. L'outil fournit aux créateurs une chaîne complète d'outils de création, de l'idée au texte, y compris la création de projets...

Dernières ressources sur l'IA

Il y a 4 semaines

015.7K

Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - une plateforme de simulation sociale multi-agents lancée par HKUST

Aivilization est la première plateforme de simulation sociale de corps multi-intelligents développée par l'Université des sciences et technologies de Hong Kong. Elle constitue un bac à sable numérique visuel où les utilisateurs peuvent créer et guider des milliers d'intelligences IA afin d'observer l'évolution sociale de la future coexistence entre l'homme et l'IA. La plateforme prend en charge...

Dernières ressources sur l'IA

Il y a 4 semaines

025.5K

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Le modèle d'IA open source xAI de Musk

Grok 2.5 est un modèle d'IA open source de l'entreprise xAI d'Elon Musk. Avec 269 milliards de paramètres, il est basé sur l'architecture Mixed Expertise (MoE) pour des performances et une inférence puissantes. Le modèle a été testé sur des connaissances scientifiques de haut niveau (GPQA), des connaissances générales (MMLU, MM...

Dernières ressources sur l'IA

Il y a 4 semaines

016.9K

Draw A Fish - 免费的在线AI画鱼网站，共享虚拟鱼缸

Draw A Fish - Site gratuit de dessin de poissons AI en ligne, aquariums virtuels partagés

Draw A Fish est un site simple et amusant de dessin de poissons en ligne où les utilisateurs peuvent dessiner des poissons qui seront placés dans un aquarium virtuel partagé à l'échelle mondiale. Draw A Fish ne nécessite aucune inscription, est facile à utiliser et ne prend que quelques secondes pour créer et partager.

Dernières ressources sur l'IA

Il y a 4 semaines

016.2K

MIT最新报告《生成式AI鸿沟：2025年商业人工智能现状》

Le nouveau rapport du MIT, The Generative AI Divide : the State of Business AI in 2025 (La fracture de l'IA générative : l'état de l'IA d'entreprise en 2025).

Le dernier rapport du MIT, The Generative AI Divide : the State of Business AI in 2025, révèle le cœur du processus d'adoption de l'IA générative (GenAI) auquel les entreprises sont confrontées en menant des recherches approfondies sur plus de 300 projets d'IA, des entretiens avec 52 organisations et une enquête auprès de 153 dirigeants....

Dernières ressources sur l'IA Informations sur le cours

Il y a 4 semaines

027.3K

AutoClip - 开源的AI视频切片工具，一键生成专题视频合集

AutoClip - Outil de découpage vidéo AI open source pour générer des collections de vidéos thématiques en un seul clic !

AutoClip est un outil d'édition vidéo IA open source, basé sur une technologie IA avancée pour réaliser le processus complet de traitement vidéo automatisé. Les outils peuvent automatiquement identifier les points forts de la vidéo, l'extraction précise du contenu précieux, peut être basé sur la similitude du thème de clustering intelligent, pour générer une collection de contenu.AutoClip support...

Dernières ressources sur l'IA

Il y a 4 semaines

017.6K

ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - Outil d'animation générative d'IA open source de Tencent

ToonComposer est un outil d'animation générative par IA lancé conjointement par l'Université chinoise de Hong Kong, Tencent PCG ARC Lab et l'Université de Pékin. Grâce à la technologie générative post keyframe, la génération d'images intermédiaires et le processus de coloration sont intégrés dans un processus automatisé, ne nécessitant qu'une esquisse et un...

Dernières ressources sur l'IA

Il y a 4 semaines

019.8K

Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Un nouveau modèle d'IA mis à disposition par l'équipe Wordpress

Seed-OSS est une famille de grands modèles de langage mis à disposition par l'équipe de Byte Jump Seed, qui se concentre sur les textes longs et les tâches de raisonnement. Le modèle est performant dans le raisonnement logique complexe et le raisonnement en plusieurs étapes avec une grande précision et peut résoudre efficacement des problèmes difficiles....

Dernières ressources sur l'IA

Il y a 4 semaines

019.3K

Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Modèle scientifique multimodal léger mis à disposition par le Shanghai AI Lab

Intern-S1-mini est un macromodèle scientifique multimodal léger avec une échelle de paramètres de 8B lancé par le Shanghai Artificial Intelligence Laboratory (SAL). Il hérite des puissantes capacités d'Intern-S1, combinant à la fois des capacités scientifiques générales et spécialisées, et convient à un déploiement rapide et à un développement secondaire. En termes de performances, I...

Dernières ressources sur l'IA

Il y a 4 semaines

017K

Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana - Modèle d'édition d'images par l'IA de Google

Nano Banana est le nom de code de Gemini 2.5 Flash Image, un modèle de génération et d'édition d'images par IA de Google qui génère des images détaillées et photoréalistes à partir de simples invites textuelles permettant d'apporter des modifications de haute qualité à des images existantes.

Dernières ressources sur l'IA

il y a 3 semaines

033.1K

Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner - Un nouveau modèle de raisonnement présenté par Racer

Klear-Reasoner est un modèle d'inférence haute performance de Racer, basé sur Qwen3-8B-Base. Le modèle est entraîné par une longue chaîne de réflexion, un réglage fin supervisé et un apprentissage par renforcement pour obtenir de bonnes performances dans le raisonnement mathématique et...

Dernières ressources sur l'IA

Il y a 4 semaines

016.3K

CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - Le modèle VLA efficace du groupe Amoy

CombatVLA est un modèle 3D innovant spécifique aux jeux de rôle et d'action (ARPG), développé par l'équipe du Future Life Lab du groupe Amoy. CombatVLA est un modèle vision-linguistique-action (VLA), construit sur une échelle paramétrique de 3B, qui recueille les données du joueur humain par l'intermédiaire d'un...

Dernières ressources sur l'IA

Il y a 4 semaines

016.3K

DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - Le dernier modèle d'IA open source de DeepSeek

DeepSeek V3.1 est une nouvelle génération de modèles d'IA introduits par DeepSeek, avec d'importantes améliorations par rapport à son prédécesseur, V3. DeepSeek V3.1 introduit une architecture de raisonnement hybride qui permet au modèle de basculer de manière flexible entre les modes de réflexion et de non-réflexion, améliorant de manière significative la...

Dernières ressources sur l'IA

Il y a 4 semaines

017.7K

Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - Modèle d'édition d'images open source d'Ali Tongyi

Qwen-Image-Edit est un modèle d'édition d'images polyvalent présenté par Ali Tongyi, construit sur l'architecture Qwen-Image avec 20 milliards de paramètres. Le modèle combine à la fois des capacités d'édition sémantique et d'édition d'apparence, et peut effectuer une édition d'apparence visuelle de bas niveau sur les images (par exemple, ajouter, supprimer...

Dernières ressources sur l'IA

Il y a 1 mois

017.7K

MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - Le dernier cadre de génération de la parole de KunlunWei

MoE-TTS est un cadre de synthèse vocale introduit par KunlunWanwei, basé sur l'architecture Mixed Expert (MoE), qui combine de grands modèles de langage (LLM) pré-entraînés avec des modules d'expertise vocale.

Dernières ressources sur l'IA

Il y a 1 mois

019.5K

Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - Plate-forme robotique polyvalente à code source ouvert de Jiyuan, en collaboration avec Beihang et d'autres organismes

Genie Envisioner (GE) est une plateforme unifiée pour les opérations robotiques développée par l'équipe de Genie Robotics en collaboration avec l'Université nationale de Singapour, l'Université d'aéronautique et d'astronautique de Pékin et d'autres institutions. Elle permet aux robots de mieux comprendre et d'exécuter des tâches en "imaginant d'abord, puis en agissant".

Dernières ressources sur l'IA

Il y a 1 mois

019.6K

DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Modèle de base de vision auto-supervisée de nouvelle génération de Meta AI

DINOv3 est un modèle de base de vision auto-supervisée de nouvelle génération de Meta AI qui utilise un paradigme d'apprentissage auto-supervisé pour apprendre les caractéristiques des images sans données d'étiquetage. Il résout le problème de la dégradation des caractéristiques en améliorant la préparation des données et en introduisant l'ancrage Gram, et améliore la généralisation...

Dernières ressources sur l'IA

Il y a 1 mois

024.5K

Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 - Modèles avancés de création musicale par IA de Quintessence

Mureka V7.5 est un modèle de génération de musique par IA de Kunlun World Wide, axé sur l'écriture de chansons chinoises. Le modèle reproduit fidèlement le timbre et les techniques de jeu pour générer des voix naturelles, douces et émotionnelles. Basé sur une technologie optimisée de reconnaissance automatique de la parole (ASR), Mureka V...

Dernières ressources sur l'IA

Il y a 1 mois

019K

Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版

Skywork Deep Research Agent v2 - Une version améliorée du Deep Research Intelligence de Kunlun

Skywork Deep Research Agent v2 est un organisme intelligent de recherche approfondie lancé par Kunlun Wave, qui se concentre sur l'intégration et l'analyse d'informations multimodales.

Dernières ressources sur l'IA

Il y a 1 mois

016.6K

Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Cadre open source de Tencent Hunyuan permettant de générer des vidéos interactives pour les jeux de nouvelle génération.

Hunyuan-GameCraft est un cadre de génération de vidéos de jeux interactifs open source de l'équipe Hunyuan de Tencent. A partir d'une simple image et d'invites, ce cadre permet de générer des vidéos de jeux hautement dynamiques. L'utilisateur peut contrôler le contenu vidéo en temps réel à l'aide d'un clavier et d'une souris.

Dernières ressources sur l'IA

Il y a 1 mois

021.8K

Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - Open Source Efficient Multi-Modal Modelling par KunlunWanwei

Skywork UniPic 2.0 est un modèle multimodal efficace mis à disposition par Quintessence, qui se concentre sur la génération, l'édition et la compréhension d'images. Le modèle est basé sur une architecture SD3.5-Medium à 2 paramètres, et est réalisé par pré-entraînement, stratégie de renforcement progressif à deux tâches et co-entraînement...

Dernières ressources sur l'IA

Il y a 1 mois

019.7K

RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - Premier protocole de contexte robotique open source de l'Institut Ali Dharma

RynnRCP est un protocole de contexte robotique (RCP) open source de l'Institut Ali Dharma qui abaisse le seuil de développement de l'intelligence incarnée et ouvre l'ensemble du processus de développement.RynnRCP se compose du cadre RCP et du module RobotMotion....

Dernières ressources sur l'IA

Il y a 1 mois

019.4K

RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - Le modèle open source de compréhension du monde de l'Institut Ali Dharma

RynnEC est un modèle de compréhension du monde présenté par l'Alibaba Dharma Institute, qui se concentre sur les tâches d'intelligence incarnée. Le modèle est basé sur une technologie de fusion multimodale, combinant les données vidéo et le langage naturel, et peut analyser les objets d'une scène à partir de plusieurs dimensions, prenant en charge des fonctions telles que la compréhension des objets, la perception spatiale et la segmentation des cibles vidéo.

Dernières ressources sur l'IA

Il y a 1 mois

020K

Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - Kunlun World Wide Open Source 3D world world generation framework (cadre de génération de mondes 3D)

Matrix-3D est un framework open source de l'équipe Skywork AI, axé sur la génération de mondes 3D panoramiques explorables. Le cadre combine la génération de vidéos panoramiques et les techniques de reconstruction 3D pour générer des mondes 3D explorables de haute qualité et omnidirectionnels à partir d'une seule image ou d'un texte...

Dernières ressources sur l'IA

Il y a 1 mois

018.3K

GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Modèle de raisonnement visuel multimodal Open Source par Smart Spectrum

GLM-4.5V est le premier modèle d'inférence visuelle open source au monde introduit par Smart Spectrum, avec 106 milliards de paramètres totaux et 12 milliards de paramètres activés. Le modèle est entraîné sur la base du modèle de texte de nouvelle génération GLM-4.5-Air, avec de puissantes capacités de compréhension visuelle et de raisonnement, capable de traiter des images, des vidéos...

Dernières ressources sur l'IA

Il y a 1 mois

022K

Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

Matrix-Game 2.0 - Interactive World Model développé par KunlunWanwei

Matrix-Game 2.0 est un modèle de monde interactif développé par Kunlun SkyWork AI. Matrix-Game 2.0 est le premier modèle de génération interactive à longue séquence, en temps réel et à source ouverte, pour des scénarios à usage général. Il est capable de fonctionner à 25 FPS dans de multiples...

Dernières ressources sur l'IA

Il y a 1 mois

020.8K