Dernières ressources sur l'IA

Total 2716 articles
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

méso (chimie)InternVLA-A1 - Shanghai AI Lab Open Source Integration of Operational Capabilities for Embodied Large Models (Intégration des capacités opérationnelles pour les grands modèles incarnés)

InternVLA-A1 est un grand modèle d'opération incarnée mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Il est capable de comprendre, d'imaginer et d'exécuter l'intégration, et peut accomplir la tâche avec précision. Le modèle fusionne les données d'opérations réelles et simulées, et automatise la construction d'actifs hybrides virtuels-réels multimodaux à grande échelle...
Il y a 14 heures
0752
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

méso (chimie)VoxCPM - Facing Intelligence et Tsinghua Open Source End-to-End TTS Model (modèle TTS de bout en bout)

VoxCPM est un modèle de génération de parole mis à disposition par Facade Intelligence et la Shenzhen International Graduate School de l'Université de Tsinghua. VoxCPM adopte une architecture autorégressive de diffusion de bout en bout pour générer des représentations continues de la parole directement à partir du texte, dépassant ainsi les limites de la désambiguïsation discrète traditionnelle. Grâce à la modélisation hiérarchique du langage et à la quantification à l'état fini...
Il y a 15 heures
01K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

méso (chimie)InternVLA-N1 - Shanghai AI Lab Open Source Dual System Navigation End-to-End Large Model (en anglais)

InternVLA-N1 est un macromodèle de navigation à deux systèmes de bout en bout, mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Utilisant une architecture à deux systèmes, le système 2 est responsable de la compréhension des commandes linguistiques et de la planification des trajectoires à longue distance, tandis que le système 1 se concentre sur la réponse à haute fréquence et l'évitement agile des obstacles. Le modèle est entièrement formé sur la base de données synthétiques grâce à des ...
Il y a 15 heures
01K
VLAC - 上海AI Lab开源的具身奖励大模型

méso (chimie)VLAC - Le grand modèle open source de récompenses incorporées du Shanghai AI Lab

VLAC est un macromodèle de récompense incarnée open source du laboratoire d'intelligence artificielle de Shanghai. Basé sur le macromodèle multimodal InternVL, il fusionne les données vidéo Internet et les données de fonctionnement du robot pour fournir une estimation de la récompense du processus et de l'achèvement de la tâche pour l'apprentissage par renforcement du robot dans le monde réel.
Il y a 21 heures
0787
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

méso (chimie)InternVLA-M1 - Le "cerveau" du laboratoire d'IA de Shanghai, un système double incarné à source ouverte

InternVLA-M1 est un "cerveau" incarné à source ouverte du laboratoire d'intelligence artificielle de Shanghai, qui est un grand modèle de fonctionnement à deux systèmes orienté vers le suivi des instructions. Il construit une boucle fermée complète couvrant "penser-agir-apprendre" et est responsable du raisonnement spatial de haut niveau et de la planification des tâches. Le modèle adopte une politique de formation en deux étapes...
Il y a 2 jours
02.5K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

méso (chimie)Guide PDF de l'OpenAI pour rester en tête à l'ère de l'IA - avec liens de téléchargement

Staying ahead in the age of AI est un guide de leadership de l'OpenAI qui aide les chefs d'entreprise à conserver un avantage concurrentiel à l'ère de l'IA. Le guide souligne la croissance rapide de l'IA, avec des versions de modèles plus rapides, des coûts plus bas et une adoption plus rapide par les entreprises...
Il y a 2 jours
02.7K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

méso (chimie)PDF gratuit de Fundamentals of Large Models de l'Université de Zhejiang - avec lien de téléchargement

Fundamentals of Large Models fournit une analyse approfondie des technologies de base et des voies pratiques des grands modèles de langage (LLM). Partant de la théorie fondamentale de la modélisation linguistique, il explique systématiquement les principes de la conception de modèles basés sur des architectures statistiques, de réseaux neuronaux récurrents (RNN) et de transformateurs, en se concentrant sur les trois principaux grands modèles...
Il y a 2 jours
03K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

méso (chimie)LLaSO - Le premier modèle vocal entièrement open source de Logic Intelligence

LLaSO est un modèle vocal open source lancé par Beijing Depth Logic Intelligence Technology Co. Ltd, qui résout les problèmes de dispersion des données et de couverture insuffisante des tâches dans le domaine de la modélisation du langage vocal à grande échelle en intégrant des données vocales et textuelles et en fournissant des ensembles de données d'alignement, des ensembles de données de mise au point des commandes et des points de référence pour l'évaluation.
Il y a 2 jours
02.6K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0 - Modèles générés en 3D par Tencent avec prise en charge de la modélisation UHD

Hybrid 3D 3.0 est un modèle de génération 3D avancé de Tencent, basé sur la technologie de sculpture hiérarchique 3D-DiT, avec une résolution géométrique allant jusqu'à 1536³, capable de générer des modèles 3D ultra-haute définition et riches en détails, et d'exceller dans la modélisation de personnages, avec la capacité de modeler avec précision les cinq sens et la forme du corps.
il y a 3 jours
04.2K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture

UnifoLM-WMA-0 est une architecture open source de modèle de monde et d'action à travers plusieurs classes d'ontologies de robots par Yu Shu Technology, conçue pour l'apprentissage général des robots. Composé d'un modèle de monde et d'une architecture d'action, le modèle de monde comprend les lois physiques de l'interaction robot-environnement, et l'architecture d'action est responsable...
il y a 3 jours
04.2K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Outil open source de génération de vidéos audio pour Mission Vision AI

InfiniteTalk est un outil de génération de vidéos audio développé par l'équipe MeiGen-AI qui génère des vidéos parlantes de longueur illimitée sur la base de l'audio d'entrée. L'avantage principal est la technologie de synchronisation labiale précise, qui peut parfaitement faire correspondre l'audio avec la forme de la bouche du personnage pour générer des...
il y a 3 jours
04.6K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un grand modèle multimodal mis à disposition par le Shanghai AI Lab et Huawei Rise

Lumina-DiMOO est un modèle unifié de nouvelle génération pour la génération et la compréhension multimodales lancé par le Shanghai Artificial Intelligence Laboratory (SAL) en collaboration avec Huawei Rise lors de la Conférence mondiale sur l'intelligence artificielle 2025. Basé sur la plateforme matérielle et logicielle de base de Rise AI et sur la suite de grands modèles multimodaux MindSpeed MM, il complète...
il y a 3 jours
03.8K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Outil open source de prise de notes de conférence AI local-first

Hyprnote est un outil de prise de notes de réunion AI open source et local d'abord, conçu pour les professionnels afin de protéger la vie privée des utilisateurs et d'améliorer l'efficacité des réunions. Adoptant le principe du "local first", toutes les données sont stockées et traitées sur l'appareil local de l'utilisateur afin de garantir la sécurité des données et de prendre en charge les opérations hors ligne.
il y a 3 jours
03.5K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - Université Jiaotong de Shanghai - cadre de construction complet de corps mobiles intelligents à source ouverte

MobiAgent est une chaîne d'outils de corps intelligents mobiles à source ouverte du laboratoire IPADS de l'université Jiaotong de Shanghai, qui aide les utilisateurs à construire leurs propres assistants intelligents mobiles. En enregistrant la trajectoire des opérations de l'utilisateur et en générant des données de haute qualité, il forme des corps intelligents capables de comprendre des commandes en langage naturel. Parmi ses principales caractéristiques, citons l'efficacité...
Il y a 4 jours
04.2K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modèle d'IA open-source de Baidu pour la reconnaissance de texte de nouvelle génération

PP-OCRv5 est la dernière génération de modèle d'IA de reconnaissance de texte publiée par Baidu. Avec un design léger et un nombre de références de seulement 0,07B, il est adapté pour fonctionner efficacement sur les CPU et les appareils périphériques, et peut traiter plus de 370 caractères par seconde. Le modèle prend en charge le chinois simplifié, le chinois traditionnel, l'anglais, le japonais et le pinyin...
Il y a 4 jours
04.5K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework (en anglais)

Youtu-GraphRAG est un cadre de génération d'augmentation de recherche de graphes open source de Tencent Youtu Labs pour aider les grands modèles de langage à traiter les tâches complexes de questions-réponses avec plus de précision. En construisant un arbre de connaissances à quatre niveaux, les connaissances sont décomposées en quatre niveaux : attributs, relations, mots-clés et communautés, afin d'obtenir des connaissances interdomaines sur la maîtrise de l'acte...
Il y a 4 jours
04.2K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework (en anglais)

Stand-In est un cadre de génération vidéo léger, prêt à l'emploi et préservant l'identité, conçu par l'équipe WeChat Vision de Tencent. Axé sur la préservation des caractéristiques spécifiques de l'identité dans la génération vidéo, il n'a besoin que d'entraîner des paramètres supplémentaires du modèle de base 1%, et peut obtenir d'excellents résultats en matière de similarité des visages et de naturel.
Il y a 4 jours
04.2K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modèle TTS libre à source ouverte de la station B, le premier à permettre un contrôle précis de la durée.

IndexTTS2 est un nouveau modèle de synthèse vocale libre mis à disposition par l'équipe vocale de la station B, qui réalise une avancée majeure dans l'expression émotionnelle et le contrôle de la durée. Il s'agit du premier modèle de synthèse vocale autorégressif à prendre en charge un contrôle précis de la durée. Prise en charge du clonage de la voix sans échantillon, un seul fichier audio peut copier avec précision le son...
Il y a 6 jours
09.3K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Le dernier modèle de génération de musique AI de MiniMax !

MiniMax Music 1.5 est un outil avancé de génération de musique par IA qui permet de générer jusqu'à 4 minutes de musique sur la base d'une description en langage naturel de l'utilisateur. Le modèle prend en charge un large éventail de styles musicaux et de personnalisation de l'ambiance, et génère des tonalités vocales naturelles et complètes, des transitions fluides et des arrangements riches en couches...
Il y a 7 jours
08.5K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Université de Tsinghua Cadre de génération vidéo multimodale open source United Bytes

HuMo est un cadre de génération de vidéos multimodales mis à disposition par l'université de Tsinghua et le laboratoire de création intelligente ByteDance, qui se concentre sur la génération de vidéos centrées sur l'homme. Il permet de générer des vidéos humaines de haute qualité, finement structurées et contrôlables à partir d'entrées multimodales telles que du texte, des images et du son...
Il y a 7 jours
010.1K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan and Ali Dharma Institute and other open source intelligent image animation generation framework (cadre de génération d'animations d'images intelligentes)

AnyI2V est un cadre de génération d'animations d'images lancé conjointement par l'Université de Fudan, l'Alibaba Darmo Academy et d'autres, qui prend en charge la conversion d'images conditionnelles statiques (par exemple, des grilles, des nuages de points, etc.) en vidéos dynamiques sans nécessiter un processus d'apprentissage complexe et une grande quantité de données.
Il y a 7 jours
08.1K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - Le modèle de pensée profonde de Baidu pour une meilleure compréhension

Wenxin Big Model X1.1 est un modèle de pensée profonde lancé par Baidu, basé sur un cadre d'apprentissage par renforcement hybride qui se concentre sur l'amélioration de la compréhension et de la génération de langage. Le modèle excelle dans le traitement de questions complexes, le suivi d'instructions et la simulation du comportement des intelligences, et peut fournir avec précision des réponses éclairées et un contenu textuel de haute qualité.
il y a 1 semaine
09.3K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Outil gratuit de découpage sémantique de documents AI, ajustement dynamique du découpage

AntSK FileChunk est un outil gratuit de découpage intelligent de documents conçu pour les applications RAG (Retrieval Augmented Generation). La sémantique étant au cœur de l'outil, le document sera intelligemment découpé en segments sémantiquement complets et cohérents, supportant le multi-langage, ajustant dynamiquement la taille de la tranche pour assurer la cohérence contextuelle.
il y a 1 semaine
09.3K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChat Open Source Document Understanding and Semantic Retrieval Framework (Cadre de compréhension de documents et de recherche sémantique)

WeKnora est un logiciel open source de l'équipe WeChat de Tencent, basé sur le modèle LLM (Large Language Model) de compréhension de documents et de recherche sémantique, conçu pour la structure de scénarios de contenu de documents complexes et hétérogènes et conçu pour utiliser une architecture modulaire, l'intégration du prétraitement multimodal, l'indexation de vecteurs sémantiques, le rappel intelligent et le raisonnement génératif de grand modèle....
il y a 1 semaine
011.5K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Moteur d'entraînement de grands modèles open source du Shanghai AI Lab

XTuner V1 est une nouvelle génération de moteur d'entraînement de grands modèles en libre accès par le Shanghai Artificial Intelligence Laboratory, conçu pour l'entraînement de modèles d'experts mixtes (MoE) à très grande échelle. Développé sur la base de PyTorch FSDP, il atteint de hautes performances grâce à l'optimisation multidimensionnelle de la mémoire, de la communication et de la charge...
il y a 1 semaine
010K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Le modèle phare de Big Language de Tongyi Qianqian

Qwen3-Max-Preview est le dernier modèle phare de langue large publié par Tongyi Qianwen. Il s'agit du modèle comportant le plus grand nombre de paramètres de la famille Qwen3, avec une taille de paramètre de plus de 1 000 milliards. Le modèle présente des améliorations significatives en matière d'inférence, de suivi des instructions, de prise en charge multilingue et de couverture des connaissances à longue traîne...
Il y a 2 semaines
011.4K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modèle multimodal open source pour Meituan et l'Université Jiaotong de Shanghai

OneCAT est un nouveau modèle multimodal unifié lancé par Meituan en collaboration avec l'Université Jiaotong de Shanghai, qui adopte une architecture de décodeur pure intégrant de manière transparente des fonctions de compréhension multimodale, de génération de texte à partir d'images et d'édition d'images. Le modèle abandonne la conception des modèles multimodaux traditionnels qui s'appuient sur des codeurs visuels externes et des désambiguïsateurs...
Il y a 2 semaines
09.2K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - un modèle de génération humaine numérique à longue durée de vie lancé par Bytes en collaboration avec ZJU

InfinityHuman est un modèle commercial de génération de vidéos de personnages à partir de longues séries temporelles, lancé conjointement par ByteDance et l'université de Zhejiang. Le modèle est piloté par l'audio et peut générer des vidéos de personnages de haute résolution, de longue durée et visuellement cohérentes.
Il y a 2 semaines
09.5K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - Le dernier modèle de Dark Side of the Moon !

Kimi K2-0905 est un modèle d'IA avancé de Dark Side of the Moon Technologies Ltd. qui excelle dans l'assistance à la programmation, génère du code efficacement et soutient la génération de code soigné et standardisé dans le développement frontal. La longueur du contexte du modèle est étendue à 256K pour gérer des tâches complexes.
Il y a 2 semaines
013.3K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Modèle de traduction léger open source Tencent Mixed Meta

Hunyuan-MT-7B est un modèle de traduction léger introduit par l'équipe Mixed Meta de Tencent. Avec 7 milliards de références, il prend en charge la traduction mutuelle de 33 langues et de 5 langues/dialectes folkloriques chinois, dont le cantonais, l'ouïghour et le tibétain. Dans le cadre du concours WMT2025 de l'Association internationale de linguistique computationnelle (ACL)...
Il y a 2 semaines
014.1K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Step-Star open source speech macromodelling

Step-Audio 2 mini est un macromodèle de parole de bout en bout open source de Step-Audio. Il rompt avec la structure traditionnelle du modèle de la parole et adopte une véritable architecture multimodale de bout en bout, qui transforme directement l'entrée audio brute en sortie de réponse vocale, avec une latence réduite, et comprend les informations paralinguistiques et les signaux non vocaux.
il y a 3 semaines
016.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Shanghai AI Lab Open Source Multimodal Large Models (en anglais)

InternVL3.5 (Shusheng-Wanxiang 3.5) est un grand modèle multimodal open source du laboratoire d'intelligence artificielle de Shanghai. Le modèle est entièrement amélioré en termes de capacité générale, de capacité de raisonnement et d'efficacité de déploiement, fournissant neuf tailles de versions de 1 milliard à 241 milliards de paramètres, couvrant différents scénarios de demande de ressources, y compris les...
il y a 3 semaines
015.8K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Ensemble d'évaluation open-source Meeseeks pour évaluer la capacité à suivre les instructions d'un modèle

Meeseeks est un ensemble d'évaluation de grands modèles open source utilisé par l'équipe M17 de Meituan pour évaluer la capacité d'un modèle à suivre les instructions. Meeseeks utilise un cadre d'évaluation à trois niveaux pour mesurer de manière exhaustive si un modèle est capable de générer des réponses en stricte conformité avec les instructions de l'utilisateur, du niveau macro au niveau micro, et n'évalue pas la connaissance du contenu de la réponse comme un élément positif....
il y a 3 semaines
015.8K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modèle de génération de sons vidéo open source de Tencent

HunyuanVideo-Foley est un modèle open source de génération de sons vidéo conçu par l'équipe de Tencent Mixed Yuan, qui permet d'ajouter des effets sonores adaptés à des vidéos muettes. Le modèle est basé sur l'entraînement d'un ensemble de données à grande échelle, avec une architecture de convertisseur de diffusion multimodale, combinée à la représentation de la fonction de perte d'alignement et aux techniques d'optimisation de la VAE audio ...
il y a 3 semaines
020.6K
问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modèle d'IA tout-en-un de Ask White

Ask White 5 est le modèle phare "Tout en un" avec un niveau d'intelligence très élevé. Ce modèle obtient de bons résultats dans de nombreuses évaluations, comme le score composite de 64,7 de l'indice AA et le score de 86 de l'évaluation des capacités STEM, qui est proche du GPT-5, le meilleur au monde.
il y a 3 semaines
015.5K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - Le modèle de génération et d'édition d'images le plus puissant de Google

Gemini 2.5 Flash Image (nom de code nano banana) est un modèle de génération et d'édition d'images de pointe de Google qui maintient la cohérence des personnages d'une scène à l'autre et prend en charge l'édition précise d'images par le biais du langage naturel, par exemple en rendant les arrière-plans flous et en supprimant les taches.
il y a 3 semaines
018.1K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Un modèle de réflexion parallèle introduit par Ask o4 qui ouvre 8 pistes de réflexion en même temps.

Ask White o4 est un modèle innovant de réflexion parallèle qui ouvre 8 voies de réflexion en même temps, analyse le problème sous plusieurs angles et filtre automatiquement la solution optimale. Le modèle incorpore des techniques avancées d'apprentissage par renforcement Long-CoT et d'apprentissage par récompense de processus, possède de puissantes capacités de raisonnement profond et donne de bons résultats dans les tâches complexes.
il y a 3 semaines
015.7K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modèles de génération de scènes 3D open source de Qunar Technologies

SpatialGen est un modèle de génération de scènes 3D open source de Qunar Technology, basé sur l'architecture du modèle de diffusion, qui prend en charge la génération d'images multi-vues spatio-temporellement cohérentes sur la base de descriptions textuelles, d'images de référence et d'une disposition spatiale 3D, et qui permet de générer des scènes gaussiennes 3D et d'effectuer le rendu de vidéos itinérantes.
il y a 3 semaines
014.8K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - Une nouvelle génération de modèles de reconnaissance vocale lancée conjointement par Nail et Tongyi

Fun-ASR est un grand modèle de reconnaissance vocale lancé conjointement par Nail et Tongyi Labs. Le modèle a été entraîné avec des données audio massives et peut identifier avec précision la terminologie multi-industrielle, telle que l'Internet, la technologie, la décoration intérieure, etc. Le modèle est combiné avec les informations de l'entreprise Nail pour l'optimisation de l'inférence afin de réduire le problème des...
Il y a 4 semaines
020.2K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - Plate-forme d'écriture assistée par IA qui alimente l'ensemble du processus, de l'idée à la création

Squibler est une puissante plateforme d'écriture assistée par l'IA, conçue pour les écrivains, qui aide les utilisateurs dans l'ensemble du processus, de la conception à la publication en passant par la création. La plateforme fournit une variété de modèles d'histoires couvrant les romans, les scénarios, les nouvelles, etc. Les utilisateurs n'ont qu'à entrer le concept initial, et l'IA peut générer les grandes lignes, les personnages, les scènes...
Il y a 4 semaines
015.7K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - une plateforme de simulation sociale multi-agents lancée par HKUST

Aivilization est la première plateforme de simulation sociale de corps multi-intelligents développée par l'Université des sciences et technologies de Hong Kong. Elle constitue un bac à sable numérique visuel où les utilisateurs peuvent créer et guider des milliers d'intelligences IA afin d'observer l'évolution sociale de la future coexistence entre l'homme et l'IA. La plateforme prend en charge...
Il y a 4 semaines
025.5K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Le modèle d'IA open source xAI de Musk

Grok 2.5 est un modèle d'IA open source de l'entreprise xAI d'Elon Musk. Avec 269 milliards de paramètres, il est basé sur l'architecture Mixed Expertise (MoE) pour des performances et une inférence puissantes. Le modèle a été testé sur des connaissances scientifiques de haut niveau (GPQA), des connaissances générales (MMLU, MM...
Il y a 4 semaines
016.9K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》

Le nouveau rapport du MIT, The Generative AI Divide : the State of Business AI in 2025 (La fracture de l'IA générative : l'état de l'IA d'entreprise en 2025).

Le dernier rapport du MIT, The Generative AI Divide : the State of Business AI in 2025, révèle le cœur du processus d'adoption de l'IA générative (GenAI) auquel les entreprises sont confrontées en menant des recherches approfondies sur plus de 300 projets d'IA, des entretiens avec 52 organisations et une enquête auprès de 153 dirigeants....
Il y a 4 semaines
027.3K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - Outil de découpage vidéo AI open source pour générer des collections de vidéos thématiques en un seul clic !

AutoClip est un outil d'édition vidéo IA open source, basé sur une technologie IA avancée pour réaliser le processus complet de traitement vidéo automatisé. Les outils peuvent automatiquement identifier les points forts de la vidéo, l'extraction précise du contenu précieux, peut être basé sur la similitude du thème de clustering intelligent, pour générer une collection de contenu.AutoClip support...
Il y a 4 semaines
017.6K
ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - Outil d'animation générative d'IA open source de Tencent

ToonComposer est un outil d'animation générative par IA lancé conjointement par l'Université chinoise de Hong Kong, Tencent PCG ARC Lab et l'Université de Pékin. Grâce à la technologie générative post keyframe, la génération d'images intermédiaires et le processus de coloration sont intégrés dans un processus automatisé, ne nécessitant qu'une esquisse et un...
Il y a 4 semaines
019.8K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Modèle scientifique multimodal léger mis à disposition par le Shanghai AI Lab

Intern-S1-mini est un macromodèle scientifique multimodal léger avec une échelle de paramètres de 8B lancé par le Shanghai Artificial Intelligence Laboratory (SAL). Il hérite des puissantes capacités d'Intern-S1, combinant à la fois des capacités scientifiques générales et spécialisées, et convient à un déploiement rapide et à un développement secondaire. En termes de performances, I...
Il y a 4 semaines
017K
CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - Le modèle VLA efficace du groupe Amoy

CombatVLA est un modèle 3D innovant spécifique aux jeux de rôle et d'action (ARPG), développé par l'équipe du Future Life Lab du groupe Amoy. CombatVLA est un modèle vision-linguistique-action (VLA), construit sur une échelle paramétrique de 3B, qui recueille les données du joueur humain par l'intermédiaire d'un...
Il y a 4 semaines
016.3K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - Le dernier modèle d'IA open source de DeepSeek

DeepSeek V3.1 est une nouvelle génération de modèles d'IA introduits par DeepSeek, avec d'importantes améliorations par rapport à son prédécesseur, V3. DeepSeek V3.1 introduit une architecture de raisonnement hybride qui permet au modèle de basculer de manière flexible entre les modes de réflexion et de non-réflexion, améliorant de manière significative la...
Il y a 4 semaines
017.7K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - Plate-forme robotique polyvalente à code source ouvert de Jiyuan, en collaboration avec Beihang et d'autres organismes

Genie Envisioner (GE) est une plateforme unifiée pour les opérations robotiques développée par l'équipe de Genie Robotics en collaboration avec l'Université nationale de Singapour, l'Université d'aéronautique et d'astronautique de Pékin et d'autres institutions. Elle permet aux robots de mieux comprendre et d'exécuter des tâches en "imaginant d'abord, puis en agissant".
Il y a 1 mois
019.6K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Modèle de base de vision auto-supervisée de nouvelle génération de Meta AI

DINOv3 est un modèle de base de vision auto-supervisée de nouvelle génération de Meta AI qui utilise un paradigme d'apprentissage auto-supervisé pour apprendre les caractéristiques des images sans données d'étiquetage. Il résout le problème de la dégradation des caractéristiques en améliorant la préparation des données et en introduisant l'ancrage Gram, et améliore la généralisation...
Il y a 1 mois
024.5K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Cadre open source de Tencent Hunyuan permettant de générer des vidéos interactives pour les jeux de nouvelle génération.

Hunyuan-GameCraft est un cadre de génération de vidéos de jeux interactifs open source de l'équipe Hunyuan de Tencent. A partir d'une simple image et d'invites, ce cadre permet de générer des vidéos de jeux hautement dynamiques. L'utilisateur peut contrôler le contenu vidéo en temps réel à l'aide d'un clavier et d'une souris.
Il y a 1 mois
021.8K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - Le modèle open source de compréhension du monde de l'Institut Ali Dharma

RynnEC est un modèle de compréhension du monde présenté par l'Alibaba Dharma Institute, qui se concentre sur les tâches d'intelligence incarnée. Le modèle est basé sur une technologie de fusion multimodale, combinant les données vidéo et le langage naturel, et peut analyser les objets d'une scène à partir de plusieurs dimensions, prenant en charge des fonctions telles que la compréhension des objets, la perception spatiale et la segmentation des cibles vidéo.
Il y a 1 mois
020K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - Kunlun World Wide Open Source 3D world world generation framework (cadre de génération de mondes 3D)

Matrix-3D est un framework open source de l'équipe Skywork AI, axé sur la génération de mondes 3D panoramiques explorables. Le cadre combine la génération de vidéos panoramiques et les techniques de reconstruction 3D pour générer des mondes 3D explorables de haute qualité et omnidirectionnels à partir d'une seule image ou d'un texte...
Il y a 1 mois
018.3K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Modèle de raisonnement visuel multimodal Open Source par Smart Spectrum

GLM-4.5V est le premier modèle d'inférence visuelle open source au monde introduit par Smart Spectrum, avec 106 milliards de paramètres totaux et 12 milliards de paramètres activés. Le modèle est entraîné sur la base du modèle de texte de nouvelle génération GLM-4.5-Air, avec de puissantes capacités de compréhension visuelle et de raisonnement, capable de traiter des images, des vidéos...
Il y a 1 mois
022K