Cercle de partage de l'IA

Partage quotidien des derniers produits, projets, cadres, interprétations de documents, etc.~ en matière d'IA
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - Le modèle universel du monde de Google

Genie 3 est une nouvelle génération de modèles de monde universels de Google DeepMind qui permet de générer des mondes virtuels hautement dynamiques et cohérents en temps réel.Genie 3 simule des phénomènes physiques, des écosystèmes naturels, et prend en charge la création de scénarios fantastiques et historiques. À l'aide d'invites textuelles, les utilisateurs peuvent...
il y a 3 jours
0547
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Le modèle de programmation le plus puissant d'Anthropic

Claude Opus 4.1 est un modèle de langage à grande échelle d'Anthropic, conçu pour le traitement efficace de tâches complexes. Le modèle excelle dans le domaine de la programmation, générant un code de haute qualité, supportant jusqu'à 32k de sortie unique, et s'adaptant à une large gamme de styles de programmation...
il y a 3 jours
0652
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - une famille de modèles d'inférence open source d'OpenAI

gpt-oss est la famille de modèles d'inférence open source d'OpenAI qui permet aux développeurs de disposer de solutions d'IA efficaces, flexibles et faciles à déployer. gpt-oss est disponible en deux versions, gpt-oss-120B avec 117 milliards de paramètres et la prise en charge de 8...
il y a 3 jours
0392
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - Le modèle de compréhension sonore open source de Xiaomi

MiDashengLM est le grand modèle open source de Xiaomi pour une compréhension efficace des sons, avec la version de paramètres spécifiques MiDashengLM-7B, qui se concentre sur le traitement et la compréhension audio. Le modèle est basé sur l'encodeur audio Xiaomi Dasheng et Qwen2.5-Omn...
Il y a 4 jours
0467
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - Modèle de génération de la parole pour le dialogue bilingue du laboratoire de Tsinghua (Open Source)

MOSS-TTSD est un modèle de dialogue parlé open source développé par le Speech and Language Lab de l'université de Tsinghua. MOSS-TTSD peut convertir des scripts de dialogue textuels en dialogues vocaux naturels, fluides et expressifs, et prend en charge la génération bilingue en anglais et en chinois.
Il y a 4 jours
0437
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - Un modèle de génération audio multimodale à partir de Racer

AudioGen-Omni est un modèle de génération audio multimodale de Racer qui génère de l'audio, de la parole et des chansons de haute qualité sur la base d'entrées telles que la vidéo, le texte, etc.
Il y a 4 jours
0542
RedOne - 小红书最新推出的社交大模型

RedOne - le dernier méga-modèle social de Little Red Book

RedOne est un grand modèle linguistique conçu pour les réseaux sociaux et introduit par Little Red Book. Le modèle est entraîné grâce à une stratégie de formation en trois étapes qui intègre les connaissances sociales et culturelles, renforce les capacités multitâches et aligne les préférences humaines....
il y a 5 jours
01.6K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - l'outil de raisonnement et de déploiement de grands modèles haute performance de Baidu

FastDeploy est un outil de raisonnement et de déploiement haute performance de Baidu, conçu pour les grands modèles de langage (LLM) et les modèles de langage visuels (VLM). FastDeploy est développé sur la base du cadre Flying Paddle (PaddlePaddle) et prend en charge une variété de plates-formes...
il y a 5 jours
0962
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - Jeu de données sémantiques gaussiennes 3D par Qunar Technology

InteriorGS est un ensemble de données sémantiques gaussiennes 3D de haute qualité introduit par Qunar Technology. Ce jeu de données contient 1 000 scènes 3D couvrant plus de 80 environnements intérieurs tels que des maisons, des magasins de proximité, des salles de mariage et des musées. Le jeu de données contient plus de 554 000 instances d'objets dans 755 catégories...
il y a 5 jours
0527
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - Modèles de synthèse vocale sans échantillon de Microsoft

DragonV2.1 est un modèle avancé de synthèse vocale à zéro échantillon de Microsoft. Basé sur l'architecture Transformer, ce modèle prend en charge le clonage multilingue et le clonage de la parole sans échantillon, et génère une parole naturelle et expressive avec seulement 5 à 90 secondes de messages vocaux.
il y a 5 jours
0877