Genie 3 - Le modèle universel du monde de Google
Genie 3 est une nouvelle génération de modèles de monde universels de Google DeepMind qui permet de générer des mondes virtuels hautement dynamiques et cohérents en temps réel.Genie 3 simule des phénomènes physiques, des écosystèmes naturels, et prend en charge la création de scénarios fantastiques et historiques. À l'aide d'invites textuelles, les utilisateurs peuvent...
Claude Opus 4.1 - Le modèle de programmation le plus puissant d'Anthropic
Claude Opus 4.1 est un modèle de langage à grande échelle d'Anthropic, conçu pour le traitement efficace de tâches complexes. Le modèle excelle dans le domaine de la programmation, générant un code de haute qualité, supportant jusqu'à 32k de sortie unique, et s'adaptant à une large gamme de styles de programmation...
gpt-oss - une famille de modèles d'inférence open source d'OpenAI
gpt-oss est la famille de modèles d'inférence open source d'OpenAI qui permet aux développeurs de disposer de solutions d'IA efficaces, flexibles et faciles à déployer. gpt-oss est disponible en deux versions, gpt-oss-120B avec 117 milliards de paramètres et la prise en charge de 8...
MiDashengLM - Le modèle de compréhension sonore open source de Xiaomi
MiDashengLM est le grand modèle open source de Xiaomi pour une compréhension efficace des sons, avec la version de paramètres spécifiques MiDashengLM-7B, qui se concentre sur le traitement et la compréhension audio. Le modèle est basé sur l'encodeur audio Xiaomi Dasheng et Qwen2.5-Omn...
MOSS-TTSD - Modèle de génération de la parole pour le dialogue bilingue du laboratoire de Tsinghua (Open Source)
MOSS-TTSD est un modèle de dialogue parlé open source développé par le Speech and Language Lab de l'université de Tsinghua. MOSS-TTSD peut convertir des scripts de dialogue textuels en dialogues vocaux naturels, fluides et expressifs, et prend en charge la génération bilingue en anglais et en chinois.
AudioGen-Omni - Un modèle de génération audio multimodale à partir de Racer
AudioGen-Omni est un modèle de génération audio multimodale de Racer qui génère de l'audio, de la parole et des chansons de haute qualité sur la base d'entrées telles que la vidéo, le texte, etc.
RedOne - le dernier méga-modèle social de Little Red Book
RedOne est un grand modèle linguistique conçu pour les réseaux sociaux et introduit par Little Red Book. Le modèle est entraîné grâce à une stratégie de formation en trois étapes qui intègre les connaissances sociales et culturelles, renforce les capacités multitâches et aligne les préférences humaines....
FastDeploy - l'outil de raisonnement et de déploiement de grands modèles haute performance de Baidu
FastDeploy est un outil de raisonnement et de déploiement haute performance de Baidu, conçu pour les grands modèles de langage (LLM) et les modèles de langage visuels (VLM). FastDeploy est développé sur la base du cadre Flying Paddle (PaddlePaddle) et prend en charge une variété de plates-formes...
InteriorGS - Jeu de données sémantiques gaussiennes 3D par Qunar Technology
InteriorGS est un ensemble de données sémantiques gaussiennes 3D de haute qualité introduit par Qunar Technology. Ce jeu de données contient 1 000 scènes 3D couvrant plus de 80 environnements intérieurs tels que des maisons, des magasins de proximité, des salles de mariage et des musées. Le jeu de données contient plus de 554 000 instances d'objets dans 755 catégories...
DragonV2.1 - Modèles de synthèse vocale sans échantillon de Microsoft
DragonV2.1 est un modèle avancé de synthèse vocale à zéro échantillon de Microsoft. Basé sur l'architecture Transformer, ce modèle prend en charge le clonage multilingue et le clonage de la parole sans échantillon, et génère une parole naturelle et expressive avec seulement 5 à 90 secondes de messages vocaux.