méso (chimie)Wan2.2-Animate - Un modèle génératif pour la génération d'actions du Tongyi Wanxiang Open Source
Wan2.2-Animate est un modèle de génération d'action open source, supportant l'imitation d'action et le mode jeu de rôle. Les utilisateurs n'ont qu'à saisir l'image d'un personnage et une vidéo de référence, le modèle peut migrer les mouvements et les expressions du personnage vidéo vers le personnage image, donnant au personnage image une expression dynamique ...
méso (chimie)InternVLA-A1 - Shanghai AI Lab Open Source Integration of Operational Capabilities for Embodied Large Models (Intégration des capacités opérationnelles pour les grands modèles incarnés)
InternVLA-A1 est un grand modèle d'opération incarnée mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Il est capable de comprendre, d'imaginer et d'exécuter l'intégration, et peut accomplir la tâche avec précision. Le modèle fusionne les données d'opérations réelles et simulées, et automatise la construction d'actifs hybrides virtuels-réels multimodaux à grande échelle...
méso (chimie)VoxCPM - Facing Intelligence et Tsinghua Open Source End-to-End TTS Model (modèle TTS de bout en bout)
VoxCPM est un modèle de génération de parole mis à disposition par Facade Intelligence et la Shenzhen International Graduate School de l'Université de Tsinghua. VoxCPM adopte une architecture autorégressive de diffusion de bout en bout pour générer des représentations continues de la parole directement à partir du texte, dépassant ainsi les limites de la désambiguïsation discrète traditionnelle. Grâce à la modélisation hiérarchique du langage et à la quantification à l'état fini...
méso (chimie)InternVLA-N1 - Shanghai AI Lab Open Source Dual System Navigation End-to-End Large Model (en anglais)
InternVLA-N1 est un macromodèle de navigation à deux systèmes de bout en bout, mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Utilisant une architecture à deux systèmes, le système 2 est responsable de la compréhension des commandes linguistiques et de la planification des trajectoires à longue distance, tandis que le système 1 se concentre sur la réponse à haute fréquence et l'évitement agile des obstacles. Le modèle est entièrement formé sur la base de données synthétiques grâce à des ...
méso (chimie)VLAC - Le grand modèle open source de récompenses incorporées du Shanghai AI Lab
VLAC est un macromodèle de récompense incarnée open source du laboratoire d'intelligence artificielle de Shanghai. Basé sur le macromodèle multimodal InternVL, il fusionne les données vidéo Internet et les données de fonctionnement du robot pour fournir une estimation de la récompense du processus et de l'achèvement de la tâche pour l'apprentissage par renforcement du robot dans le monde réel.
méso (chimie)InternVLA-M1 - Le "cerveau" du laboratoire d'IA de Shanghai, un système double incarné à source ouverte
InternVLA-M1 est un "cerveau" incarné à source ouverte du laboratoire d'intelligence artificielle de Shanghai, qui est un grand modèle de fonctionnement à deux systèmes orienté vers le suivi des instructions. Il construit une boucle fermée complète couvrant "penser-agir-apprendre" et est responsable du raisonnement spatial de haut niveau et de la planification des tâches. Le modèle adopte une politique de formation en deux étapes...
PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool (Outil d'amélioration des mots)
PromptEnhancer est un outil open source d'amélioration des mots-guides conçu par l'équipe Mixed Meta de Tencent pour améliorer la génération de modèles texte-image (Text-to-Image, T2I). Grâce à l'approche de la chaîne de raisonnement (Chain-of-Thought, CoT) de l'utilisation ...
UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture
UnifoLM-WMA-0 est une architecture open source de modèle de monde et d'action à travers plusieurs classes d'ontologies de robots par Yu Shu Technology, conçue pour l'apprentissage général des robots. Composé d'un modèle de monde et d'une architecture d'action, le modèle de monde comprend les lois physiques de l'interaction robot-environnement, et l'architecture d'action est responsable...
InfiniteTalk - Outil open source de génération de vidéos audio pour Mission Vision AI
InfiniteTalk est un outil de génération de vidéos audio développé par l'équipe MeiGen-AI qui génère des vidéos parlantes de longueur illimitée sur la base de l'audio d'entrée. L'avantage principal est la technologie de synchronisation labiale précise, qui peut parfaitement faire correspondre l'audio avec la forme de la bouche du personnage pour générer des...
ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle
ROMA (Recursive-Open-Meta-Agent) est un framework méta-agent open source développé par Sentient AGI pour résoudre efficacement des problèmes complexes par la décomposition récursive des tâches et le traitement parallèle. Supporte Python 3.12+, Docker et...