Cercle de partage de l'IA

L'IA change le monde !
Wan2.2-Animate - 通义万相开源的动作生成模型

méso (chimie)Wan2.2-Animate - Un modèle génératif pour la génération d'actions du Tongyi Wanxiang Open Source

Wan2.2-Animate est un modèle de génération d'action open source, supportant l'imitation d'action et le mode jeu de rôle. Les utilisateurs n'ont qu'à saisir l'image d'un personnage et une vidéo de référence, le modèle peut migrer les mouvements et les expressions du personnage vidéo vers le personnage image, donnant au personnage image une expression dynamique ...
il y a 37 minutes
0107
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

méso (chimie)InternVLA-A1 - Shanghai AI Lab Open Source Integration of Operational Capabilities for Embodied Large Models (Intégration des capacités opérationnelles pour les grands modèles incarnés)

InternVLA-A1 est un grand modèle d'opération incarnée mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Il est capable de comprendre, d'imaginer et d'exécuter l'intégration, et peut accomplir la tâche avec précision. Le modèle fusionne les données d'opérations réelles et simulées, et automatise la construction d'actifs hybrides virtuels-réels multimodaux à grande échelle...
Il y a 20 heures
01K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

méso (chimie)VoxCPM - Facing Intelligence et Tsinghua Open Source End-to-End TTS Model (modèle TTS de bout en bout)

VoxCPM est un modèle de génération de parole mis à disposition par Facade Intelligence et la Shenzhen International Graduate School de l'Université de Tsinghua. VoxCPM adopte une architecture autorégressive de diffusion de bout en bout pour générer des représentations continues de la parole directement à partir du texte, dépassant ainsi les limites de la désambiguïsation discrète traditionnelle. Grâce à la modélisation hiérarchique du langage et à la quantification à l'état fini...
Il y a 20 heures
01.7K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

méso (chimie)InternVLA-N1 - Shanghai AI Lab Open Source Dual System Navigation End-to-End Large Model (en anglais)

InternVLA-N1 est un macromodèle de navigation à deux systèmes de bout en bout, mis à disposition par le laboratoire d'intelligence artificielle de Shanghai. Utilisant une architecture à deux systèmes, le système 2 est responsable de la compréhension des commandes linguistiques et de la planification des trajectoires à longue distance, tandis que le système 1 se concentre sur la réponse à haute fréquence et l'évitement agile des obstacles. Le modèle est entièrement formé sur la base de données synthétiques grâce à des ...
Il y a 21 heures
01.4K
VLAC - 上海AI Lab开源的具身奖励大模型

méso (chimie)VLAC - Le grand modèle open source de récompenses incorporées du Shanghai AI Lab

VLAC est un macromodèle de récompense incarnée open source du laboratoire d'intelligence artificielle de Shanghai. Basé sur le macromodèle multimodal InternVL, il fusionne les données vidéo Internet et les données de fonctionnement du robot pour fournir une estimation de la récompense du processus et de l'achèvement de la tâche pour l'apprentissage par renforcement du robot dans le monde réel.
il y a 1 jour
01.5K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

méso (chimie)InternVLA-M1 - Le "cerveau" du laboratoire d'IA de Shanghai, un système double incarné à source ouverte

InternVLA-M1 est un "cerveau" incarné à source ouverte du laboratoire d'intelligence artificielle de Shanghai, qui est un grand modèle de fonctionnement à deux systèmes orienté vers le suivi des instructions. Il construit une boucle fermée complète couvrant "penser-agir-apprendre" et est responsable du raisonnement spatial de haut niveau et de la planification des tâches. Le modèle adopte une politique de formation en deux étapes...
Il y a 2 jours
03.1K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool (Outil d'amélioration des mots)

PromptEnhancer est un outil open source d'amélioration des mots-guides conçu par l'équipe Mixed Meta de Tencent pour améliorer la génération de modèles texte-image (Text-to-Image, T2I). Grâce à l'approche de la chaîne de raisonnement (Chain-of-Thought, CoT) de l'utilisation ...
Il y a 2 jours
03.5K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture

UnifoLM-WMA-0 est une architecture open source de modèle de monde et d'action à travers plusieurs classes d'ontologies de robots par Yu Shu Technology, conçue pour l'apprentissage général des robots. Composé d'un modèle de monde et d'une architecture d'action, le modèle de monde comprend les lois physiques de l'interaction robot-environnement, et l'architecture d'action est responsable...
il y a 3 jours
04.4K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Outil open source de génération de vidéos audio pour Mission Vision AI

InfiniteTalk est un outil de génération de vidéos audio développé par l'équipe MeiGen-AI qui génère des vidéos parlantes de longueur illimitée sur la base de l'audio d'entrée. L'avantage principal est la technologie de synchronisation labiale précise, qui peut parfaitement faire correspondre l'audio avec la forme de la bouche du personnage pour générer des...
il y a 3 jours
04.8K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

ROMA (Recursive-Open-Meta-Agent) est un framework méta-agent open source développé par Sentient AGI pour résoudre efficacement des problèmes complexes par la décomposition récursive des tâches et le traitement parallèle. Supporte Python 3.12+, Docker et...
il y a 3 jours
04.5K