GLM-4.1V-Thinking - une famille de modèles de langage visuel open source de Smart Spectrum AI
GLM-4.1V-Thinking est un modèle de langage visuel open source introduit par Smart Spectrum AI, conçu pour les tâches cognitives complexes. GLM-4.1V-Thinking prend en charge les entrées multimodales, couvrant les images, les vidéos et les documents. Basé sur l'architecture GLM-4V, le modèle introduit une chaîne de pensée...
ThinkSound - Modélisation de la génération audio par Ali Tongyi
ThinkSound est le premier modèle de génération audio CoT (Chain Thinking) introduit par l'équipe d'Ali Tongyi. Ce modèle permet de générer des effets sonores adaptés aux images vidéo, sur la base de l'introduction du raisonnement CoT, afin de résoudre le problème de la technologie traditionnelle, qui a du mal à capturer les détails dynamiques de l'écran et les relations spatiales.
Qwen-TTS - Modèle de synthèse vocale lancé par Ali Tongyi Qianqian
Qwen-TTS est un modèle de synthèse vocale avancé introduit par Ali Tongyi. Le modèle peut convertir efficacement un texte en une parole naturelle et fluide, en prenant en charge plusieurs langues et dialectes, tels que le mandarin, l'anglais, le dialecte de Pékin, etc., afin de répondre aux besoins de différentes régions et scènes. S'appuyant sur un corpus d'entraînement massif, le modèle produit une parole de haute qualité, rimant...
MultiAgentPPT - Système open source de génération de présentations d'IA
MultiAgentPPT est un système de génération de présentations IA multi-intelligentes à source ouverte. Les utilisateurs n'ont qu'à entrer le sujet, le système est basé sur la collaboration multi-intelligente, il complète automatiquement la génération des grandes lignes, la division des sujets, la recherche parallèle et le résumé du contenu et d'autres étapes pour générer rapidement des PPT.... de haute qualité.
Ovis-U1 - un modèle d'IA unifiée multimodale lancé par Ali
Ovis-U1 est un modèle unifié multimodal introduit par l'équipe Ovis du groupe Alibaba avec une échelle de paramètres de 3 milliards. Le modèle possède trois capacités principales : la compréhension multimodale, la génération de texte à partir d'images et l'édition d'images. Grâce à une conception architecturale avancée et à des méthodes de formation collaboratives et unifiées, il permet la réalisation d'images de haute fidélité...
Doppl - Application d'essayage virtuel AI de Google
Doppl est une application d'essayage virtuel de Google. Une fois que l'utilisateur a téléchargé une photo du corps entier, l'application prend en charge l'image du vêtement ou la capture d'écran sur la version numérique de son propre corps, et peut être convertie d'images statiques en vidéo générée par l'IA, de sorte que les utilisateurs puissent mieux ressentir l'effet du vêtement sur le corps.
Xunlei MCP - Xunlei lance un service de téléchargement automatique d'IA
Xunlei MCP est lancé par Xunlei, un service de téléchargement automatique basé sur la technologie de l'intelligence artificielle. Les utilisateurs de l'application d'intelligence artificielle qui prend en charge le service, avec une demande de téléchargement par saisie vocale ou textuelle, l'intelligence artificielle peut automatiquement rechercher les ressources du réseau et commencer le téléchargement. Xunlei MCP prend en charge la version PC de Xunlei et NAS Xunlei, rompant ainsi avec le mode de téléchargement traditionnel, permettant...
Kapi Bookkeeping - Application intelligente de comptabilité par ShangTech
Kapi Bookkeeping est une application intelligente de comptabilité par IA lancée par Shangtang Technology. L'application prend la comptabilité automatique comme fonction principale, identifie automatiquement les montants et les catégories, et prend en charge la saisie vocale, rendant la comptabilité facile et pratique. Kapi Bookkeeping peut analyser intelligemment les données de facturation et envoyer régulièrement des résumés de consommation personnalisés et des conseils financiers pour aider les utilisateurs à mieux...
Gemini CLI - Agent de programmation Google Open Source
Gemini CLI est un outil de programmation d'IA open source de Google basé sur l'incorporation du Big Model de Gemini dans le point de terminaison du développeur afin de fournir aux développeurs de puissantes capacités d'IA. L'outil comprend le code, manipule les fichiers, exécute les commandes et résout les problèmes de manière dynamique afin d'aider les développeurs à écrire efficacement des...
AnimaTensor - Un modèle de génération d'images quadratique de Toast AI et autres
AnimaTensor est un modèle de génération d'images quadratiques de l'équipe du CagliostroLab en collaboration avec TensorArt, basé sur une technique innovante de V-Prediction qui optimise la planification du bruit en prédisant la "vitesse" du processus de génération d'images...