Produits multimodaux interactifs en temps réel

Total 27 articles

mettre en ordre

RealtimeVoiceChat : dialogue vocal naturel à faible latence avec l'IA

Introduction générale RealtimeVoiceChat est un projet open source axé sur les conversations naturelles en temps réel avec l'intelligence artificielle par le biais de la voix. Les utilisateurs utilisent un microphone pour saisir leur voix, et le système capture l'audio via un navigateur, le convertit rapidement en texte, et un grand modèle de langage (LLM) génère...

Il y a 4 mois

012.3K

Stepsailor : intégration de barres de commande IA dans les produits SaaS existants

Stepsailor est un outil destiné aux développeurs, dont le cœur est une barre de commande IA. Les développeurs peuvent l'utiliser pour que leurs logiciels comprennent ce que dit l'utilisateur, par exemple "ajouter une nouvelle tâche", et le logiciel l'exécutera automatiquement. Il est intégré via un simple SDK dans...

Dernières ressources sur l'IA # Outils de productivité professionnels # Produits multimodaux interactifs en temps réel

il y a 5 mois

010.5K

OpenAvatarChat : un outil de dialogue humain numérique conçu de manière modulaire

Introduction générale OpenAvatarChat est un projet open source développé par l'équipe HumanAIGC-Engineering et hébergé sur GitHub. Il s'agit d'un outil modulaire de dialogue humain numérique qui permet aux utilisateurs de fonctionner sur un seul PC...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

013K

VideoMind : projet open source de positionnement des vidéos en fonction de l'heure, du contenu et des questions-réponses

Introduction générale VideoMind est un outil d'IA multimodale open source qui se concentre sur l'inférence, les questions-réponses et la génération de résumés pour les vidéos de longue durée. Il a été développé par Ye Liu de l'Université polytechnique de Hong Kong et une équipe du Show Lab de l'Université nationale de Singapour. L'outil imite la compréhension humaine des vidéos...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Outil de résumé de texte AI et d'audio/vidéo # AI éditeur audio/vidéo

Il y a 3 mois

012.3K

MoshiVis : un modèle open source pour le dialogue vocal en temps réel et la compréhension des images

Introduction générale MoshiVis est un projet open source développé par Kyutai Labs et hébergé sur GitHub. Il est basé sur le modèle de synthèse vocale Moshi (7B paramètres), avec environ 206 millions de nouveaux paramètres d'adaptation et Pal...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

011.8K

Qwen2.5-Omni : un modèle de mesure finale pour la saisie multimodale et l'interaction vocale en temps réel

Introduction détaillée Qwen2.5-Omni est un modèle d'IA multimodale open source développé par l'équipe Qwen d'Alibaba Cloud. Il peut traiter de multiples entrées telles que du texte, des images, de l'audio et de la vidéo, et générer des réponses textuelles ou vocales naturelles en temps réel. Le modèle a été lancé en 2025, le 3 ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

012K

xiaozhi-esp32-server : Service backend open source pour le chatbot Xiaozhi AI

Introduction générale xiaozhi-esp32-server est un outil qui fournit un service de backend pour le chatbot Xiaozhi AI (xiaozhi-esp32). Il est écrit en Python et basé sur le protocole WebSocket pour aider les utilisateurs à...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

019.7K

Baichuan-Audio : un modèle audio de bout en bout pour l'interaction vocale en temps réel

Introduction complète Baichuan-Audio est un projet open source développé par Baichuan Intelligence (baichuan-inc), hébergé sur GitHub, qui se concentre sur la technologie d'interaction vocale de bout en bout. Le projet fournit un cadre de traitement audio complet qui permet de ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

012.2K

PowerAgents : plateforme d'intelligence artificielle pour l'exécution de tâches Web temporisées

Introduction générale PowerAgents est une plateforme d'intelligence artificielle axée sur les tâches d'automatisation du Web, qui permet aux utilisateurs de créer et de déployer des intelligences intelligentes capables de cliquer, de saisir et d'extraire des données. La plateforme permet de définir des tâches à exécuter automatiquement toutes les heures, tous les jours ou toutes les semaines, et les utilisateurs peuvent également...

Dernières ressources sur l'IA # Produits multimodaux interactifs en temps réel

Il y a 6 mois

011K

Step-Audio : un cadre d'interaction vocale multimodale qui reconnaît la parole et communique à l'aide de la parole clonée, entre autres caractéristiques.

Introduction complète Step-Audio est un cadre d'interaction vocale intelligente open source conçu pour fournir des capacités de compréhension et de génération vocales prêtes à l'emploi pour les environnements de production. Le cadre prend en charge les conversations multilingues (par exemple, le chinois, l'anglais, le japonais), les discours émotionnels (par exemple, heureux, triste), les dialectes régionaux (par exemple, le cantonais, le sichuan ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Clonage vocal AI # Produits multimodaux interactifs en temps réel

Il y a 6 mois

013.4K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini Cursor : un assistant intelligent de bureau basé sur Gemini, capable de voir, d'entendre et de parler.

Introduction générale Gemini Cursor est un assistant intelligent de bureau basé sur le modèle Gemini 2.0 Flash (expérimental) de Google. Il permet des interactions visuelles, auditives et vocales par le biais d'une API multimodale, offrant une utilisation...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

013.2K

DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Introduction complète DeepSeek-VL2 est une série de modèles avancés de langage visuel avec mélange d'experts (MoE) qui améliorent de manière significative les performances de son prédécesseur, DeepSeek-VL. Les modèles sont utiles pour les questions-réponses visuelles, la reconnaissance...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

012.7K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI Web Operator : Automatisation du navigateur, implémentation Open Source d'OpenAI Operator

Introduction générale AI Web Operator est un outil d'exploitation de navigateur d'IA open source conçu pour simplifier l'expérience de l'utilisateur dans le navigateur en intégrant plusieurs technologies d'IA et SDK. L'outil est basé sur Browserbase et Vercel...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

011.4K

SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, qui est formé sur la base de millions d'heures de données vocales. Le système est équipé d'une expression vocale anthropomorphique et d'une réponse à faible latence de 100 ms, ce qui permet de...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

011K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI Realtime Agents : A Multi-Intelligent Body Speech Interaction Application (OpenAI Example)

Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

010.5K

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

013.6K

Weebo : un chatbot vocal en temps réel qui offre une expérience de dialogue en langage naturel

Introduction générale Weebo est un chatbot vocal en temps réel open source qui utilise Whisper Small pour la reconnaissance vocale, Llama 3.2 pour la génération de langage naturel et Kokoro-82M pour la synthèse vocale. Le projet a été développé par Aman...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

012.1K

OmAgent : un corps intelligent pour la construction d'appareils intelligents multimodaux

Introduction OmAgent est un cadre multimodal de corps intelligent développé par Om AI Lab, visant à fournir de puissantes fonctionnalités alimentées par l'IA pour les appareils intelligents. En intégrant des modèles de base multimodaux et des algorithmes de corps intelligents de pointe, le projet permet aux développeurs de créer des appareils intelligents efficaces sur une variété de...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel # Cadre de développement de l'organisme intelligent

Il y a 8 mois

011.7K

"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3

Introduction complète Always-On AI Assistant est un projet innovant d'assistant d'IA qui crée un système d'assistant d'IA puissant et permanent en ligne en intégrant des technologies avancées telles que Deepseek-V3, RealtimeSTT et Typer...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

014.6K

BrownChat : assistant IA open source de chat vocal en temps réel

Introduction générale BrownChat est une application de chat audio en temps réel basée sur la technologie LLM (Large Language Modelling). Développé par l'utilisateur GitHub sugarforever, le projet vise à améliorer l'expérience de communication de l'utilisateur grâce à une technologie avancée de traitement du langage naturel.B...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

010.6K

Xiaozhi AI Chatbot : créez votre compagnon de chat IA, un dialogue vocal facile et une interaction intelligente.

Introduction complète Xiaozhi AI Chatbot est un projet open source basé sur la carte de développement ESP32, conçu pour aider les utilisateurs à construire leur propre compagnon de chat IA. Le projet a été développé par Shrimp et est principalement utilisé à des fins pédagogiques pour aider plus de gens à se lancer dans le développement de matériel d'IA et à comprendre comment appliquer de grands modèles de langage à des...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

023.2K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js : un modèle Next.js pour construire des applications d'IA de dialogue vocal en temps réel

Introduction complète OpenAI Realtime API Next.js est un projet open source basé sur le framework Next.js , conçu pour aider les développeurs à créer rapidement des applications d'IA vocale en temps réel. Le projet intègre l'API en temps réel d'OpenAI et la technologie WebRTC...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

08.8K

VITA : Open Source Multimodal Large Language Models for Real-Time Visual and Speech Interaction (modèles multimodaux de langage à grande échelle pour l'interaction visuelle et vocale en temps réel)

Introduction générale VITA est un projet open source de modélisation interactive multimodale du langage, pionnier dans la capacité à réaliser une véritable interaction multimodale complète. Le projet a lancé VITA-1.0 en août 2024, inaugurant le premier modèle de langage interactif entièrement modal en open source....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

017K

TransRouter : un outil de conversion audio en temps réel pour la traduction du chinois vers l'anglais basé sur le modèle multimodal Gemini

TransRouter est un outil de traduction vocale en temps réel basé sur le modèle Gemini de Google, spécialement conçu pour la traduction vocale en temps réel entre l'anglais et le chinois. L'outil s'intègre de manière transparente dans les logiciels de vidéoconférence tels que Zoom, fournissant un outil puissant pour...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

012.6K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Fish Agent : assistant de clonage vocal IA de bout en bout, assistant de dialogue vocal en temps réel, projet dérivé de Fish Speech

Introduction complète Projet de dérivation de la parole de Fish Fish Agent est un système révolutionnaire de clonage de la parole de bout en bout développé sur la base de l'architecture du modèle V0.1 3B. En tant que système de traitement de clones de parole de bout en bout, sa caractéristique la plus importante est l'utilisation de...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Clonage vocal AI # Produits multimodaux interactifs en temps réel

Il y a 8 mois

013.3K

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni : un modèle de compréhension multimodale en bout de chaîne prenant en charge la compréhension et l'analyse multimodales de textes, d'images et de sons

Introduction Infini-Megrez est une solution d'intelligence artificielle développée par le dôme de base incontesté (Infinigence AI), visant à atteindre une compréhension et une analyse multimodales efficaces grâce à la co-conception de matériel et de logiciel. Le cœur du projet est le modèle Megrez-3B, qui prend en charge les graphes...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 7 mois

09.2K

Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Introduction générale Ichigo est un projet open source d'IA vocale en temps réel qui vise à étendre les modèles de langage basés sur le texte avec des capacités d'écoute natives. Le projet utilise des techniques de fusion précoces inspirées de l'article de Meta sur le caméléon....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 8 mois

012.4K

Ce n'est pas le cas.