Produits multimodaux interactifs en temps réel

Total 27 articles
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat : dialogue vocal naturel à faible latence avec l'IA

Introduction générale RealtimeVoiceChat est un projet open source axé sur les conversations naturelles en temps réel avec l'intelligence artificielle par le biais de la voix. Les utilisateurs utilisent un microphone pour saisir leur voix, et le système capture l'audio via un navigateur, le convertit rapidement en texte, et un grand modèle de langage (LLM) génère...
Il y a 3 mois
01K
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor : intégration de barres de commande IA dans les produits SaaS existants

Stepsailor est un outil destiné aux développeurs, dont le cœur est une barre de commande IA. Les développeurs peuvent l'utiliser pour que leurs logiciels comprennent ce que dit l'utilisateur, par exemple "ajouter une nouvelle tâche", et le logiciel l'exécutera automatiquement. Il est intégré via un simple SDK dans...
Il y a 4 mois
0839
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind : projet open source de positionnement des vidéos en fonction de l'heure, du contenu et des questions-réponses

Introduction générale VideoMind est un outil d'IA multimodale open source qui se concentre sur l'inférence, les questions-réponses et la génération de résumés pour les vidéos de longue durée. Il a été développé par Ye Liu de l'Université polytechnique de Hong Kong et une équipe du Show Lab de l'Université nationale de Singapour. L'outil imite la compréhension humaine des vidéos...
Il y a 2 mois
01.3K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni : un modèle de mesure finale pour la saisie multimodale et l'interaction vocale en temps réel

Introduction détaillée Qwen2.5-Omni est un modèle d'IA multimodale open source développé par l'équipe Qwen d'Alibaba Cloud. Il peut traiter de multiples entrées telles que du texte, des images, de l'audio et de la vidéo, et générer des réponses textuelles ou vocales naturelles en temps réel. Le modèle a été lancé en 2025, le 3 ...
il y a 5 mois
02K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio : un modèle audio de bout en bout pour l'interaction vocale en temps réel

Introduction complète Baichuan-Audio est un projet open source développé par Baichuan Intelligence (baichuan-inc), hébergé sur GitHub, qui se concentre sur la technologie d'interaction vocale de bout en bout. Le projet fournit un cadre de traitement audio complet qui permet de ...
il y a 5 mois
01.6K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents : plateforme d'intelligence artificielle pour l'exécution de tâches Web temporisées

Introduction générale PowerAgents est une plateforme d'intelligence artificielle axée sur les tâches d'automatisation du Web, qui permet aux utilisateurs de créer et de déployer des intelligences intelligentes capables de cliquer, de saisir et d'extraire des données. La plateforme permet de définir des tâches à exécuter automatiquement toutes les heures, tous les jours ou toutes les semaines, et les utilisateurs peuvent également...
il y a 5 mois
01.5K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio : un cadre d'interaction vocale multimodale qui reconnaît la parole et communique à l'aide de la parole clonée, entre autres caractéristiques.

Introduction complète Step-Audio est un cadre d'interaction vocale intelligente open source conçu pour fournir des capacités de compréhension et de génération vocales prêtes à l'emploi pour les environnements de production. Le cadre prend en charge les conversations multilingues (par exemple, le chinois, l'anglais, le japonais), les discours émotionnels (par exemple, heureux, triste), les dialectes régionaux (par exemple, le cantonais, le sichuan ...
Il y a 6 mois
02K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Introduction complète DeepSeek-VL2 est une série de modèles avancés de langage visuel avec mélange d'experts (MoE) qui améliorent de manière significative les performances de son prédécesseur, DeepSeek-VL. Les modèles sont utiles pour les questions-réponses visuelles, la reconnaissance...
Il y a 6 mois
01.9K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, qui est formé sur la base de millions d'heures de données vocales. Le système est équipé d'une expression vocale anthropomorphique et d'une réponse à faible latence de 100 ms, ce qui permet de...
Il y a 6 mois
01.8K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents : A Multi-Intelligent Body Speech Interaction Application (OpenAI Example)

Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...
Il y a 7 mois
02.8K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...
Il y a 7 mois
02.1K
OmAgent:构建多模态智能设备的智能体框架

OmAgent : un corps intelligent pour la construction d'appareils intelligents multimodaux

Introduction OmAgent est un cadre multimodal de corps intelligent développé par Om AI Lab, visant à fournir de puissantes fonctionnalités alimentées par l'IA pour les appareils intelligents. En intégrant des modèles de base multimodaux et des algorithmes de corps intelligents de pointe, le projet permet aux développeurs de créer des appareils intelligents efficaces sur une variété de...
Il y a 7 mois
01.8K
BrownChat:开源实时语音聊天的AI助手

BrownChat : assistant IA open source de chat vocal en temps réel

Introduction générale BrownChat est une application de chat audio en temps réel basée sur la technologie LLM (Large Language Modelling). Développé par l'utilisateur GitHub sugarforever, le projet vise à améliorer l'expérience de communication de l'utilisateur grâce à une technologie avancée de traitement du langage naturel.B...
Il y a 7 mois
01.5K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot : créez votre compagnon de chat IA, un dialogue vocal facile et une interaction intelligente.

Introduction complète Xiaozhi AI Chatbot est un projet open source basé sur la carte de développement ESP32, conçu pour aider les utilisateurs à construire leur propre compagnon de chat IA. Le projet a été développé par Shrimp et est principalement utilisé à des fins pédagogiques pour aider plus de gens à se lancer dans le développement de matériel d'IA et à comprendre comment appliquer de grands modèles de langage à des...
il y a 5 mois
02.5K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js : un modèle Next.js pour construire des applications d'IA de dialogue vocal en temps réel

Introduction complète OpenAI Realtime API Next.js est un projet open source basé sur le framework Next.js , conçu pour aider les développeurs à créer rapidement des applications d'IA vocale en temps réel. Le projet intègre l'API en temps réel d'OpenAI et la technologie WebRTC...
Il y a 7 mois
01.8K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA : Open Source Multimodal Large Language Models for Real-Time Visual and Speech Interaction (modèles multimodaux de langage à grande échelle pour l'interaction visuelle et vocale en temps réel)

Introduction générale VITA est un projet open source de modélisation interactive multimodale du langage, pionnier dans la capacité à réaliser une véritable interaction multimodale complète. Le projet a lancé VITA-1.0 en août 2024, inaugurant le premier modèle de langage interactif entièrement modal en open source....
Il y a 7 mois
02K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter : un outil de conversion audio en temps réel pour la traduction du chinois vers l'anglais basé sur le modèle multimodal Gemini

TransRouter est un outil de traduction vocale en temps réel basé sur le modèle Gemini de Google, spécialement conçu pour la traduction vocale en temps réel entre l'anglais et le chinois. L'outil s'intègre de manière transparente dans les logiciels de vidéoconférence tels que Zoom, fournissant un outil puissant pour...
Il y a 7 mois
01.6K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent : assistant de clonage vocal IA de bout en bout, assistant de dialogue vocal en temps réel, projet dérivé de Fish Speech

Introduction complète Projet de dérivation de la parole de Fish Fish Agent est un système révolutionnaire de clonage de la parole de bout en bout développé sur la base de l'architecture du modèle V0.1 3B. En tant que système de traitement de clones de parole de bout en bout, sa caractéristique la plus importante est l'utilisation de...
Il y a 7 mois
02.1K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni : un modèle de compréhension multimodale en bout de chaîne prenant en charge la compréhension et l'analyse multimodales de textes, d'images et de sons

Introduction Infini-Megrez est une solution d'intelligence artificielle développée par le dôme de base incontesté (Infinigence AI), visant à atteindre une compréhension et une analyse multimodales efficaces grâce à la co-conception de matériel et de logiciel. Le cœur du projet est le modèle Megrez-3B, qui prend en charge les graphes...
Il y a 7 mois
01.8K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Introduction générale Ichigo est un projet open source d'IA vocale en temps réel qui vise à étendre les modèles de langage basés sur le texte avec des capacités d'écoute natives. Le projet utilise des techniques de fusion précoces inspirées de l'article de Meta sur le caméléon....
Il y a 7 mois
02.1K