Produtos interativos multimodais em tempo real

Total de 27 artigos

organizar em ordem

RealtimeVoiceChat: diálogo falado natural de baixa latência com IA

Introdução geral O RealtimeVoiceChat é um projeto de código aberto voltado para conversas naturais e em tempo real com inteligência artificial via voz. Os usuários usam um microfone para inserir sua voz, e o sistema captura o áudio por meio de um navegador, converte-o rapidamente em texto, e um modelo de linguagem grande (LLM) gera de volta...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

4 meses atrás

012.4K

Stepsailor: integração de barras de comando de IA em produtos SaaS existentes

O Stepsailor é uma ferramenta para desenvolvedores com uma barra de comando de IA em seu núcleo. Os desenvolvedores podem usá-la para fazer com que seus produtos de software entendam o que o usuário diz, como "adicionar nova tarefa", e o software a executará automaticamente. Ele é integrado por meio de um SDK simples em...

Recursos mais recentes de IA # Ferramentas de produtividade profissional # Produtos multimodais interativos em tempo real

5 meses atrás

010.7K

OpenAvatarChat: uma ferramenta de diálogo humano digital projetada de forma modular

Introdução geral O OpenAvatarChat é um projeto de código aberto desenvolvido pela equipe HumanAIGC-Engineering e hospedado no GitHub. É uma ferramenta de diálogo humano digital modular que permite que os usuários executem em um único PC...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

5 meses atrás

013.2K

VideoMind: vídeo por conteúdo de posicionamento de carimbo de data/hora e projeto de código aberto de perguntas e respostas

Introdução geral O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Ele foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a compreensão humana do vídeo...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Ferramenta de resumo de texto e áudio/vídeo com IA Editor de áudio/vídeo # AI

3 meses atrás

012.6K

MoshiVis: um modelo de código aberto para diálogo de fala em tempo real e compreensão de imagens

Introdução geral O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e Pal...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

5 meses atrás

011.9K

Qwen2.5-Omni: um modelo de medição final para entrada multimodal e interação de fala em tempo real

Introdução abrangente O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 2025 em 3 de ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

5 meses atrás

012.1K

xiaozhi-esp32-server: serviço de back-end de código aberto do chatbot de IA da Xiaozhi

Introdução geral O xiaozhi-esp32-server é uma ferramenta para fornecer serviço de back-end para o chatbot de IA Xiaozhi (xiaozhi-esp32). Ela é escrita em Python e baseada no protocolo WebSocket para ajudar os usuários a...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

6 meses atrás

020.1K

Baichuan-Audio: um modelo de áudio de ponta a ponta que oferece suporte à interação de voz em tempo real

Introdução abrangente O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que permite a fala ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

6 meses atrás

012.5K

PowerAgents: plataforma de corpo inteligente de IA para execução de tarefas na Web com tempo determinado

Introdução geral O PowerAgents é uma plataforma de inteligências de IA focada em tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas para serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários também podem assistir a...

Recursos mais recentes de IA # Produtos multimodais interativos em tempo real

6 meses atrás

011.3K

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

Introdução abrangente O Step-Audio é uma estrutura de interação de fala inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a conversas em vários idiomas (por exemplo, chinês, inglês, japonês), discurso emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, sichuanês ...

Recursos mais recentes de IA # Projeto de código aberto AI Java Clonagem de voz do # AI # Produtos multimodais interativos em tempo real

6 meses atrás

013.6K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini Cursor: um assistente inteligente de desktop com IA baseado no Gemini que pode ver, ouvir e falar

Introdução geral O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando o uso em tempo real e com baixa latência...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

013.3K

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Introdução abrangente O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são úteis em perguntas e respostas visuais, reconhecimento óptico de caracteres,...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

012.9K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI Web Operator: automação do navegador, implementação de código aberto do OpenAI Operator

Introdução geral O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. A ferramenta é baseada no Browserbase e no Vercel...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

011.5K

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado com base em milhões de horas de dados de fala. O sistema é equipado com expressão falada antropomórfica e resposta de baixa latência de 100 ms, oferecendo suporte à interação natural e suave em tempo real...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

011.1K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

Agentes em tempo real da OpenAI: um aplicativo de interação de fala corporal multiinteligente (exemplo da OpenAI)

Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

010.7K

Bailing: um assistente de diálogo de voz de código aberto de baixa latência para conversação e comunicação naturais

Introdução abrangente O Bailing (Bailing) é um assistente de diálogo de voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina as tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelagem de linguagem ampla (LLM) e síntese de fala (TTS) para...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

013.7K

Weebo: um chatbot de voz em tempo real que oferece uma experiência de diálogo em linguagem natural

Introdução geral O Weebo é um chatbot de voz em tempo real de código aberto que utiliza o Whisper Small para reconhecimento de fala, o Llama 3.2 para geração de linguagem natural e o Kokoro-82M para síntese de fala. O projeto foi desenvolvido por Aman...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

012.2K

OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais

Introdução abrangente O OmAgent é uma estrutura de corpo inteligente multimodal desenvolvida pelo Om AI Lab, com o objetivo de fornecer recursos avançados baseados em IA para dispositivos inteligentes. Ao integrar modelos de base multimodais de última geração e algoritmos de corpo inteligente, o projeto permite que os desenvolvedores criem dispositivos inteligentes eficientes em uma variedade de...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real Estrutura de desenvolvimento do corpo inteligente #

8 meses atrás

011.9K

Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3

Introdução abrangente O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line, integrando tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

014.9K

BrownChat: assistente de IA de bate-papo por voz em tempo real de código aberto

Introdução geral O BrownChat é um aplicativo de bate-papo com áudio em tempo real baseado na tecnologia LLM (Large Language Modelling). Desenvolvido pelo usuário do GitHub sugarforever, o projeto tem como objetivo aprimorar a experiência de comunicação do usuário por meio da tecnologia avançada de processamento de linguagem natural.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

010.9K

Xiaozhi AI Chatbot: crie seu companheiro de bate-papo com IA, diálogo de voz fácil e interação inteligente

Introdução abrangente O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos para ajudar mais pessoas a começar a trabalhar com o desenvolvimento de hardware de IA e entender como aplicar modelos de linguagem grandes a...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

6 meses atrás

023.5K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: um modelo Next.js para criar aplicativos de IA de diálogo de voz em tempo real

Introdução abrangente O OpenAI Realtime API Next.js é um projeto de código aberto baseado na estrutura Next.js, projetado para ajudar os desenvolvedores a criar rapidamente aplicativos de IA de voz em tempo real. O projeto integra a API em tempo real da OpenAI e a tecnologia WebRTC...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

09.2K

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Introdução geral O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto.2024...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

017.2K

TransRouter: uma ferramenta de conversão de áudio em tempo real para tradução de chinês para inglês com base no modelo multimodal Gemini

O TransRouter é uma ferramenta de tradução de voz em tempo real baseada no modelo Gemini do Google, projetada especificamente para tradução de voz em tempo real entre inglês e chinês. A ferramenta se integra perfeitamente ao software de videoconferência, como o Zoom, oferecendo uma ferramenta avançada para tradução entre idiomas...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

012.8K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Introdução abrangente Fish Speech Derivative Project O Fish Agent é um sistema revolucionário de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, seu recurso mais importante é o uso de...

Recursos mais recentes de IA # Projeto de código aberto AI Java Clonagem de voz do # AI # Produtos multimodais interativos em tempo real

8 meses atrás

013.3K

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

Introdução abrangente O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela cúpula do núcleo inquestionável (Infinigence AI), com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. O núcleo do projeto é o modelo Megrez-3B, que oferece suporte a gráficos...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

7 meses atrás

09.5K

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Introdução geral O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

012.5K

Não é isso.