Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 20 artigos

Tags: produtos interativos multimodais em tempo real

Baichuan-Audio: um modelo de áudio de ponta a ponta que oferece suporte à interação de voz em tempo real - Chief AI Sharing Circle

Baichuan-Audio: um modelo de áudio de ponta a ponta que oferece suporte à interação de voz em tempo real

Introdução abrangente O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode converter a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande ...

PowerAgents: uma plataforma para inteligências de IA que executam tarefas da Web em uma base cronometrada - Chief AI Sharing Circle

PowerAgents: plataforma de corpo inteligente de IA para execução de tarefas na Web com tempo determinado

Introdução geral O PowerAgents é uma plataforma de inteligências de IA voltada para tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas para serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários também podem assistir ao trabalho das inteligências em tempo real...

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando fala clonada, entre outros recursos - Chief AI Sharing Circle

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

Introdução abrangente O Step-Audio é uma estrutura de interação de fala inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), discurso emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan) e pode...

Gemini Cursor: um assistente inteligente de desktop baseado no Gemini que pode ver, ouvir e falar - Chief AI Sharing Circle

Gemini Cursor: um assistente inteligente de desktop com IA baseado no Gemini que pode ver, ouvir e falar

Introdução geral O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. O projeto foi criado por @13point5 para ...

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada - Chief AI Sharing Circle

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Introdução abrangente O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos se destacam em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.DeepSe...

AI Web Operator: automação do navegador, implementação de código aberto do OpenAI Operator - Chief AI Sharing Circle

AI Web Operator: automação do navegador, implementação de código aberto do OpenAI Operator

Introdução geral O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. Criada com base no Browserbase e no Vercel AI SDK, a ferramenta oferece suporte a uma variedade de modelos de linguagem grande (LLMs), como...

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real - Chief AI Sharing Circle

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado em milhões de horas de dados de fala. O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, treinado com base em milhões de horas de dados de fala...

Agentes em tempo real da OpenAI: aplicativo de interação de fala corporal multiinteligente (exemplo da OpenAI) - Círculo de compartilhamento de IA principal

Agentes em tempo real da OpenAI: um aplicativo de interação de fala corporal multiinteligente (exemplo da OpenAI)

Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo...

Bailing: um assistente de diálogo de voz de código aberto de baixa latência que permite facilmente conversas e comunicações naturais - Chief AI Sharing Circle

Bailing: um assistente de diálogo de voz de código aberto de baixa latência para conversação e comunicação naturais

Introdução abrangente O Bailing (Bailing) é um assistente de diálogo de voz de código aberto projetado para se envolver em conversas naturais com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelagem de linguagem ampla (LLM) e síntese de fala (TTS) para obter uma fala semelhante à do GPT-4o...

Weebo: um chatbot de voz em tempo real que oferece uma experiência de diálogo em linguagem natural

Introdução geral O Weebo é um chatbot de voz em tempo real de código aberto que utiliza o Whisper Small para reconhecimento de fala, o Llama 3.2 para geração de linguagem natural e o Kokoro-82M para síntese de fala. Desenvolvido por Amanvir Parhar, o projeto tem como objetivo fornecer um dispositivo nativo capaz de...

OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais-Chief AI Sharing Circle

OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais

Introdução abrangente O OmAgent é uma estrutura de corpo inteligente multimodal desenvolvida pelo Om AI Lab, com o objetivo de fornecer recursos avançados baseados em IA para dispositivos inteligentes. O projeto permite que os desenvolvedores criem experiências interativas eficientes e em tempo real em uma ampla gama de dispositivos inteligentes, integrando modelos de base multimodais de última geração e algoritmos de corpo inteligente...

blank

Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3

Introdução abrangente O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line por meio da integração de tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo um...

BrownChat: assistente de IA de bate-papo por voz em tempo real de código aberto - Chief AI Sharing Circle

BrownChat: assistente de IA de bate-papo por voz em tempo real de código aberto

Introdução geral O BrownChat é um aplicativo de bate-papo com áudio em tempo real baseado na tecnologia LLM (Large Language Modelling). Desenvolvido pelo usuário do GitHub sugarforever, o projeto tem como objetivo aprimorar a experiência de comunicação do usuário por meio de tecnologia avançada de processamento de linguagem natural.

Xiaozhi AI Chatbot: crie seu companheiro de bate-papo com IA, alcance facilmente o diálogo por voz e a interação inteligente - Círculo de compartilhamento de IA do chefe

Xiaozhi AI Chatbot: crie seu companheiro de bate-papo com IA, diálogo de voz fácil e interação inteligente

Introdução abrangente O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo com IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos para ajudar mais pessoas a começar a desenvolver hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais...

OpenAI Realtime API Next.js: um modelo Next.js para criar aplicativos de IA de diálogo de voz em tempo real - Chief AI Sharing Circle

OpenAI Realtime API Next.js: um modelo Next.js para criar aplicativos de IA de diálogo de voz em tempo real

Introdução abrangente O OpenAI Realtime API Next.js é um projeto de código aberto baseado na estrutura Next.js, projetado para ajudar os desenvolvedores a criar rapidamente aplicativos de IA de voz em tempo real. O projeto integra a API em tempo real da OpenAI e a tecnologia WebRTC para fornecer componentes modernos de UI e chamadas de ferramentas. Ao usar esse ...

VITA: Modelos de linguagem grande multimodal de código aberto para interação visual e de fala em tempo real - Chief AI Sharing Circle

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Introdução geral O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto.

TransRouter: uma ferramenta de conversão de áudio em tempo real para tradução de chinês e inglês com base no modelo multimodal Gemini - Chief AI Sharing Circle

TransRouter: uma ferramenta de conversão de áudio em tempo real para tradução de chinês para inglês com base no modelo multimodal Gemini

O TransRouter é uma ferramenta de tradução de voz em tempo real baseada no modelo Gemini do Google, projetada para tradução de voz em tempo real entre inglês e chinês. Ele pode ser perfeitamente integrado ao software de videoconferência, como o Zoom, para oferecer suporte à tradução em tempo real para comunicação entre idiomas.

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech - Chief AI Sharing Circle

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Introdução abrangente Fish Speech Derivative Project O Fish Agent é um sistema revolucionário de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, seu recurso mais importante é o design inovador da arquitetura sem tags semânticas, sem depender do Whisper...

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio - Chief AI Sharing Circle

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

Introdução abrangente O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela cúpula de núcleo inquestionável (Infinigence AI), com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão...

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil