Multimodale interaktive Produkte in Echtzeit

Insgesamt 27 Artikel
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: natürlich gesprochener Dialog mit niedriger Latenz und KI

Allgemeine Einführung RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Unterhaltungen in Echtzeit mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden ein Mikrofon, um ihre Stimme einzugeben, und das System nimmt das Audio über einen Browser auf, wandelt es schnell in Text um, und ein großes Sprachmodell (LLM) erzeugt...
vor 3 Monaten
01K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: Video nach Zeitstempel Positionierung Inhalt und Q&A Open-Source-Projekt

Allgemeine Einführung VideoMind ist ein quelloffenes multimodales KI-Tool, das sich auf Inferenz, Fragen und Zusammenfassungen für lange Videos konzentriert. Es wurde von Ye Liu von der Hong Kong Polytechnic University und einem Team des Show Lab an der National University of Singapore entwickelt. Das Tool imitiert das menschliche Verständnis von Videos...
vor 2 Monaten
01.3K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: ein Endmessungsmodell für multimodale Eingabe und Sprachinteraktion in Echtzeit

Umfassende Einführung Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde im Jahr 2025 am 3...
vor 5 Monaten
02K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: ein End-to-End-Audiomodell, das Sprachinteraktion in Echtzeit unterstützt

Umfassende Einführung Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audioverarbeitungs-Framework, das die Sprachverarbeitung ...
vor 5 Monaten
01.6K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents: Intelligente KI-Plattform für die zeitgesteuerte Ausführung von Webaufgaben

Allgemeine Einführung PowerAgents ist eine Plattform für KI-Intelligenzen, die sich auf Web-Automatisierungsaufgaben konzentriert und es Nutzern ermöglicht, KI-Intelligenzen zu erstellen und einzusetzen, die in der Lage sind, Daten anzuklicken, einzugeben und zu extrahieren. Die Plattform unterstützt die Einstellung von Aufgaben, die automatisch auf stündlicher, täglicher oder wöchentlicher Basis ausgeführt werden, und Benutzer können auch...
vor 5 Monaten
01.5K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: ein multimodales Sprachinteraktionssystem, das u. a. Sprache erkennt und mit geklonter Sprache kommuniziert

Umfassende Einführung Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Konversationen (z.B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z.B. glücklich, traurig), regionale Dialekte (z.B. Kantonesisch, Szechuan ...
vor 6 Monaten
02K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: ein intelligenter KI-Desktop-Assistent, der auf Gemini aufbaut und sehen, hören und sprechen kann

Allgemeine Einführung Gemini Cursor ist ein intelligenter Desktop-Assistent, der auf Googles Gemini 2.0 Flash-Modell (experimentell) basiert. Er ermöglicht visuelle, auditive und sprachliche Interaktionen über eine multimodale API und bietet Echtzeit-Niedrig-Latenz-Nutzung...
vor 6 Monaten
02.5K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion

SpeechGPT 2.0-Preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf der Grundlage von Millionen von Stunden an Sprachdaten trainiert wurde. Das System ist mit einem anthropomorphen Sprachausdruck und einer niedrigen Latenzzeit von 100 ms ausgestattet, was eine natürliche und...
vor 6 Monaten
01.8K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: Eine multiintelligente Körper-Sprach-Interaktions-Anwendung (OpenAI-Beispiel)

Allgemeine Einführung OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-API von OpenAI verwendet werden kann, um multi-intelligente Körpersprache-Anwendungen zu erstellen. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt von OpenAI Swarm), das es erlaubt,...
vor 7 Monaten
02.8K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: ein quelloffener Sprachdialogassistent mit niedriger Latenz für natürliche Konversation und Kommunikation

Umfassende Einführung Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um einen natürlichen Dialog mit dem Benutzer durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Modelling (LLM) und Sprachsynthese (TTS) Technologien, um eine...
vor 7 Monaten
02.1K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: ein intelligenter Körperrahmen für den Aufbau multimodaler intelligenter Geräte

Umfassende Einführung OmAgent ist ein multimodales intelligentes Körper-Framework, das vom Om AI Lab entwickelt wurde und darauf abzielt, leistungsstarke KI-gestützte Funktionen für intelligente Geräte bereitzustellen. Durch die Integration modernster multimodaler Basismodelle und intelligenter Körperalgorithmen ermöglicht das Projekt Entwicklern die Erstellung effizienter intelligenter Geräte für eine Vielzahl von...
vor 7 Monaten
01.8K
BrownChat:开源实时语音聊天的AI助手

BrownChat: quelloffener Echtzeit-Sprachchat-KI-Assistent

Allgemeine Einführung BrownChat ist eine Echtzeit-Audio-Chat-Anwendung, die auf Large Language Modelling (LLM) Technologie basiert. Entwickelt von GitHub-Benutzer sugarforever, zielt das Projekt darauf ab, das Kommunikationserlebnis des Benutzers durch fortschrittliche Technologie zur Verarbeitung natürlicher Sprache zu verbessern...
vor 7 Monaten
01.5K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot: Erstellen Sie Ihren AI-Chatbot-Begleiter, einfacher Sprachdialog und intelligente Interaktion

Umfassende Einführung Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen AI-Chat-Begleiter zu bauen. Das Projekt wurde von Shrimp entwickelt und dient hauptsächlich zu Lehrzwecken, um mehr Menschen den Einstieg in die KI-Hardwareentwicklung zu erleichtern und zu verstehen, wie man große Sprachmodelle auf reale...
vor 5 Monaten
02.5K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: eine Next.js-Vorlage für die Entwicklung von Echtzeit-KI-Anwendungen mit Sprachdialog

Umfassende Einführung OpenAI Realtime API Next.js ist ein Open-Source-Projekt, das auf dem Next.js-Framework basiert und Entwicklern helfen soll, schnell Echtzeit-Sprach-KI-Anwendungen zu erstellen. Das Projekt integriert die Echtzeit-API von OpenAI und die WebRTC-Technologie...
vor 7 Monaten
01.8K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Open Source Multimodale Großsprachmodelle für visuelle und sprachliche Interaktion in Echtzeit

Allgemeine Einführung VITA ist ein führendes Open-Source-Projekt zur interaktiven multimodalen Modellierung großer Sprachen und leistet Pionierarbeit bei der Realisierung echter multimodaler Interaktion. Das Projekt startete VITA-1.0 im August 2024 und leistete damit Pionierarbeit für das erste quelloffene interaktive vollmodale große Sprachmodell.2024...
vor 7 Monaten
02K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: ein Echtzeit-Audio-Konvertierungstool für die Übersetzung vom Chinesischen ins Englische auf der Grundlage des multimodalen Gemini-Modells

TransRouter ist ein Echtzeit-Sprachübersetzungstool auf der Grundlage des Gemini-Modells von Google, das speziell für die Echtzeit-Sprachübersetzung zwischen Englisch und Chinesisch entwickelt wurde. Das Tool lässt sich nahtlos in Videokonferenzsoftware wie Zoom integrieren und bietet ein leistungsstarkes Werkzeug für...
vor 7 Monaten
01.6K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt

Umfassende Einführung Fish Speech Derivative Project Fish Agent ist ein revolutionäres End-to-End-KI-Sprachklon-System, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Als ein vollständig durchgängiges Sprachklon-Verarbeitungssystem ist sein wichtigstes Merkmal die Verwendung innovativer sprachloser...
vor 7 Monaten
02.1K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: ein Modell für multimodales Verstehen auf der Endseite, das multimodales Verstehen und Analysieren von Text, Bild und Audio unterstützt

Umfassende Einführung Infini-Megrez ist eine Edge-Intelligence-Lösung, die von der unquestioned core dome (Infinigence AI) entwickelt wurde und darauf abzielt, ein effizientes multimodales Verständnis und eine effiziente Analyse durch gemeinsames Design von Hardware und Software zu erreichen. Das Kernstück des Projekts ist das Megrez-3B-Modell, das Graphen...
vor 7 Monaten
01.8K