멀티모달 실시간 인터랙티브 제품

총 27개 기사
RealtimeVoiceChat:低延迟与AI进行自然口语对话

실시간 음성 채팅: AI를 통한 지연 시간이 짧은 자연스러운 음성 대화

일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...
3 개월 전
01.1K
Stepsailor:在现有SaaS产品中集成AI命令栏

스텝세일러: 기존 SaaS 제품에 AI 명령줄 통합

스텝세일러는 AI 명령줄이 핵심인 개발자용 도구입니다. 개발자는 이 도구를 사용하여 "새 작업 추가"와 같은 사용자의 말을 소프트웨어 제품이 이해하도록 할 수 있으며, 소프트웨어는 이를 자동으로 실행합니다. 간단한 SDK를 통해 다음과 같이 통합됩니다.
4개월 전
0884
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: 타임스탬프별 동영상 포지셔닝 콘텐츠 및 Q&A 오픈 소스 프로젝트

일반 소개 비디오마인드는 긴 동영상을 위한 추론, Q&A 및 요약 생성에 중점을 둔 오픈 소스 멀티모달 AI 도구입니다. 홍콩 폴리테크닉 대학교의 예 리우와 싱가포르 국립대학교의 쇼 랩 팀이 개발했습니다. 이 도구는 비디오에 대한 인간의 이해를 모방합니다...
2개월 전
01.3K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: 실시간 음성 대화 및 이미지 이해를 위한 오픈 소스 모델

일반 소개 모시비스는 규타이 연구소에서 개발하여 깃허브에서 호스팅하는 오픈 소스 프로젝트입니다. 약 2억 6천 6백만 개의 새로운 적응 매개변수와 고정된 Pal...을 갖춘 Moshi 음성-텍스트 모델(7B 매개변수)을 기반으로 합니다.
4개월 전
01.3K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: 멀티모달 입력 및 실시간 음성 상호작용을 위한 최종 측정 모델

종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...
5개월 전
02.1K
Baichuan-Audio:支持实时语音交互的端到端音频模型

바이촨 오디오: 실시간 음성 상호작용을 지원하는 엔드투엔드 오디오 모델

포괄적인 소개 Baichuan-Audio는 Baichuan Intelligence(baichuan-inc)에서 개발한 오픈 소스 프로젝트로, 엔드투엔드 음성 상호작용 기술에 중점을 두고 GitHub에서 호스팅됩니다. 이 프로젝트는 음성을 지원하는 완벽한 오디오 처리 프레임워크를 제공합니다.
5개월 전
01.6K
PowerAgents:定时执行网页任务的AI智能体平台

파워에이전트: 시간 제한 웹 작업 실행을 위한 AI 인텔리전트 바디 플랫폼

일반 소개 파워에이전트는 웹 자동화 작업에 초점을 맞춘 인공지능 플랫폼으로, 사용자가 데이터를 클릭, 입력, 추출할 수 있는 인공지능을 생성하고 배포할 수 있습니다. 이 플랫폼은 시간별, 일별 또는 주별로 작업을 자동으로 실행하도록 설정하는 기능을 지원하며, 사용자는 실시간으로...
5개월 전
01.5K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.
6개월 전
02K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

SpeechGPT 2.0-프리뷰는 수백만 시간의 음성 데이터를 기반으로 학습된 OpenMOSS의 첫 번째 의인화 실시간 대화 시스템입니다. 이 시스템은 의인화된 음성 표현과 100ms의 짧은 지연 응답으로 자연스럽고 부드러운 실시간 인터랙션을 지원합니다.
6개월 전
01.8K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI 실시간 에이전트: 다중 지능형 신체 음성 인터랙션 애플리케이션(OpenAI 예제)

일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.
7개월 전
02.9K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

베일링: 자연스러운 대화와 커뮤니케이션을 위한 저지연 오픈 소스 음성 대화 도우미

개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.
7개월 전
02.2K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: 멀티모달 스마트 디바이스 구축을 위한 인텔리전트 바디 프레임워크

종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
7개월 전
02K
BrownChat:开源实时语音聊天的AI助手

브라운챗: 오픈 소스 실시간 음성 채팅 AI 비서

일반 소개 브라운챗은 대규모 언어 모델링(LLM) 기술을 기반으로 한 실시간 오디오 채팅 애플리케이션입니다. 깃허브 사용자 sugarforever가 개발한 이 프로젝트는 고급 자연어 처리 기술을 통해 사용자의 커뮤니케이션 경험을 향상시키는 것을 목표로 합니다....
7개월 전
01.5K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI 챗봇: AI 채팅 동반자, 간편한 음성 대화 및 지능적인 상호 작용을 구축하세요.

종합 소개 샤오지 AI 챗봇은 ESP32 개발 보드를 기반으로 하는 오픈 소스 프로젝트로, 사용자가 자신만의 AI 채팅 동반자를 구축할 수 있도록 설계되었습니다. 이 프로젝트는 Shrimp에서 개발했으며 주로 더 많은 사람들이 AI 하드웨어 개발을 시작하고 대규모 언어 모델을 실제에 적용하는 방법을 이해할 수 있도록 돕기 위한 교육 목적으로 사용됩니다.
5개월 전
02.5K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI 실시간 API Next.js: 실시간 음성 대화 AI 애플리케이션을 구축하기 위한 Next.js 템플릿

포괄적인 소개 OpenAI 실시간 API Next.js는 개발자가 실시간 음성 AI 애플리케이션을 빠르게 구축할 수 있도록 설계된 Next.js 프레임워크 기반의 오픈 소스 프로젝트입니다. 이 프로젝트는 OpenAI의 실시간 API와 WebRTC 기술을 통합하여 ...
7개월 전
01.8K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: 실시간 시각 및 음성 상호 작용을 위한 오픈 소스 멀티모달 대규모 언어 모델

일반 소개 VITA는 선도적인 오픈 소스 대화형 대규모 언어 모델링 프로젝트로, 진정한 완전한 멀티모달 상호 작용을 구현하는 기능을 개척하고 있습니다. 이 프로젝트는 2024년 8월에 VITA-1.0을 출시하여 최초의 오픈 소스 대화형 완전 모달 대규모 언어 모델을 개척했습니다.2024...
7개월 전
02K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: Gemini 멀티모달 모델을 기반으로 중국어에서 영어로 번역하는 실시간 오디오 변환 도구

TransRouter는 영어와 중국어 간의 실시간 음성 번역을 위해 특별히 설계된 Google의 Gemini 모델을 기반으로 하는 실시간 음성 번역 도구입니다. 이 도구는 Zoom과 같은 화상 회의 소프트웨어에 원활하게 통합되어 언어 간 번역을 위한 강력한 도구를 제공합니다.
7개월 전
01.7K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: 엔드투엔드 AI 음성 복제 어시스턴트, 실시간 음성 대화 어시스턴트, Fish Speech 스핀오프 프로젝트

종합 소개 물고기 음성 파생 프로젝트 물고기 에이전트는 V0.1 3B 모델 아키텍처를 기반으로 개발된 혁신적인 엔드투엔드 AI 음성 복제 시스템입니다. 완전한 엔드투엔드 음성 복제 처리 시스템으로서, 가장 중요한 특징은 혁신적인 말없는 ...
7개월 전
02.1K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: 텍스트, 이미지 및 오디오 멀티모달 이해 및 분석을 지원하는 엔드사이드 멀티모달 이해 모델

종합 소개 인피니메그레즈는 하드웨어와 소프트웨어의 공동 설계를 통해 효율적인 멀티모달 이해와 분석을 목표로 하는 인피닛 코어 돔(인피닛 AI)이 개발한 엣지 인텔리전스 솔루션입니다. 프로젝트의 핵심은 그래프를 지원하는 Megrez-3B 모델입니다.
7개월 전
01.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

일반 소개 Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 메타의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Ichigo의 목표는 다음과 같습니다.
7개월 전
02.1K