멀티모달 실시간 인터랙티브 제품

총 27개 기사

순서대로 정렬

실시간 음성 채팅: AI를 통한 지연 시간이 짧은 자연스러운 음성 대화

일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...

11개월 전

086.6K

스텝세일러: 기존 SaaS 제품에 AI 명령줄 통합

스텝세일러는 AI 명령줄이 핵심인 개발자용 도구입니다. 개발자는 이 도구를 사용하여 "새 작업 추가"와 같은 사용자의 말을 소프트웨어 제품이 이해하도록 할 수 있으며, 소프트웨어는 이를 자동으로 실행합니다. 간단한 SDK를 통해 다음과 같이 통합됩니다.

1 년 전

051.8K

오픈아바타챗: 모듈식으로 설계된 디지털 인간 대화 도구

일반 소개 오픈아바타챗은 휴먼에이아이지씨 엔지니어링 팀이 개발하여 깃허브에서 호스팅하는 오픈소스 프로젝트입니다. 사용자가 단일 PC에서 실행할 수 있는 모듈식 디지털 인간 대화 도구입니다...

1 년 전

074.6K

VideoMind: 타임스탬프별 동영상 포지셔닝 콘텐츠 및 Q&A 오픈 소스 프로젝트

일반 소개 비디오마인드는 긴 동영상을 위한 추론, Q&A 및 요약 생성에 중점을 둔 오픈 소스 멀티모달 AI 도구입니다. 홍콩 폴리테크닉 대학교의 예 리우와 싱가포르 국립대학교의 쇼 랩 팀이 개발했습니다. 이 도구는 비디오에 대한 인간의 이해를 모방합니다...

10개월 전

059.7K

MoshiVis: 실시간 음성 대화 및 이미지 이해를 위한 오픈 소스 모델

일반 소개 모시비스는 규타이 연구소에서 개발하여 깃허브에서 호스팅하는 오픈 소스 프로젝트입니다. 약 2억 6천 6백만 개의 새로운 적응 매개변수와 고정된 Pal...을 갖춘 Moshi 음성-텍스트 모델(7B 매개변수)을 기반으로 합니다.

1 년 전

057.9K

Qwen2.5-Omni: 멀티모달 입력 및 실시간 음성 상호작용을 위한 최종 측정 모델

종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...

1 년 전

071K

xiaozhi-esp32-server: 샤오지 AI 챗봇 오픈 소스 백엔드 서비스

일반 소개 xiaozhi-esp32-server는 샤오지 인공지능 챗봇(xiaozhi-esp32)의 백엔드 서비스를 제공하기 위한 도구입니다. 파이썬으로 작성되었으며 웹소켓 프로토콜을 기반으로 하여 사용자가 빠르게...

1 년 전

0171.3K

바이촨 오디오: 실시간 음성 상호작용을 지원하는 엔드투엔드 오디오 모델

포괄적인 소개 Baichuan-Audio는 Baichuan Intelligence(baichuan-inc)에서 개발한 오픈 소스 프로젝트로, 엔드투엔드 음성 상호작용 기술에 중점을 두고 GitHub에서 호스팅됩니다. 이 프로젝트는 음성을 지원하는 완벽한 오디오 처리 프레임워크를 제공합니다.

1 년 전

070.8K

파워에이전트: 시간 제한 웹 작업 실행을 위한 AI 인텔리전트 바디 플랫폼

일반 소개 파워에이전트는 웹 자동화 작업에 초점을 맞춘 인공지능 플랫폼으로, 사용자가 데이터를 클릭, 입력, 추출할 수 있는 인공지능을 생성하고 배포할 수 있습니다. 이 플랫폼은 시간별, 일별 또는 주별로 작업을 자동으로 실행하도록 설정하는 기능을 지원하며, 사용자는 실시간으로...

최신 AI 리소스 # 멀티모달 실시간 인터랙티브 제품

1 년 전

056.2K

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.

1 년 전

075.8K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini 커서: 보고, 듣고, 말할 수 있는 Gemini 기반의 AI 데스크톱 스마트 비서

일반 소개 Gemini Cursor는 Google의 Gemini 2.0 플래시(실험용) 모델을 기반으로 하는 데스크톱 지능형 어시스턴트입니다. 멀티모달 API를 통해 시각, 청각 및 음성 상호 작용을 지원하여 지연 시간이 짧은 실시간 사용...

1 년 전

066.6K

DeepSeek-VL2: 고급 멀티모달 이해를 위한 전문 시각 언어 모델

종합 소개 DeepSeek-VL2는 이전 모델인 DeepSeek-VL의 성능을 크게 개선한 고급 MoE(전문가 혼합) 시각 언어 모델 시리즈입니다. 이 모델은 시각적 질의응답, 광학 문자 인식, 텍스트 ...

1 년 전

079.3K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI 웹 오퍼레이터: 브라우저 자동화, OpenAI 오퍼레이터의 오픈 소스 구현

일반 소개 AI 웹 오퍼레이터는 여러 AI 기술과 SDK를 통합하여 브라우저에서 사용자 경험을 간소화하도록 설계된 오픈 소스 AI 브라우저 오퍼레이터 도구입니다. 이 도구는 브라우저베이스와 버셀을 기반으로 합니다.

1 년 전

057.2K

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

SpeechGPT 2.0-프리뷰는 수백만 시간의 음성 데이터를 기반으로 학습된 OpenMOSS의 첫 번째 의인화 실시간 대화 시스템입니다. 이 시스템은 의인화된 음성 표현과 100ms의 짧은 지연 응답으로 자연스럽고 부드러운 실시간 인터랙션을 지원합니다.

1 년 전

055.2K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI 실시간 에이전트: 다중 지능형 신체 음성 인터랙션 애플리케이션(OpenAI 예제)

일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.

1 년 전

055.2K

베일링: 자연스러운 대화와 커뮤니케이션을 위한 저지연 오픈 소스 음성 대화 도우미

개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.

1 년 전

073K

위보: 자연어 대화 경험을 제공하는 실시간 음성 챗봇

일반 소개 위보는 오픈소스 실시간 음성 챗봇으로, 음성 인식을 위해 Whisper Small, 자연어 생성을 위해 Llama 3.2, 음성 합성을 위해 Kokoro-82M을 활용합니다. 이 프로젝트는 아만...

1 년 전

065.4K

OmAgent: 멀티모달 스마트 디바이스 구축을 위한 인텔리전트 바디 프레임워크

종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.

1 년 전

058.5K

'올웨이즈온' 딥시크 AI 어시스턴트: 딥시크-V3 기반의 지능형 음성 인터랙션 시스템 구축

개요 올웨이즈온 AI 어시스턴트는 딥시크-V3, 리얼타임STT, 타이퍼와 같은 고급 기술을 통합하여 강력한 영구 온라인 AI 비서 시스템을 구축하는 혁신적인 AI 비서 프로젝트입니다.

1 년 전

062.8K

브라운챗: 오픈 소스 실시간 음성 채팅 AI 비서

일반 소개 브라운챗은 대규모 언어 모델링(LLM) 기술을 기반으로 한 실시간 오디오 채팅 애플리케이션입니다. 깃허브 사용자 sugarforever가 개발한 이 프로젝트는 고급 자연어 처리 기술을 통해 사용자의 커뮤니케이션 경험을 향상시키는 것을 목표로 합니다....

1 년 전

058.1K

Xiaozhi AI 챗봇: AI 채팅 동반자, 간편한 음성 대화 및 지능적인 상호 작용을 구축하세요.

종합 소개 샤오지 AI 챗봇은 ESP32 개발 보드를 기반으로 하는 오픈 소스 프로젝트로, 사용자가 자신만의 AI 채팅 동반자를 구축할 수 있도록 설계되었습니다. 이 프로젝트는 Shrimp에서 개발했으며 주로 더 많은 사람들이 AI 하드웨어 개발을 시작하고 대규모 언어 모델을 실제에 적용하는 방법을 이해할 수 있도록 돕기 위한 교육 목적으로 사용됩니다.

1 년 전

0223.9K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI 실시간 API Next.js: 실시간 음성 대화 AI 애플리케이션을 구축하기 위한 Next.js 템플릿

포괄적인 소개 OpenAI 실시간 API Next.js는 개발자가 실시간 음성 AI 애플리케이션을 빠르게 구축할 수 있도록 설계된 Next.js 프레임워크 기반의 오픈 소스 프로젝트입니다. 이 프로젝트는 OpenAI의 실시간 API와 WebRTC 기술을 통합하여 ...

1 년 전

052.1K

VITA: 실시간 시각 및 음성 상호 작용을 위한 오픈 소스 멀티모달 대규모 언어 모델

일반 소개 VITA는 선도적인 오픈 소스 대화형 대규모 언어 모델링 프로젝트로, 진정한 완전한 멀티모달 상호 작용을 구현하는 기능을 개척하고 있습니다. 이 프로젝트는 2024년 8월에 VITA-1.0을 출시하여 최초의 오픈 소스 대화형 완전 모달 대규모 언어 모델을 개척했습니다.2024...

1 년 전

092.6K

TransRouter: Gemini 멀티모달 모델을 기반으로 중국어에서 영어로 번역하는 실시간 오디오 변환 도구

TransRouter는 영어와 중국어 간의 실시간 음성 번역을 위해 특별히 설계된 Google의 Gemini 모델을 기반으로 하는 실시간 음성 번역 도구입니다. 이 도구는 Zoom과 같은 화상 회의 소프트웨어에 원활하게 통합되어 언어 간 번역을 위한 강력한 도구를 제공합니다.

1 년 전

060.3K