일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...
종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...
포괄적인 소개 Baichuan-Audio는 Baichuan Intelligence(baichuan-inc)에서 개발한 오픈 소스 프로젝트로, 엔드투엔드 음성 상호작용 기술에 중점을 두고 GitHub에서 호스팅됩니다. 이 프로젝트는 음성을 지원하는 완벽한 오디오 처리 프레임워크를 제공합니다.
일반 소개 파워에이전트는 웹 자동화 작업에 초점을 맞춘 인공지능 플랫폼으로, 사용자가 데이터를 클릭, 입력, 추출할 수 있는 인공지능을 생성하고 배포할 수 있습니다. 이 플랫폼은 시간별, 일별 또는 주별로 작업을 자동으로 실행하도록 설정하는 기능을 지원하며, 사용자는 실시간으로...
종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.
일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.
개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.
종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
종합 소개 샤오지 AI 챗봇은 ESP32 개발 보드를 기반으로 하는 오픈 소스 프로젝트로, 사용자가 자신만의 AI 채팅 동반자를 구축할 수 있도록 설계되었습니다. 이 프로젝트는 Shrimp에서 개발했으며 주로 더 많은 사람들이 AI 하드웨어 개발을 시작하고 대규모 언어 모델을 실제에 적용하는 방법을 이해할 수 있도록 돕기 위한 교육 목적으로 사용됩니다.
일반 소개 VITA는 선도적인 오픈 소스 대화형 대규모 언어 모델링 프로젝트로, 진정한 완전한 멀티모달 상호 작용을 구현하는 기능을 개척하고 있습니다. 이 프로젝트는 2024년 8월에 VITA-1.0을 출시하여 최초의 오픈 소스 대화형 완전 모달 대규모 언어 모델을 개척했습니다.2024...
TransRouter는 영어와 중국어 간의 실시간 음성 번역을 위해 특별히 설계된 Google의 Gemini 모델을 기반으로 하는 실시간 음성 번역 도구입니다. 이 도구는 Zoom과 같은 화상 회의 소프트웨어에 원활하게 통합되어 언어 간 번역을 위한 강력한 도구를 제공합니다.