Genie 3 - Google의 일반 세계 모델
Genie 3는 매우 역동적이고 일관된 가상 세계를 실시간으로 생성할 수 있는 Google DeepMind의 차세대 범용 세계 모델로, 물리 현상과 자연 생태계를 시뮬레이션하고 판타지 및 역사 시나리오를 생성할 수 있도록 지원합니다. 텍스트 프롬프트를 통해 사용자는 ...
Claude Opus 4.1 - Anthropic의 가장 강력한 프로그래밍 모델
Claude Opus 4.1은 복잡한 작업을 효율적으로 처리할 수 있도록 설계된 Anthropic의 최신 대규모 언어 모델입니다. 이 모델은 프로그래밍 영역에서 탁월한 성능을 발휘하여 고품질 코드를 생성하고 최대 32k의 단일 출력을 지원하며 다양한 프로그래밍 스타일에 적응할 수 있습니다....
gpt-oss - OpenAI의 오픈 소스 추론 모델 제품군
gpt-oss는 개발자를 위한 효율적이고 유연하며 배포하기 쉬운 AI 솔루션을 지원하는 OpenAI의 오픈 소스 추론 모델 제품군으로, 117억 개의 파라미터와 8개의 언어를 지원하는 gpt-oss-120B의 두 가지 버전으로 제공됩니다.
MiDashengLM - 샤오미의 오픈 소스 사운드 이해 모델
MiDashengLM은 오디오 처리 및 이해에 중점을 둔 특정 매개 변수 버전 MiDashengLM-7B를 갖춘 효율적인 사운드 이해를 위한 Xiaomi의 오픈 소스 대형 모델입니다. 이 모델은 샤오미 다셩 오디오 인코더와 Qwen2.5-Omn을 기반으로 합니다.
MOSS-TTSD - 칭화 연구소의 오픈 소스 이중 언어 대화 음성 생성 모델
MOSS-TTSD는 칭화대학교의 음성 및 언어 연구소에서 개발한 오픈 소스 음성 대화 모델입니다. MOSS-TTSD는 텍스트 대화 스크립트를 자연스럽고 부드럽고 표현력 있는 대화 음성으로 변환할 수 있으며 영어와 중국어로 이중 언어 생성을 지원합니다.
오디오젠-옴니 - 레이서의 멀티모달 오디오 생성 모델
오디오젠-옴니는 비디오, 텍스트 등의 입력을 기반으로 고품질 오디오, 음성, 노래를 생성하는 레이서의 멀티모달 오디오 생성 모델로, 멀티모달 확산 트랜스포머 및 위상 정렬과 같은 고급 기술을 기반으로 합니다 ...
RedOne - 리틀 레드북의 최신 소셜 메가 모델
레드원은 리틀 레드북에서 도입한 소셜 네트워크에 특화된 대규모 언어 모델입니다. 이 모델은 사회 및 문화적 지식을 통합하고, 멀티태스킹 기능을 강화하며, 인간의 선호도를 조정하는 3단계 훈련 전략을 통해 훈련되며, RedOne은 소셜 작업 성능, 유해 콘텐츠 탐지 및 검색에서 기본 모델보다 훨씬 뛰어난 성능을 발휘합니다....
FastDeploy - Baidu의 고성능 대규모 모델 추론 및 배포 도구
FastDeploy는 대규모 언어 모델(LLM) 및 시각적 언어 모델(VLM)을 위해 설계된 바이두의 고성능 추론 및 배포 도구로, Flying Paddle(패들패들) 프레임워크를 기반으로 개발되었으며 다양한 하드웨어 플랫폼...
InteriorGS - Qunar Technology의 3D 가우시안 시맨틱 데이터 세트
InteriorGS는 큐나 테크놀로지가 도입한 고품질 3D 가우시안 시맨틱 데이터 세트입니다. 이 데이터 세트에는 집, 편의점, 예식장, 박물관 등 80개 이상의 실내 환경을 포함하는 1,000개의 3D 장면이 포함되어 있습니다. 이 데이터 세트에는 755개 카테고리의 554,000개 이상의 객체 인스턴스가 포함되어 있습니다...
DragonV2.1 - Microsoft의 제로 샘플 음성 합성 모델
DragonV2.1은 Microsoft의 고급 제로 샘플 텍스트 음성 변환(TTS) 모델입니다. 트랜스포머 아키텍처를 기반으로 하는 이 모델은 다국어 및 제로 샘플 음성 복제를 지원하며 5~90초의 음성 프롬프트만으로 자연스럽고 표현력 있는 음성을 생성합니다.