FG-CLIP 2 - 그래픽용 360 오픈 소스 크로스 모달 시각 언어 모델
FG-CLIP 2는 360 인공 지능 연구소에서 출시 한 세계 최고의 그래픽 크로스 모드 시각 언어 모델 (VL-M)로 29 개의 권위있는 벤치 마크에서 Google 및 Meta의 유사 모델을 능가하여 현재 가장 강력한 VL-M으로, 총체적 ...
마이크로 오피니언 베타피쉬 - 오픈 소스 다중 지능 의견 분석 시스템
BettaFish는 오픈 소스 다중 지능 오피니언 분석 시스템입니다. 다중 지능 바디 아키텍처를 사용하여 쿼리, 미디어, 인사이트, 보고서 및 기타 에이전트가 함께 작동하여 검색, 추출 및 보고 폐쇄 루프를 달성합니다. 이 시스템은 AI 기반 전체 ...
Ouro - 바이트호퍼 시드 팀이 오픈소스화한 새로운 순환 언어 모델
Ouro는 바이트댄스 시드 팀이 개발한 새로운 유형의 루프형 언어 모델(LLM)로, 매개변수 공유 반복 계산 구조를 통해 사전 학습 단계에서 추론 기능을 직접 구축하는 것이 핵심 혁신입니다. 이 모델은 24개의 레이어를 기본 블록으로 사용하여 ...
크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크
NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...
LongCat-Flash-Omni - Meituan 오픈소스를 위한 완전한 모달 대형 언어 모델
롱캣-플래시-옴니는 메이퇀의 롱캣 팀이 출시한 오픈 소스 완전 모달 빅 언어 모델입니다. 매개변수 규모가 5600억 개(활성화된 매개변수 270억 개)에 달하며, 많은 수의 매개변수를 유지하면서 밀리초 수준의 실시간 오디오 및 비디오 상호 작용 기능을 구현합니다.
Petri - Anthropic의 오픈 소스 AI 보안 감사 프레임워크
Petri는 Anthropic에서 개발한 오픈 소스 AI 보안 감사 프레임워크로, AI 모델의 보안 및 동작 정렬을 체계적으로 평가합니다. 자동화된 감사자가 대상 모델과 여러 차례 대화하는 실제 시나리오를 시뮬레이션한 다음, 심사 에이전트가 모델의...
키미 리니어 - 달의 어두운 면에 오픈소스화된 새로운 하이브리드 선형 주의 아키텍처
키미 리니어는 다크 사이드 오브 더 문에서 오픈소스화한 새로운 하이브리드 선형 주의 아키텍처로, 키미 델타 어텐션(KDA)을 핵심으로 하며, 세밀한 게이팅 메커니즘을 통해 기존 주의 모델을 최적화하여 하드웨어 효율성과 메모리 제어 능력을 크게 향상시킵니다....
FIBO - 세계 최초로 오픈 소스에서 기본적으로 지원되는 JSON 텍스트를 통해 이미지 모델을 생성합니다.
FIBO는 Bria AI가 개발한 세계 최초의 네이티브 JSON 지원 오픈 소스 텍스트 생성 이미지 모델입니다. 8B 파라미터를 갖춘 DiT(확산 트랜스포머) 아키텍처를 기반으로 플로우 매칭 훈련 방식을 채택하고 있습니다...
SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델
SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
GigaBrain-0 - 월드 모델 생성 데이터로 구동되는 오픈 소스 구현형 기본 모델
기가브레인-0은 세계 모델 생성 데이터를 사용하여 실제 머신 일반화를 달성하는 중국 최초의 엔드투엔드 비전-언어-액션(VLA) 구현 기본 모델로, 기가비전과 후베이 휴머노이드 로봇 혁신 센터가 오픈 소스로 공동 출시했습니다. 하이브리드 트랜스포머 아키텍처를 채택하여 ...









