논리 구문 분석 - Ali 오픈 소스 문서 구문 분석 모델
논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...
Ring-1T-preview - Ant Group의 오픈 소스 조 단위 파라미터 대규모 모델
Ring-1T-preview는 Ling 2.0 MoE 아키텍처를 기반으로 하는 Ant Group의 오픈 소스 1조 개 매개변수 매크로 모델로, 20T 코퍼스로 사전 학습되고 자체 개발한 강화 학습 시스템인 ASystem으로 추론 능력을 훈련받았습니다. 자연어 추론에서 ...
RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델
로보브레인-X0은 위즈덤 소스 연구소가 오픈소스로 공개한 세계 최초의 제로 샘플 교차 온톨로지 일반화를 지원하는 오픈소스 구현 모델로, 업계에서 큰 의미를 지니고 있습니다. 다양한 구성의 여러 실제 로봇을 구동하여 미세 조정없이 기본 작동 작업을 완료 할 수 있으며, 소량의 샘플 미세 조정 후 복제 기능을 보여줍니다.
Lynx - ByteHop의 오픈 소스 고해상도 비디오 생성 모델
Lynx는 바이트댄스에서 오픈소스화한 고퀄리티 개인 맞춤형 동영상 생성 모델로, 단 한 장의 인물 사진으로 신원이 일치하는 동영상을 생성할 수 있습니다. 확산 트랜스포머(DiT) 기본 모델을 기반으로 구축되었으며, ID 어댑터와 Ref 어댑터의 도입으로...
DeepSeek-V3.2-Exp - DeepSeek의 최신 오픈 소스 실험용 AI 모델
DeepSeek-V3.2-Exp는 DeepSeek에서 오픈소스로 제공하는 실험적인 AI 모델로, DeepSeek 스파스 어텐션(DSA) 메커니즘을 도입하여 긴 텍스트 처리의 효율성을 크게 개선합니다. 이 모델은 DeepSeek...
헌위안이미지 3.0 - 텐센트 오픈소스 무료 멀티모달 이미지 생성 모델
훈위안이미지 3.0(훈위안 이미지 3.0)은 텐센트에서 공개하고 오픈소스로 제공한 네이티브 멀티모달 이미지 생성 모델입니다. 모델 매개변수 크기는 80B로, 현재 오픈소스 이미지 생성 모델 중 가장 많은 매개변수를 가진 최고의 평가 결과입니다. 하이브리드 이미지 3.0은 실시간 이미지 생성을 지원하며, 사용자는 측면 ...
Hunyuan3D-Part - 텐센트 오픈 소스 무료 3D 컴포넌트 생성 모델
후위안 3D 파트(하이브리드 3D 파트)는 텐센트에서 공개하고 오픈소스로 제공하는 3D 생성 모델입니다. P3 - SAM과 X - Part로 구성된 이 모델은 최초로 고정밀 제어가 가능한 컴포넌트 기반 3D 생성을 실현하여 자동으로 생성되는 50개 이상의 컴포넌트를 지원합니다. 사용자는 먼저 사용할 수 있습니다...
AudioFly - KU Xunfei 오픈 소스 텍스트 생성 사운드 AI 모델
AudioFly는 텍스트에서 음향 효과를 생성하기 위한 오픈 소스 AI 모델입니다. 10억 개의 파라미터가 포함된 잠재적 확산 모델 아키텍처를 기반으로 AudioSet, AudioCaps, TUT 및 내부 데이터 세트와 같은 대규모의 다양한 오디오 텍스트 데이터 세트에 대해 학습된 모델입니다.
Hunyuan3D-Omni - 텐센트 믹스드 소스 오픈 소스 3D 모델 생성 프레임워크
Hunyuan3D-Omni(하이브리드 3D-옴니)는 텐센트 하이브리드 3D 팀이 개발한 오픈 소스 3D 자산 생성 프레임워크로, 여러 제어 신호를 통해 정확한 3D 모델을 생성할 수 있습니다. Hunyuan3D 2.1 아키텍처를 기반으로 포인트를 처리할 수 있는 통합 제어 인코더를 도입했습니다.
FLM-Audio - 위즈덤소스가 남양기술연구소(NTI)와 협력하여 오픈소스화한 전이중 오디오 대화 모델(FLM-Audio)
FLM-Audio는 베이징 즈위안 인공지능 연구소가 스핀 매트릭스 및 싱가포르 난양 공과대학교와 함께 출시한 네이티브 전이중 오디오 대화 매크로 모델로, 중국어와 영어를 모두 지원합니다. 네이티브 전이중 아키텍처를 채택하여 각 시간 단계에서 듣기, 말하기 및 독백을 병합 할 수 있습니다 ...