Hunyuan-MT-7B - 텐센트 혼합 메타 오픈 소스 경량 번역 모델
Hunyuan-MT-7B는 텐센트 혼합 메타 팀이 도입한 경량 번역 모델로 70억 개의 레퍼런스를 보유하고 있으며 광둥어, 위구르어, 티베트어를 포함한 33개 언어와 5개 중국 민속 언어/방언의 상호 번역을 지원합니다. 국제 컴퓨터 언어학 협회(ACL) WMT2025 대회에서...
스텝오디오 2 미니 - 스텝스타 오픈 소스 음성 매크로 모델링
스텝오디오 2 미니는 스텝오디오의 오픈 소스 엔드투엔드 음성 매크로 모델입니다. 기존의 음성 모델 구조를 깨고 진정한 엔드투엔드 멀티모달 아키텍처를 채택하여 원시 오디오 입력을 짧은 지연 시간으로 음성 응답 출력으로 직접 변환하고 언어학적 정보 및 비음성 신호를 이해합니다.
MobileCLIP2 - Apple의 효율적인 오픈 소스 엔드사이드 멀티모달 모델
MobileCLIP2는 Apple 연구진이 개발한 효율적인 엔드-사이드 멀티모달 모델인 MobileCLIP의 업그레이드 버전입니다. 멀티모달 강화 훈련에 최적화된 이 모델은 DFN 데이터 세트에서 더 나은 성능을 훈련하고 그래픽 생성 기능을 개선하여 CLIP 교사 모델을 통합합니다.
InternVL3.5 - 상하이 AI 랩 오픈 소스 멀티모달 대형 모델
InternVL3.5(Shusheng-Wanxiang 3.5)는 상하이 인공 지능 연구소의 오픈 소스 멀티 모달 대형 모델로, 일반 능력, 추론 능력 및 배포 효율성 측면에서 완전히 업그레이드되어 10억에서 2410억 개의 매개 변수까지 9가지 크기의 버전을 제공하며, 두께를 포함한 다양한 리소스 수요 시나리오를 포괄합니다....
FastVLM - Apple의 시각 언어 모델링
FastVLM(Fast Vision Language Model)은 Apple에서 도입한 효율적인 시각 언어 모델입니다. FastViTHD 하이브리드 비주얼 코더를 핵심으로 컨볼루션 및 트랜스포머 아키텍처를 통합하여 시각적...
MiniCPM-V 4.5 - 패싯 지능형 오픈 소스 8B 파라미터 멀티모달 모델
MiniCPM-V 4.5는 이미지와 비디오를 효율적으로 처리하는 기능을 갖춘 Qwen3-8B 및 SigLIP2-400M을 기반으로 구축된 Facade Intelligence용 오픈 소스 8B 파라메트릭 멀티모달 모델입니다. 비주얼 토큰 소비, 처리 성능이 뛰어납니다.
Aivilization - HKUST에서 출시한 멀티 에이전트 소셜 시뮬레이션 플랫폼
Aivilization은 홍콩과학기술대학교에서 개발한 세계 최초의 AI 다중 지능체 소셜 시뮬레이션 플랫폼입니다. 사용자가 수천 개의 AI 지능을 만들고 안내하여 미래 인간-AI 공존의 사회적 진화를 관찰할 수 있는 시각적 디지털 샌드박스를 구축합니다. 이 플랫폼은 다음을 지원합니다.
Grok 2.5 - Musk의 xAI 오픈 소스 AI 모델
Grok 2.5는 Elon Musk의 xAI에서 개발한 오픈 소스 AI 모델입니다. 2,690억 개의 파라미터를 갖춘 이 모델은 강력한 성능과 추론을 위해 혼합 전문 지식(MoE) 아키텍처를 기반으로 합니다. 이 모델은 대학원 수준의 과학 지식(GPQA), 범용 지식(MMLU, MM ...
물고기 그리기 - 무료 온라인 AI 물고기 그리기 웹사이트, 공유 가상 어항
Draw A Fish는 전 세계적으로 공유되는 가상 어항에 넣을 물고기를 그릴 수 있는 간단하고 재미있는 온라인 AI 물고기 그리기 사이트로, 등록이 필요 없고 사용하기 쉬우며 몇 초 만에 만들고 공유하는 데 불과 몇 초밖에 걸리지 않습니다.
ToonComposer - 텐센트 오픈 소스 제너레이티브 AI 애니메이션 툴
툰컴포저는 홍콩 중문대학교, 텐센트 PCG ARC 랩, 북경대학교가 공동으로 출시한 제너레이티브 AI 애니메이션 툴입니다. 제너레이티브 포스트 키프레임 기술을 통해 중간 프레임 생성 및 채색 프로세스가 자동화된 프로세스로 통합되어 스케치만 있으면 됩니다.