미즈윅스는 메이퇀의 M17 팀이 모델의 지시를 따르는 능력을 평가하기 위해 사용하는 오픈 소스 대규모 모델 평가 세트입니다.미즈윅스는 3단계 평가 프레임워크를 사용하여 모델이 매크로에서 마이크로 수준까지 사용자의 지시에 따라 답변을 생성할 수 있는지 종합적으로 측정하며 답변 내용에 대한 지식은 긍정적으로 평가하지 않습니다.
훈위안비디오-폴리는 무음 동영상에 정확하게 일치하는 음향 효과를 추가하는 것을 지원하는 텐센트 혼합원 팀의 오픈 소스 동영상 사운드 생성 모델입니다. 이 모델은 대규모 데이터 세트 학습을 기반으로 하며, 다중 모드 확산 변환기 아키텍처와 정렬 손실 함수 표현 및 오디오 VAE 최적화 기술이 결합되어 있습니다 ...
Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
Fun-ASR은 네일과 통이랩스가 공동으로 출시한 대형 음성 인식 모델입니다. 이 모델은 방대한 오디오 데이터로 학습되어 인터넷, 기술, 가정 장식 등과 같은 여러 산업 분야의 용어를 정확하게 식별할 수 있어 인식 정확도를 크게 향상시켰습니다. 이 모델은 추론 최적화를 위해 네일 엔터프라이즈 정보와 결합되어 팬텀 문제를 줄입니다.
스퀴블러는 작가를 위해 설계된 강력한 AI 지원 글쓰기 플랫폼으로, 구상부터 창작, 출판에 이르는 전 과정을 도와줍니다. 이 플랫폼은 소설, 시나리오, 단편 소설 등 다양한 스토리 템플릿을 제공합니다. 사용자는 초기 컨셉만 입력하면 AI가 개요, 캐릭터, 장면 등을 생성할 수 있습니다.
91Writing은 완전 오픈 소스 AI 소설 창작 도구로, Vue 3 및 Element Plus를 기반으로 개발되어 GPT, Claude, Gemini 등과 같은 다양한 고급 AI 모델을 통합합니다. 이 도구는 창작자에게 프로젝트 생성을 포함하여 아이디어에서 텍스트까지 완벽한 창작 도구 체인을 제공합니다....
Aivilization은 홍콩과학기술대학교에서 개발한 세계 최초의 AI 다중 지능체 소셜 시뮬레이션 플랫폼입니다. 사용자가 수천 개의 AI 지능을 만들고 안내하여 미래 인간-AI 공존의 사회적 진화를 관찰할 수 있는 시각적 디지털 샌드박스를 구축합니다. 이 플랫폼은 다음을 지원합니다.
Grok 2.5는 Elon Musk의 xAI에서 개발한 오픈 소스 AI 모델입니다. 2,690억 개의 파라미터를 갖춘 이 모델은 강력한 성능과 추론을 위해 혼합 전문 지식(MoE) 아키텍처를 기반으로 합니다. 이 모델은 대학원 수준의 과학 지식(GPQA), 범용 지식(MMLU, MM ...
MIT의 최신 보고서인 '생성적 AI 격차: 2025년 비즈니스 AI 현황'은 300개 이상의 AI 프로젝트에 대한 심층 연구, 52개 조직과의 인터뷰, 153명의 경영진을 대상으로 한 설문조사를 통해 기업이 겪고 있는 생성적 AI(GenAI) 도입 과정의 핵심을 보여줍니다....
AutoClip은 자동화된 비디오 처리의 전체 프로세스를 달성하기 위해 고급 AI 기술을 기반으로 하는 오픈 소스 AI 비디오 편집 도구입니다. 도구는 비디오의 하이라이트를 자동으로 식별하고 귀중한 콘텐츠를 정확하게 추출 할 수 있으며 지능형 클러스터링 테마의 유사성을 기반으로 콘텐츠 모음을 생성 할 수 있습니다.AutoClip 지원 ...
Seed-OSS는 긴 텍스트와 추론 작업에 중점을 둔 Byte Jump Seed 팀이 오픈소스화한 대규모 언어 모델 제품군입니다. 이 모델은 복잡한 논리적 추론과 다단계 추론에서 높은 정확도로 잘 수행하며 어려운 문제를 효율적으로 해결할 수 있습니다.Seed-OSS는 최대 512K의 긴 텍스트 컨텍스트를 지원합니다....
Intern-S1-mini는 상하이 인공 지능 연구소(SAL)에서 출시한 파라미터 스케일 8B의 경량 과학 멀티모달 매크로 모델로, Intern-S1의 강력한 기능을 계승하여 범용 및 전문 과학 기능을 모두 결합하여 신속한 배포 및 2차 개발에 적합합니다. 성능 측면에서, 나는 ...
Qwen-Image-Edit는 알리 통이가 소개한 다목적 이미지 편집 모델로, 200억 개의 매개변수가 있는 Qwen-Image 아키텍처를 기반으로 구축되었습니다. 이 모델은 시맨틱 및 외관 편집 기능을 모두 결합하여 이미지에 대한 낮은 수준의 시각적 외관 편집(예: 추가, 삭제...)을 수행할 수 있습니다.
MoE-TTS는 사전 학습된 대규모 언어 모델(LLM)과 음성 전문가 모듈을 결합하는 혼합 전문가(MoE) 아키텍처를 기반으로 하는 쿤룬완웨이가 도입한 음성 합성 프레임워크로, 텍스트 모듈 파라미터는 고정하고 음성 모듈 파라미터만 업데이트하여 강력한 텍스트 추론 기능을 유지합니다...
Mureka V7.5는 중국 작곡에 중점을 둔 쿤룬 월드 와이드의 최첨단 AI 음악 생성 모델입니다. 이 모델은 음색과 연주 기법을 정확하게 재현하여 자연스럽고 부드럽고 감성적인 보컬을 생성합니다. 최적화된 자동 음성 인식(ASR) 기술을 기반으로 하는 Mureka V...
훈위안-게임크래프트는 텐센트 훈위안 팀의 오픈 소스 인터랙티브 게임 비디오 생성 프레임워크입니다. 단일 사진 및 프롬프트에서 프레임워크를 사용하여 매우 역동적인 게임 비디오를 생성하고, 키보드와 마우스를 통해 사용자가 비디오 콘텐츠를 실시간으로 제어할 수 있도록 지원합니다.
스카이워크 유니픽 2.0은 이미지 생성, 편집, 이해에 초점을 맞춘 효율적인 멀티모달 모델로, 퀸테센스가 오픈소스로 제공합니다. 이 모델은 2B 매개변수 SD3.5-Medium 아키텍처를 기반으로 하며 사전 교육, 점진적인 이중 작업 강화 전략 및 공동 교육을 통해 실현됩니다....
RynnRCP는 알리 다르마 연구소의 오픈 소스 로봇 컨텍스트 프로토콜(RCP)로, 구현된 지능 개발의 문턱을 낮추고 전체 개발 과정을 개방합니다.RynnRCP는 RCP 프레임워크와 로봇모션 모듈로 구성되며, 기능 추상화와 다중 프로토콜 지원을 통해 RCP 프레임워크는...
린넥은 알리바바 달마 연구소에서 도입한 세계 이해 모델로, 구체화된 지능 작업에 중점을 두고 있습니다. 이 모델은 비디오 데이터와 자연어를 결합한 멀티모달 융합 기술을 기반으로 하며, 장면의 객체를 여러 차원에서 파싱하여 객체 이해, 공간 인식, 비디오 대상 분할 등의 기능을 지원할 수 있습니다.
Matrix-3D는 탐색 가능한 파노라마 3D 월드를 생성하는 데 중점을 둔 스카이워크 AI 팀의 오픈 소스 프레임워크입니다. 이 프레임워크는 파노라마 비디오 생성 및 3D 재구성 기술을 결합하여 단일 이미지 또는 텍스트 프롬프트에서 고품질의 전방향 탐색 가능한 3D 월드를 생성합니다....
GLM-4.5V는 스마트 스펙트럼에서 도입한 세계 최고의 오픈 소스 시각적 추론 모델로, 총 매개변수가 1,060억 개, 활성화된 매개변수가 120억 개에 달합니다. 이 모델은 강력한 시각적 이해 및 추론 기능을 갖춘 차세대 텍스트 기반 모델 GLM-4.5-Air를 기반으로 학습되어 이미지, 비디오, 동영상 등을 처리할 수 있습니다.
SkyReels-A3는 쿤룬 월드 와이드 그룹의 오디오 기반 디지털 휴먼 제작 툴입니다. SkyReels-A3는 오디오 기반 디지털 휴먼 제작 도구로, 간단한 입력(예: 인물 이미지 및 음성)을 통해 고품질의 동적 비디오 콘텐츠를 생성하고, 정적인 사진을 '생동감 있게' 만들고, 기존 비디오의 대사를 캐릭터가 자동으로 일치하는 새로운 립싱크로 대체할 수 있습니다....
GPT-5는 OpenAI가 여러 가지 업그레이드를 통해 출시한 최신 언어 모델입니다. 문제의 복잡성에 따라 효율적인 모드와 심층 사고 모드를 자동으로 전환하여 빠른 응답과 정확한 답변을 가능하게 하는 실시간 라우터가 내장된 통합 지능 시스템입니다.GPT-5에는 푸시용을 포함하여 여러 버전이 있습니다....
dots.vlm1은 리틀 레드북 하이랩에서 오픈소스로 공개한 최초의 멀티모달 빅 모델입니다. 처음부터 학습된 12억 개의 파라미터로 구성된 시각 인코더인 NaViT와 DeepSeek V3 대규모 언어 모델(LLM)을 기반으로 강력한 시각 인식 및 텍스트 추론 기능을 갖추고 있습니다.
Genie 3는 매우 역동적이고 일관된 가상 세계를 실시간으로 생성할 수 있는 Google DeepMind의 차세대 범용 세계 모델로, 물리 현상과 자연 생태계를 시뮬레이션하고 판타지 및 역사 시나리오를 생성할 수 있도록 지원합니다. 텍스트 프롬프트를 통해 사용자는 ...
Claude Opus 4.1은 복잡한 작업을 효율적으로 처리할 수 있도록 설계된 Anthropic의 최신 대규모 언어 모델입니다. 이 모델은 프로그래밍 영역에서 탁월한 성능을 발휘하여 고품질 코드를 생성하고 최대 32k의 단일 출력을 지원하며 다양한 프로그래밍 스타일에 적응할 수 있습니다....
LangExtract는 대규모 언어 모델(LLM)을 사용해 비정형 텍스트에서 구조화된 정보를 추출하는 Google 오픈 소스 Python 라이브러리입니다. 사용자 정의 명령과 몇 가지 예제를 통해 임상 노트와 같은 주요 세부 정보를 효율적으로 식별하고 정리할 수 있습니다.
퀀이미지는 알리바바 통이 첸첸 팀이 공개한 오픈 소스 이미지 생성 기본 모델입니다. 200억 개의 매개 변수로 멀티모달 이해, 고해상도 코딩, 확산 모델링의 세 가지 모듈을 통합하는 멀티모달 확산 트랜스포머 아키텍처(MMDiT)를 채택하고 있습니다.Qwen-Image의...
레드원은 리틀 레드북에서 도입한 소셜 네트워크에 특화된 대규모 언어 모델입니다. 이 모델은 사회 및 문화적 지식을 통합하고, 멀티태스킹 기능을 강화하며, 인간의 선호도를 조정하는 3단계 훈련 전략을 통해 훈련되며, RedOne은 소셜 작업 성능, 유해 콘텐츠 탐지 및 검색에서 기본 모델보다 훨씬 뛰어난 성능을 발휘합니다....
InteriorGS는 큐나 테크놀로지가 도입한 고품질 3D 가우시안 시맨틱 데이터 세트입니다. 이 데이터 세트에는 집, 편의점, 예식장, 박물관 등 80개 이상의 실내 환경을 포함하는 1,000개의 3D 장면이 포함되어 있습니다. 이 데이터 세트에는 755개 카테고리의 554,000개 이상의 객체 인스턴스가 포함되어 있습니다...
ScreenCoder는 UI 디자인 스크린샷을 고품질 HTML/CSS 코드로 빠르게 변환하는 오픈 소스 지능형 도구입니다. 시각적 이해, 레이아웃 계획 및 코드 합성 기술과 결합된 모듈식 다중 지능 아키텍처를 기반으로 하는 도구로 고정밀 및 시맨틱 프런트 엔드 생성을 지원합니다.
마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
HYPIR은 중국과학원 심천첨단기술연구소의 동 차오 연구팀이 도입한 이미지 복원을 위한 대규모 모델입니다. 이 모델은 확산 모델의 분수 선행과 적대적 생성 네트워크를 결합하여 효율적인 고품질 이미지 복원을 달성하며, HYPIR은 오래된 사진을 빠르게 복원하고 텍스트를 선명하게 유지하면서 해상도를 향상시킬 수 있습니다....
Qwen3-Coder-Flash는 알리 통이 천 개의 질문 팀이 도입한 고성능 프로그래밍 모델로, 에이전트 기반 프로그래밍 및 도구 호출 기능이 뛰어나고 복잡한 프로그래밍 작업을 처리하는 데 능숙합니다. 이 모델은 256K 토큰의 긴 컨텍스트 이해를 지원하며 1M까지 확장할 수 있습니다.
시드 확산은 코드 생성 작업을 처리하기 위해 ByteHop에서 도입한 실험적인 확산 언어 모델입니다. 이 모델은 2단계 확산 훈련, 제약된 순차 학습, 향상된 효율적인 병렬 디코딩과 같은 기술을 기반으로 하며, 추론 속도를 2,146 토큰/초로 크게 개선하여... 보다 빠른 2,146 토큰/초로 향상시킵니다.
샤오싱슈는 징동건강이 출시한 AI 감정 만화 생성 제품으로 현재 테스트 단계에 있으며, 이 제품은 감정 중심의 만화 스토리 생성이 핵심 기능으로, 사용자가 음성이나 텍스트 입력을 통해 감정을 표현하거나 이야기를 전달하면 AI가 입력에 따라 그에 맞는 4컷 만화와 스토리 해석을 생성해줍니다.
1688 AI 버전은 알리바바의 1688 플랫폼에서 출시한 지능형 비즈니스 비서 애플리케이션으로, 소규모 B 구매자와 판매자를 위해 설계되었습니다. 1688 플랫폼의 방대한 데이터를 기반으로 비즈니스 기회 푸시, 제품 추천, 아이디어 생성, 기업 쿼리 등과 같은 기능을 제공하여 사용자가 시장 역학을 정확하게 파악하고 신속하게 ...
스텝스 딥 리서치는 스텝스 스타에서 출시한 효율적인 인공지능 리서치 도구로, 복잡한 이슈에 대한 리서치를 자율적으로 완료하고 단기간에 전문적인 보고서를 생성할 수 있습니다. 이 도구는 금융, 컨설팅, 의료, 법률 및 기타 분야를 위해 설계되었으며 심층적인 검색 및 정보 통합 기능으로 업계에서 뛰어난 평가를 받고 있습니다.
런웨이 알레프는 런웨이에서 출시한 고급 AI 동영상 편집 모델로, 간단한 텍스트 명령을 기반으로 동영상 콘텐츠 추가 및 삭제, 스타일 변경, 환경 조정 및 카메라 움직임 최적화를 빠르게 수행할 수 있습니다. 사용자는 복잡한 작업 없이도 중복 요소를 쉽게 제거하고 장면을 변경할 수 있으며...
웹쉐이퍼는 알리바바의 통이 연구소에서 출시한 AI 학습 데이터 합성 시스템으로, 공식 모델링 및 지능 확장 메커니즘을 기반으로 고품질의 확장 가능한 학습 데이터를 생성하여 AI 지능이 복잡한 정보 검색 기능을 향상시킬 수 있도록 지원합니다. 이 시스템은 "지식 투영"의 개념을 도입합니다 ...
스카이워크 유니픽은 이미지 이해, 텍스트 생성 이미지, 이미지 편집이라는 세 가지 핵심 기능을 갖춘 쿤룬완웨이의 오픈 소스 멀티모달 사전 훈련 모델입니다. 이 모델은 자동 회귀 아키텍처를 기반으로 하며, MAR 인코더와 SigLIP2 백본을 통합하고 15억 개의 파라미터 게이지를 지원합니다.
통이 완상 완2.2는 알리바바에서 오픈소스로 제공하는 고급 AI 동영상 생성 모델로, 총 270억 건의 레퍼런스를 보유하고 있습니다. 이 모델에는 텍스트 생성 비디오, 그래프 생성 비디오, 통합 비디오 생성의 세 가지 모드가 포함되어 있으며, 텍스트 설명, 이미지 또는 두 가지를 조합하여 고품질 비디오를 생성할 수 있습니다.
GLM-4.5는 추론, 코드 생성 및 지능형 신체 기능을 통합하여 지능형 신체 애플리케이션을 위해 설계된 Smart Spectrum의 오픈 소스 SOTA 모델입니다. 이 모델은 혼합 전문가(MoE) 아키텍처를 기반으로 하며 3,550억 개의 파라미터가 포함된 GLM-4.5와 1,600억 개의 파라미터가 포함된 두 가지 버전이 있습니다.
코즈 루프는 바이트댄스의 코즈 플랫폼의 오픈 소스 AI 인텔리전스 개발 및 운영, 유지보수 관리 플랫폼입니다. 이 플랫폼은 개발자에게 개발, 디버깅, 평가 및 모니터링에 이르는 전체 수명 주기 관리를 제공하며, 큐 워드 엔지니어링, 에이전트 효과 평가, 성능 모니터링 및 튜닝을 포괄합니다.
인턴-S1은 상하이 인공 지능 연구소에서 출시한 과학 멀티모달 그랜드 모델입니다. 이 모델은 언어 및 다중 모드 기능을 심층적으로 통합하여 교차 모드 과학 구문 분석, 언어 및 시각 융합, 과학 데이터 처리, 과학적 질문 답변, 실험 설계 및 최적화와 같은 강력한 기능을 제공합니다.
훈위안 3D 월드 모델 1.0(훈위안 월드 1.0)은 텐센트의 오픈 소스 업계 최초의 몰입형 로밍, 인터랙티브, 시뮬레이션 월드 생성 모델입니다. 이 모델은 파노라마 시각 생성 및 계층적 3D 재구성 기술을 통합하여 텍스트 또는 이미지 입력을 지원하여 36개의 세계를 빠르게 생성합니다.
Agentar-Fin-R1은 Anthem에서 도입한 금융 분야를 위한 최첨단 대규모 언어 모델입니다. 강력한 Qwen3 아키텍처를 기반으로 개발된 이 모델은 8B와 32B의 두 가지 파라미터 스케일 버전을 제공하며 다단계 분석, 위험 평가, 전쟁 등 복잡한 재무 추론 작업을 정확하게 처리할 수 있습니다.
개인 정보 보호 및 보안에 민감한 개발 팀을 위해 설계된 오픈 소스 엔터프라이즈급 네이티브 AI 프로그래밍 도우미입니다.MonkeyCode는 코드 데이터 보안을 보장하기 위해 비공개 배포 및 오프라인 사용을 지원합니다. MonkeyCode는 코드 데이터의 보안을 보장하기 위해 비공개 배포 및 오프라인 사용을 지원합니다 ...
ChatFlow는 복잡한 요구사항을 효율적인 워크플로로 전환할 수 있도록 지원하는 오픈 소스 AI 워크플로 자동화 도구입니다. 사용자가 코드 프레임워크, 테스트 케이스를 빠르게 생성할 수 있도록 지원하는 AI 기술 기반 도구는 소프트웨어 아키텍처를 작성하고 설계하는 데 도움을 줄 수 있습니다.
Seed GR-3는 새로운 환경과 복잡한 명령에 적응할 수 있는 강력한 일반화 기능을 갖춘 바이트댄스에서 개발한 범용 로봇 모델입니다. 이 모델은 시각, 언어 및 동작 정보를 융합하고 로봇 데이터, VR 인체 궤적 데이터 및 공개 그래픽 데이터의 3-in-1 학습 방법을 기반으로 새로운 물체에 대한 반응 능력을 향상시킵니다....
Qwen3-Coder는 알리 통이 첸첸 팀이 도입한 최첨단 코드 생성 모델입니다. 이 모델은 480억 개의 매개 변수와 35억 개의 활성화 매개 변수를 가지고 있으며 기본 256K 토큰 컨텍스트를 지원하며 100만 개의 토큰으로 확장할 수 있으며, 하이브리드 전문가 아키텍처를 기반으로 합니다.
OpenReasoning-Nemotron은 수학, 과학 및 코드에서 추론 작업의 처리를 지원하기 위해 NVIDIA에서 오픈 소스화한 일련의 대규모 언어 모델입니다. 이 모델은 15억 개의 매개변수 스케일을 가진 DeepSeek R1 0528 모델을 기반으로 증류되었습니다....
Seed-X는 70억 개의 파라미터로 28개 언어의 양방향 번역을 지원하는 ByteDance의 Seed 팀이 출시한 다국어 번역 모델입니다. 이 모델은 다국어 데이터 사전 학습, 명령 미세 조정 및 강화 학습 기술을 결합하여 복잡한 언어 패턴을 효율적으로 처리하고 번역 품질을 개선합니다.
TRAE SOLO는 바이트댄스에서 출시한 인공지능 프로그래밍 어시스턴트인 TRAE가 인공지능 기술로 소프트웨어 개발 과정을 간소화하기 위해 선보인 인공지능 자동 개발 도우미로, 사용자의 요구 사항을 이해하고 텍스트 설명, 음성 명령, 파일 업로드 등을 지원하여 요구 사항을 입력하면 자동으로 계획을 세우고...