최신 AI 리소스

共 2985 篇文章
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.

유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.
5개월 전
032.9K
CWM - Meta FAIR开源的代码世界语言模型

CWM - 메타 페어 오픈 소스 코드 월드 언어 모델

CWM(코드 월드 모델)은 메타 페어 팀이 공개한 320억 개의 파라미터를 가진 오픈 소스 월드 언어 모델로, 코드 생성 및 추론을 위해 설계되었습니다. 코드 실행 프로세스를 시뮬레이션하고 변수 상태 변화를 예측하고 미리 예측할 수 있는 '월드 모델'이라는 개념을 도입했습니다.
6개월 전
032.9K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시

월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...
5개월 전
032.5K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....
5개월 전
032.2K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

에버메모스 - 팀 샨다의 오픈 소스 장기 메모리 운영 체제

에버메모스는 첸 티엔차오가 이끄는 샨다 팀이 출시한 오픈 소스 장기 기억 운영체제로, 대규모 언어 모델의 고정된 컨텍스트 창으로 인한 메모리 단절 문제를 해결하기 위해 인공지능을 위해 설계되었습니다. 이 시스템은 인간의 뇌 기억 메커니즘을 기반으로 4계층 아키텍처(에이전트 계층, 메모리 계층, 인덱스 계층, ...
4개월 전
032.2K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - 알리 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기본 모델

MAI-UI는 알리바바 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기반 모델로, 애플리케이션 간 작동, 퍼지 의미 이해, 능동적 사용자 상호 작용 및 다단계 프로세스 조정이라는 네 가지 주요 기능을 갖추고 있습니다. 엔드 클라우드 협업 아키텍처를 채택한 경량 모델은 장치에 상주하여 일상적인 작업을 처리하고 복잡한 작업은 클라우드를 대규모로 호출할 수 있습니다.
3 개월 전
032.1K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - 스탠포드, 칼텍 등과 협력하는 NVIDIA의 오픈 소스 게이밍 AI 모델입니다.

NitroGen은 NVIDIA가 스탠포드 대학, 칼텍 및 기타 기관과 함께 개발한 오픈 소스 게임 AI 모델로, 1,000개 이상의 다양한 유형의 게임을 플레이할 수 있습니다. 이 모델은 GROOT N1.5 아키텍처를 기반으로 하며, 40,000시간의 게임 비디오 데이터(조이스틱 조작 주석 포함)를 분석하여 완성되었습니다....
3 개월 전
031.7K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 푸단 및 알리 다르마 연구소 및 기타 오픈 소스 지능형 이미지 애니메이션 생성 프레임워크

AnyI2V는 푸단대학교, 알리바바 다모 아카데미 등이 공동으로 출시한 이미지 애니메이션 생성 프레임워크로, 복잡한 학습 과정과 많은 양의 데이터 없이도 정적인 조건부 이미지(예: 그리드, 포인트 클라우드 등)를 동적인 동영상으로 변환할 수 있도록 지원합니다.
6개월 전
031.6K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

로보브레인-X0은 위즈덤 소스 연구소가 오픈소스로 공개한 세계 최초의 제로 샘플 교차 온톨로지 일반화를 지원하는 오픈소스 구현 모델로, 업계에서 큰 의미를 지니고 있습니다. 다양한 구성의 여러 실제 로봇을 구동하여 미세 조정없이 기본 작동 작업을 완료 할 수 있으며, 소량의 샘플 미세 조정 후 복제 기능을 보여줍니다.
5개월 전
031.4K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델

VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...
6개월 전
031.4K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 광학 문자 인식을 위한 텐센트의 오픈 소스 전문가 모델

훈위안OCR은 텐센트 하이브리드 팀이 오픈소스화한 고성능 광학 문자 인식 모델로, 10억 개의 레퍼런스만 보유하고 있습니다. 하이브리드 멀티모달 아키텍처를 기반으로 개발된 이 모델은 엔드투엔드 설계를 채택하여 텍스트 감지, 인식 및 문서 구문 분석 작업을 효율적으로 처리할 수 있습니다. 이 모델은 복잡한 문서 테스트에서 94.1점을 획득하여 ...
4개월 전
030.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM을 기반으로 구축된 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼입니다.

LazyCraft는 오픈 소스 프레임워크 LazyLLM을 기반으로 상탕이 구축한 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼으로, 기업과 개발자를 위한 원스톱 AI 애플리케이션 개발 솔루션을 제공합니다. 개발자가 낮은 임계값과 저렴한 비용으로 대규모 모델 애플리케이션을 신속하게 빌드하고 출시할 수 있도록 지원합니다.
4개월 전
030.9K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'

InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...
6개월 전
030.8K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...
4개월 전
030.1K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...
6개월 전
030.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Xiaomi에서 출시한 오픈 소스 MoE 아키텍처의 대형 모델입니다.

MiMo-V2-Flash는 효율적인 추론과 지능형 신체 애플리케이션에 초점을 맞춘 총 파라미터 3090억 개와 활성 파라미터 150억 개를 갖춘 Xiaomi에서 출시한 오픈 소스 MoE 아키텍처 대형 모델입니다. 이 모델은 하이브리드 주의 집중 아키텍처와 다중 단어 메타 예측 기술을 채택하여 초당 150 토큰의 추론 속도로 ...
3 개월 전
030K
VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....
5개월 전
029.4K
OmniVinci - NVIDIA开源的全模态大语言模型

옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델

옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.
5개월 전
029.3K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델인 VibeThinker-1.5B

바이브씽커-1.5B는 웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델입니다. 알리바바의 Qwen2.5-Math-1.5B를 기반으로 미세 조정된 이 모델은 수학 및 코딩 작업에 최적화되어 있으며 업계 최고의 추론 성능으로 뛰어난 성능을 발휘합니다.
4개월 전
029.2K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - 메타 오픈 소스 3D 재구성 모델 시리즈

SAM 3D는 Meta의 SAM 시리즈를 기반으로 하는 3D 재구성 모델로, SAM 3D 오브젝트와 SAM 3D 바디의 두 가지로 구성되어 있습니다. SAM 3D 오브젝트는 단일 사진에서 인터랙티브 3D 오브젝트 모델을 생성할 수 있으며, 다음과 같은 기능을 지원합니다.
4개월 전
028.6K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Microsoft의 오픈 소스 컴퓨터 운영 에이전트 어시스턴트 모델

Fara-7B는 Qwen 2.5-VL-7B 아키텍처를 기반으로 하는 70억 개 매개변수 규모의 컴퓨터 운영 에이전트(CUA) 모델의 Microsoft 오픈 소스 릴리스입니다. 웹 페이지의 스크린샷을 시각적으로 구문 분석하고 화면에서 클릭, 입력 등을 수행함으로써 추가적인 접근성 트리나 여러 개의 대형 모델에 의존할 필요가 없습니다....
4개월 전
028.5K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Google의 오픈 소스 의료 음성 인식 모델

MedASR은 구글이 오픈소스화한 1억 5천만 개의 파라미터 의료 음성 인식 모델로, 5,000시간의 감작된 임상 말뭉치를 기반으로 미세 조정되어 약물, 용량 및 해부학 용어에 최적화되어 있으며, 6그램의 의료 언어 모델이 내장되어 있고 민간 방사선 데이터 세트 RAD-DICT에서 단어 오류율이 4.6에 불과합니다....
3 개월 전
028.4K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 스마트 스펙트럼 AI의 오픈 소스 휴대폰 AI 에이전트 모델

OpenAutoGLM은 다중 모드 인식을 통해 휴대폰 화면의 내용을 이해하고 사용자가 지정한 작업을 완료하기 위해 작업 흐름을 자동으로 생성 할 수있는 "휴대폰 사용"기능을 갖춘 오픈 소스 지능형 신체 모델입니다. 사용자는 "근처 훠궈를 검색하려면 메이투안을 열어..."와 같이 자연어를 사용하여 요구 사항을 설명하기만 하면 됩니다.
3 개월 전
028.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 홍콩 대학교 오픈 소스 학술 논문을 슬라이드로 변환하는 AI 도구

Paper2Slides는 홍콩대학교 데이터 인텔리전스 연구소의 오픈 소스 AI 도구로, 클릭 한 번으로 학술 논문을 전문적인 슬라이드나 포스터로 변환해 줍니다. 네트워크 정보에 의존하지 않고 문서 내용을 직접 구문 분석하는 RAG(검색 증강 생성) 기술을 사용하여 생성된 PPT가 원본과 매우 일치하도록 보장합니다.
3 개월 전
028.3K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - 오픈 소스 AI 비디오를 손으로 그린 분할 화면 도구로 변환, B 스테이션, 작은 빨간 책 지원

ClipSketch AI는 짧은 동영상 제작자를 위해 설계된 오픈 소스 동영상에서 손으로 그린 분할 화면 도구입니다. B 스테이션, 샤오홍슈 및 기타 플랫폼의 동영상을 한 번의 클릭으로 손으로 그린 스타일의 스토리보드로 변환하고, 키 프레임 표시, 서브 장면 자동 생성 및 소셜 카피를 지원하며, 사용자 정의 역할을 통합할 수 있습니다.
3 개월 전
028.2K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

Step-Audio-EditX는 스텝스타 팀이 개발한 오픈 소스 오디오 편집 매크로 모델로, 인공 지능 기술을 통한 오디오 콘텐츠의 세밀한 조작에 중점을 두고 있습니다. 이 모델은 오디오 분위기, 말하기 스타일(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨...)를 동적으로 조정할 수 있습니다.
4개월 전
028.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AI 에이전트 네트워크 구축을 위한 오픈소스 무료 오픈 협업 프로젝트

오픈에이전트는 AI 에이전트 네트워크를 생성하고 에이전트 간의 개방형 협업을 촉진하는 오픈 소스 프로젝트입니다. AI 에이전트가 원활하게 연결하고 협업할 수 있도록 기본 네트워크 인프라가 제공됩니다. 사용자는 자체 에이전트 네트워크를 빠르게 시작하고, 모듈식 아키텍처를 통해 기능을 확장하고, 지원...
5개월 전
028K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.
3 개월 전
027.9K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - 파이어폭스 커널 기반의 오픈 소스 AI 웹 브라우저

Zen 브라우저는 Firefox 커널 기반의 오픈 소스 브라우저로, 세로 탭 표시줄 및 작업 공간 분리와 같은 핵심 기능을 통해 간단하고 효율적인 브라우징 경험에 중점을 두고 있습니다. 사이드바 디자인으로 50개 이상의 탭의 전체 제목을 명확하게 표시하고 다중 창 분할 화면 브라우징을 지원합니다.
3 개월 전
027.6K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - 칭화대 등이 참여한 알리 통이의 오픈 소스 AI 동영상 생성 프레임워크

완무브는 알리 통이 연구소, 칭화대학교 및 기타 기관이 공동 개발한 오픈 소스 AI 비디오 생성 프레임워크로, 정밀한 모션 제어 기술을 통한 고품질 비디오 합성에 중점을 두고 있습니다. 핵심 기술은 기존 이미지 대 비디오 모델에 포인트 수준의 모션 제어를 원활하게 추가 할 수있는 "잠재적 궤적 안내"입니다 ...
3 개월 전
027.5K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - 베이퍄오, NU 등과 연계한 M-A-P 오픈 소스 무료 뮤직비디오 생성 시스템

AutoMV는 M-A-P 팀이 여러 대학과 협력하여 개발한 오픈 소스 뮤직비디오 생성 시스템으로, 교육 없이도 완성된 곡을 기반으로 일관된 뮤직비디오를 자동으로 생성할 수 있으며, 음악 분석, 대본 작성, 연출 및 품질 관리 모듈을 포함한 다중 지능 협업 모델을 채택하여 가사, 비트 등을 정확하게 분석할 수 있습니다....
2개월 전
027.5K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크

DeepSearchQA는 복잡한 다단계 쿼리 작업에서 지능의 성능을 평가하기 위해 설계된 Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크입니다. 17개 도메인을 포괄하는 900개의 수작업으로 설계된 "인과 관계 체인" 작업으로 구성되어 있으며, AI가 인간 연구원처럼 행동하고 다단계 작업을 수행하도록 요구합니다.
3 개월 전
027.5K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

페르소나라이브 - 마카오 대학교 및 기타 오픈 소스 실시간 AI 인물 애니메이션 생성 라이브 프레임워크

페르소나라이브는 마카오 대학교, dzine.ai, 그레이터 베이 지역 대학교의 GVC 랩이 공동 개발한 오픈 소스 실시간 AI 얼굴 교체 라이브 스트리밍 프레임워크입니다. 일반 소비자용 그래픽 카드(12GB 비디오 메모리)에서 지연 시간이 짧고 프레임 속도가 빠른 디지털 퍼스널 드라이브를 구현할 수 있으며 카메라를 통한 실시간 스트리밍을 지원합니다....
3 개월 전
027.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

칼레이도 - 칭화대학교 등과 함께 Smart Spectrum AI가 오픈소스화한 다중 피사체 참조 비디오 생성 모델입니다.

칼레이도는 허페이 공과대학교, 칭화대학교, 스마트 스펙트럼 AI가 공동 개발한 오픈 소스 다중 피사체 참조 비디오 생성 모델입니다. 여러 참조 이미지를 통해 피사체 일관된 비디오를 생성하여 다중 피사체 일관성 및 배경 분리에서 기존 모델의 결함을 해결합니다.Kaleido는 특수한 데이터를 통해 비디오를 생성합니다.
3 개월 전
027.4K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

래빗쇼 인텔리전스와 북경대학교가 출시한 차세대 이미지 편집 모델, UniWorld V2

유니월드 V2는 래빗잔 인텔리전스와 북경대학교의 유니월드 팀이 공동으로 출시한 차세대 이미지 편집 모델입니다. 이미지 편집 분야, 특히 복잡한 명령의 중국어 이해와 실행에 있어 상당한 이점을 가지고 있습니다. 이 모델은 예술적인 중국어 글꼴을 정확하게 렌더링하고 미세한 글꼴을 지원할 수 있습니다.
4개월 전
027.3K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - Google의 오픈 소스 차세대 인코더-디코더 모델

T5Gemma 2는 Google에서 오픈소스로 제공하는 차세대 인코더-디코더 모델로, 멀티모달 및 긴 컨텍스트 처리 기능으로 업그레이드된 Gemma 3 아키텍처를 기반으로 합니다. 텍스트와 이미지를 포함한 다양한 데이터 유형을 지원하며, 생성 시 매우 긴 컨텍스트(최대 128K)를 처리할 수 있습니다.
3 개월 전
027K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - 멤버지의 오픈 소스 AI 메모리 시스템

멤머신은 멤버지가 개발한 오픈 소스 AI 메모리 시스템으로, 인간의 뇌처럼 상호 작용 데이터를 저장하고 불러올 수 있어 AI의 '상태 없는 메모리 손실' 문제를 해결하는 AI 모델과 지능을 위해 설계되었습니다. 계층화된 아키텍처(단기 메모리, 장기 메모리, 사용자 이미지, ...
3 개월 전
026.5K