최신 AI 리소스

共 3100 篇文章

코스 정보 최신 AI 리소스 AI 기술 자료 AI 뉴스

순서대로 정렬

훑어보기 북마크(인터넷)

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

Ask o4 - 8가지 사고 경로를 동시에 열어주는 Ask o4에서 도입한 병렬 사고 모델

Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.

최신 AI 리소스

8개월 전

041.3K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - Microsoft의 효율적인 오픈 소스 AI 추론 모델

rStar2-Agent는 Microsoft에서 오픈소스로 제공하는 고급 AI 수학적 추론 모델로, AIME24 테스트에서 80.61 TP3T의 정확도를 달성하여 강력한 수학적 문제 해결 능력을 입증했습니다. 이 모델은 과학적 추론 기능을 갖추고 있으며, GPQA-Diamond 벤치마크에서 ...

최신 AI 리소스

8개월 전

041.3K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - 텐센트 혼합 메타 오픈 소스 경량 번역 모델

Hunyuan-MT-7B는 텐센트 혼합 메타 팀이 도입한 경량 번역 모델로 70억 개의 레퍼런스를 보유하고 있으며 광둥어, 위구르어, 티베트어를 포함한 33개 언어와 5개 중국 민속 언어/방언의 상호 번역을 지원합니다. 국제 컴퓨터 언어학 협회(ACL) WMT2025 대회에서...

최신 AI 리소스

8개월 전

041.2K

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP 레지스트리 - GitHub의 공식 MCP 서버 관리 플랫폼입니다.

MCP 레지스트리는 개발자가 MCP 서버를 더 쉽게 검색하고 설치할 수 있도록 도와주는 GitHub의 중앙 집중식 플랫폼으로, 개발자는 MCP 레지스트리를 통해 한 곳에서 필요한 AI 도구를 빠르게 찾을 수 있어 작업이 크게 간소화됩니다....

최신 AI 리소스

7개월 전

041.2K

NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - 스탠포드, 칼텍 등과 협력하는 NVIDIA의 오픈 소스 게이밍 AI 모델입니다.

NitroGen은 NVIDIA가 스탠포드 대학, 칼텍 및 기타 기관과 함께 개발한 오픈 소스 게임 AI 모델로, 1,000개 이상의 다양한 유형의 게임을 플레이할 수 있습니다. 이 모델은 GROOT N1.5 아키텍처를 기반으로 하며, 40,000시간의 게임 비디오 데이터(조이스틱 조작 주석 포함)를 분석하여 완성되었습니다....

최신 AI 리소스

4개월 전

041K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - DeepSeek의 최신 오픈 소스 실험용 AI 모델

DeepSeek-V3.2-Exp는 DeepSeek에서 오픈소스로 제공하는 실험적인 AI 모델로, DeepSeek 스파스 어텐션(DSA) 메커니즘을 도입하여 긴 텍스트 처리의 효율성을 크게 개선합니다. 이 모델은 DeepSeek...

최신 AI 리소스

7개월 전

041K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeek에서 도입한 최신 버전의 AI 모델입니다.

DeepSeek-V3.1-Terminus는 DeepSeek 팀의 인공 지능 언어 모델인 DeepSeek-V3.1의 업그레이드 버전입니다. 이 모델은 언어 일관성, 코드 생성 및 검색 기능 측면에서 최적화되어 보다 정확하게 ...

최신 AI 리소스

7개월 전

040.8K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

최신 AI 리소스

3 개월 전

040.8K

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - AI2 오픈 소스 멀티모달 문서 구문 분석 모델

olmOCR 2는 앨런 인공지능 연구소(AI2)의 오픈 소스 멀티모달 문서 구문 분석 모델이며, olmOCR의 업그레이드 버전입니다. 디지털화된 인쇄 문서(예: PDF)는 높은...

최신 AI 리소스

6개월 전

040.7K

混元图像2.1 - 腾讯推出的开源文生图模型

하이브리드 이미지 2.1 - 텐센트의 오픈 소스 벤더 그래프 모델

훈위안이미지 2.1은 고품질 이미지 생성을 위해 설계된 텐센트의 오픈 소스 그래픽 모델입니다. 이 모델은 기본 2K 해상도를 지원하며 복잡한 장면과 디테일을 정확하게 렌더링하여 캐릭터의 표정과 움직임을 생생하게 재현할 수 있습니다.

최신 AI 리소스

8개월 전

040.6K

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 바이트홉 시드 오픈소스를 위한 3D 시각적 재구성 모델

뎁스 애니씽 3(DA3)은 Byte Jump Seed 팀이 개발하여 오픈소스화한 3D 시각적 재구성 모델입니다. 단일 트랜스포머 아키텍처를 통해 모든 시점에서 공간 지오메트리를 재구성할 수 있으며, 뎁스 맵과 레이 맵만 예측하면 3D 장면을 복원할 수 있습니다.

최신 AI 리소스

5개월 전

040.4K

EverMemOS - 盛大团队推出的开源长期记忆操作系统

에버메모스 - 팀 샨다의 오픈 소스 장기 메모리 운영 체제

에버메모스는 첸 티엔차오가 이끄는 샨다 팀이 출시한 오픈 소스 장기 기억 운영체제로, 대규모 언어 모델의 고정된 컨텍스트 창으로 인한 메모리 단절 문제를 해결하기 위해 인공지능을 위해 설계되었습니다. 이 시스템은 인간의 뇌 기억 메커니즘을 기반으로 4계층 아키텍처(에이전트 계층, 메모리 계층, 인덱스 계층, ...

최신 AI 리소스

5개월 전

040.4K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

최신 AI 리소스

4개월 전

040.4K

GLM-5 - 智谱AI推出的旗舰级开源大模型

GLM-5 - 智谱AI推出的旗舰级开源大模型

GLM-5是智谱AI推出的旗舰级开源大模型，采用744B参数规模（激活40B），专为Agentic Engineering智能体工程打造。模型在编程与Agent能力上取得开源SOTA表现，SWE-be...

최신 AI 리소스

3 개월 전

040.3K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Xiaomi에서 출시한 오픈 소스 MoE 아키텍처의 대형 모델입니다.

MiMo-V2-Flash는 효율적인 추론과 지능형 신체 애플리케이션에 초점을 맞춘 총 파라미터 3090억 개와 활성 파라미터 150억 개를 갖춘 Xiaomi에서 출시한 오픈 소스 MoE 아키텍처 대형 모델입니다. 이 모델은 하이브리드 주의 집중 아키텍처와 다중 단어 메타 예측 기술을 채택하여 초당 150 토큰의 추론 속도로 ...

최신 AI 리소스

4개월 전

040.3K

PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - StepStar의 오픈 소스 병렬 협업 AI 추론 프레임워크

PaCoRe(병렬 조정 추론)는 여러 관점에서 동시에 문제 해결책을 탐색하는 대규모 병렬 사고 메커니즘을 통해 전통적인 방식을 뛰어넘는 StepFun의 혁신적인 오픈 소스 병렬 협업 추론 프레임워크입니다....

최신 AI 리소스

5개월 전

040.2K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 상하이 AI 랩 오픈 소스 대규모 모델 학습 엔진

XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.

최신 AI 리소스

8개월 전

040.2K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

송블룸 - 홍콩중문대 및 NTU와 협력한 텐센트의 오픈 소스 곡 생성 모델

송블룸은 홍콩 중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래를 생성할 수 있습니다. 10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면...

최신 AI 리소스

7개월 전

040.2K

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델

완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...

최신 AI 리소스

7개월 전

040.1K

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - 앤트벨링 오픈소스의 MoE 아키텍처 언어 모델 시리즈

Ling-V2는 Ant-Belling 팀이 도입한 MoE 아키텍처를 기반으로 하는 대규모 언어 모델 제품군입니다. 첫 번째 버전인 Ling-mini-2.0에는 총 160억 개의 매개변수가 있으며 입력 토큰당 활성화되는 매개변수는 14억 개에 불과합니다.

최신 AI 리소스

7개월 전

040K

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

알파마요-R1 - 추론 기능을 갖춘 NVIDIA의 오픈 소스 비전-언어-액션 모델

알파마요-R1은 복잡한 시나리오에서 자율 주행의 의사 결정 능력을 향상시키기 위해 설계된 추론 기능을 갖춘 엔비디아가 개발한 시각-언어-행동(VLA) 모델입니다. 인과 관계 추론 메커니즘을 도입하여 차량은 시나리오 인과 관계(예: "때문에")를 분석할 수 있습니다.

최신 AI 리소스

5개월 전

040K

json-render - Vercel Labs开源的AI生成UI的工具

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

최신 AI 리소스

3 개월 전

039.9K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 직면면 인텔리전스를 통한 매우 효율적인 엔드사이드 매크로 모델링

MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...

최신 AI 리소스

8개월 전

039.8K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

최신 AI 리소스

3 개월 전

039.7K

Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant 오픈 소스 통합 오디오 멀티모달 생성 모델

밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.

최신 AI 리소스

7개월 전

039.6K

CWM - Meta FAIR开源的代码世界语言模型

CWM - 메타 페어 오픈 소스 코드 월드 언어 모델

CWM(코드 월드 모델)은 메타 페어 팀이 공개한 320억 개의 파라미터를 가진 오픈 소스 월드 언어 모델로, 코드 생성 및 추론을 위해 설계되었습니다. 코드 실행 프로세스를 시뮬레이션하고 변수 상태 변화를 예측하고 미리 예측할 수 있는 '월드 모델'이라는 개념을 도입했습니다.

최신 AI 리소스

7개월 전

039.5K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

혼합 모션 1.0 - 텐센트 혼합 모션 팀 오픈 소스 텍스트 생성 3D 모션 모델

하이브리드 모션1.0(HY-Motion1.0)은 텐센트 하이브리드 팀의 오픈 소스 텍스트 생성 3D 액션 모델로, 10억 개의 파라미터 확산 트랜스포머 아키텍처를 사용하여 고품질 3D 캐릭터 애니메이션의 자연어 설명을 통해 직접 생성할 수 있습니다.

최신 AI 리소스

4개월 전

039.5K

Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHop의 오픈 소스 고해상도 비디오 생성 모델

Lynx는 바이트댄스에서 오픈소스화한 고퀄리티 개인 맞춤형 동영상 생성 모델로, 단 한 장의 인물 사진으로 신원이 일치하는 동영상을 생성할 수 있습니다. 확산 트랜스포머(DiT) 기본 모델을 기반으로 구축되었으며, ID 어댑터와 Ref 어댑터의 도입으로...

최신 AI 리소스

7개월 전

039.4K

Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 홍콩 대학교 오픈 소스 학술 논문을 슬라이드로 변환하는 AI 도구

Paper2Slides는 홍콩대학교 데이터 인텔리전스 연구소의 오픈 소스 AI 도구로, 클릭 한 번으로 학술 논문을 전문적인 슬라이드나 포스터로 변환해 줍니다. 네트워크 정보에 의존하지 않고 문서 내용을 직접 구문 분석하는 RAG(검색 증강 생성) 기술을 사용하여 생성된 PPT가 원본과 매우 일치하도록 보장합니다.

최신 AI 리소스

5개월 전

039.4K

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M - IBM 오픈 소스 시각 언어 모델

Granite-Docling-258M은 효율적인 문서 변환을 위해 설계된 IBM의 초소형 오픈 소스 시각 언어 모델입니다. 이 모델은 레이아웃, 표, 수식 및 기타 요소를 그대로 유지하면서 문서를 기계가 읽을 수 있는 형식으로 변환합니다.

최신 AI 리소스

7개월 전

039.3K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - 알리 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기본 모델

MAI-UI는 알리바바 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기반 모델로, 애플리케이션 간 작동, 퍼지 의미 이해, 능동적 사용자 상호 작용 및 다단계 프로세스 조정이라는 네 가지 주요 기능을 갖추고 있습니다. 엔드 클라우드 협업 아키텍처를 채택한 경량 모델은 장치에 상주하여 일상적인 작업을 처리하고 복잡한 작업은 클라우드를 대규모로 호출할 수 있습니다.

최신 AI 리소스

4개월 전

038.9K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - LazyLLM을 기반으로 구축된 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼입니다.

LazyCraft는 오픈 소스 프레임워크 LazyLLM을 기반으로 상탕이 구축한 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼으로, 기업과 개발자를 위한 원스톱 AI 애플리케이션 개발 솔루션을 제공합니다. 개발자가 낮은 임계값과 저렴한 비용으로 대규모 모델 애플리케이션을 신속하게 빌드하고 출시할 수 있도록 지원합니다.

최신 AI 리소스

6개월 전

038.8K

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.

최신 AI 리소스

6개월 전

038.8K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.

유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.

최신 AI 리소스

7개월 전

038.7K

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - 스텝스 팀의 오픈 소스 엔드사이드 멀티모달 GUI 에이전트 모델

GELab-Zero는 4B 매개 변수가있는 Qwen3-VL-4B-Instruct 기본 모델을 기반으로 구축 된 Step Leap 팀의 오픈 소스 엔드 사이드 멀티 모달 GUI 에이전트 모델로, UI 요소를 인식하고 클릭, 슬라이드 등의 작업을 수행하고 교차 애플리케이션 작업을 지원합니다....

최신 AI 리소스

5개월 전

038.6K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....

최신 AI 리소스

7개월 전

038.6K

混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

혼합 월드 모델 1.5 - 텐센트 혼합 오픈 소스 실시간 월드 모델 생성 프레임워크

하이브리드 월드 모델 1.5(텐센트 HY 월드플레이)는 텐센트에서 출시한 업계 최초의 오픈 소스 실시간 월드 모델 프레임워크로, 데이터, 훈련 및 스트리밍 추론 배포의 전체 체인을 포괄합니다. 핵심은 Next-F를 사용하는 WorldPlay 자동 회귀 확산 모델입니다.

최신 AI 리소스

4개월 전

038.6K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

최신 AI 리소스

4개월 전

038.4K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - 바이트, HKU 공동 오픈 소스 시각적 추론 모델

Mini-o3는 복잡한 시각적 검색 문제를 해결하는 데 초점을 맞춘 ByteDance와 홍콩 대학교가 공동으로 출시한 오픈 소스 모델입니다. 이 모델은 강력한 다원적 대화형 추론 기능을 갖추고 있으며, 심층적인 탐색과 시행착오를 통해 대상을 찾을 수 있습니다.

최신 AI 리소스

8개월 전

038.4K

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시

월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...

최신 AI 리소스

6개월 전

038.4K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - Apple의 오픈 소스 단안경 3D 장면 구성 기술

SHARP(1초 미만의 선명한 단안 보기 합성)는 Apple의 오픈 소스 단안 보기 합성 기술입니다. 1초 이내에 한 장의 사진에서 사실적인 3D 장면을 빠르게 생성할 수 있습니다....

최신 AI 리소스

4개월 전

038.3K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 광학 문자 인식을 위한 텐센트의 오픈 소스 전문가 모델

훈위안OCR은 텐센트 하이브리드 팀이 오픈소스화한 고성능 광학 문자 인식 모델로, 10억 개의 레퍼런스만 보유하고 있습니다. 하이브리드 멀티모달 아키텍처를 기반으로 개발된 이 모델은 엔드투엔드 설계를 채택하여 텍스트 감지, 인식 및 문서 구문 분석 작업을 효율적으로 처리할 수 있습니다. 이 모델은 복잡한 문서 테스트에서 94.1점을 획득하여 ...

최신 AI 리소스

5개월 전

038.3K

LongCat-Flash-Thinking - 美团开源的高效推理模型

롱캣-플래시-씽킹 - 메이투안 오픈소스를 위한 효율적인 추론 모델

롱캣-플래시-씽킹은 미션 롱캣 팀이 출시한 효율적인 추론 모델로, 롱캣-플래시-챗의 빠른 속도를 유지하면서 더욱 강력하고 전문적으로 진화했습니다. 이 모델은 논리, 수학, 코드, 지능을 기반으로 합니다.

최신 AI 리소스

7개월 전

038.2K

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

헌위안비디오 1.5 - 텐센트 혼합 위안화 무료 오픈소스 경량 동영상 생성 모델

HunyuanVideo 1.5는 확산 변압기 (DiT) 아키텍처를 기반으로하는 Tencent 하이브리드 빅 모델 팀 오픈 소스 경량 비디오 생성 모델로, 매개 변수 수는 8.3B입니다. 5-10 초의 고화질 비디오 생성 지원, 하위 ...

최신 AI 리소스

5개월 전

037.9K

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型，在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”，扫描、手写、印章、多语混排、复杂表...

최신 AI 리소스

3 개월 전

037.9K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - 베이퍄오, NU 등과 연계한 M-A-P 오픈 소스 무료 뮤직비디오 생성 시스템

AutoMV는 M-A-P 팀이 여러 대학과 협력하여 개발한 오픈 소스 뮤직비디오 생성 시스템으로, 교육 없이도 완성된 곡을 기반으로 일관된 뮤직비디오를 자동으로 생성할 수 있으며, 음악 분석, 대본 작성, 연출 및 품질 관리 모듈을 포함한 다중 지능 협업 모델을 채택하여 가사, 비트 등을 정확하게 분석할 수 있습니다....

최신 AI 리소스

4개월 전

037.9K

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - 텐센트 유튜브 오픈소스 일반 텍스트 표현 모델

Youtu-Embedding은 엔터프라이즈급 애플리케이션을 위해 설계된 Tencent의 Youtu Labs에서 개발한 오픈 소스 범용 텍스트 표현 모델입니다. 텍스트는 심층 신경망에 의해 고차원 벡터 공간에 매핑되어 의미적으로 유사한 문장이 해당 공간에서 서로 가깝게 배치되어 정확한 의미 검색을 달성합니다.

최신 AI 리소스

7개월 전

037.8K

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

로보브레인-X0은 위즈덤 소스 연구소가 오픈소스로 공개한 세계 최초의 제로 샘플 교차 온톨로지 일반화를 지원하는 오픈소스 구현 모델로, 업계에서 큰 의미를 지니고 있습니다. 다양한 구성의 여러 실제 로봇을 구동하여 미세 조정없이 기본 작동 작업을 완료 할 수 있으며, 소량의 샘플 미세 조정 후 복제 기능을 보여줍니다.

최신 AI 리소스

7개월 전

037.7K

ClawFeed - 开源AI新闻摘要工具，一站式聚合任意网站内容

ClawFeed - 开源AI新闻摘要工具，一站式聚合任意网站内容

ClawFeed是开发者Kevin He推出的开源AI新闻摘要工具，解决信息过载问题。通过聚合Twitter、RSS、GitHub等多平台信息源，利用AI自动生成4小时、每日、每周和每月的结构化摘要...

최신 AI 리소스

2개월 전

037.6K

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

Qwen3-Coder-Next是阿里巴巴通义千问团队开源的专为编程智能体设计的高效混合模型，基于80B总参数的Qwen3-Next架构，推理时仅激活3B参数。核心创新在于采用环境交互和强化学习训练方...

최신 AI 리소스

3 개월 전

037.5K

聆音EchoCare - 香港科学院开源的超声基座大模型

에코케어 - 홍콩 과학 아카데미 오픈 소스 초음파 베이스 대형 모델

에코케어는 중국과학원(CAS) 홍콩혁신연구센터의 인공지능 및 로봇공학 혁신센터(CAIR)가 개발한 대규모 초음파 기반 모델로, 다센터, 다지역, 다인종, 50개 이상의 개인을 포함하는 세계 최대 규모의 초음파 이미지 데이터세트(450만 개 이상의 이미지)로 훈련되었습니다....

최신 AI 리소스

7개월 전

037.5K

nanochat - Karpathy免费开源的低成本模型训练项目

나노챗 - Karpathy의 무료 오픈소스 저비용 모델 교육 프로젝트

나노챗은 AI의 전설이자 전 테슬라 AI 디렉터인 안드레이 카르파티가 공개한 오픈 소스 프로젝트로, 개인이 매우 저렴한 비용과 단순함으로 작은 ChatGPT와 유사한 언어 모델을 빠르게 훈련할 수 있도록 해줍니다. 전체 프로젝트는 약 800개만 사용합니다.

최신 AI 리소스

7개월 전

037.5K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

최신 AI 리소스

3 개월 전

037.3K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 푸단 및 알리 다르마 연구소 및 기타 오픈 소스 지능형 이미지 애니메이션 생성 프레임워크

AnyI2V는 푸단대학교, 알리바바 다모 아카데미 등이 공동으로 출시한 이미지 애니메이션 생성 프레임워크로, 복잡한 학습 과정과 많은 양의 데이터 없이도 정적인 조건부 이미지(예: 그리드, 포인트 클라우드 등)를 동적인 동영상으로 변환할 수 있도록 지원합니다.

최신 AI 리소스

8개월 전

037.3K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크

DeepSearchQA는 복잡한 다단계 쿼리 작업에서 지능의 성능을 평가하기 위해 설계된 Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크입니다. 17개 도메인을 포괄하는 900개의 수작업으로 설계된 "인과 관계 체인" 작업으로 구성되어 있으며, AI가 인간 연구원처럼 행동하고 다단계 작업을 수행하도록 요구합니다.

최신 AI 리소스

5개월 전

037.1K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - Wisdom 스펙트럼과 칭화대 오픈 소스 영화 및 TV 캐릭터 애니메이션 생성 프레임워크

SCAIL(맥락 내 학습을 통한 스튜디오급 캐릭터 애니메이션)은 스마트 스펙트럼이 칭화대학교의 류용진 교수 그룹과 협력하여 제안한 영화 및 TV급 캐릭터 애니메이션 생성 프레임워크입니다. 통해...

최신 AI 리소스

5개월 전

037.1K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - 칭화대 등이 참여한 알리 통이의 오픈 소스 AI 동영상 생성 프레임워크

완무브는 알리 통이 연구소, 칭화대학교 및 기타 기관이 공동 개발한 오픈 소스 AI 비디오 생성 프레임워크로, 정밀한 모션 제어 기술을 통한 고품질 비디오 합성에 중점을 두고 있습니다. 핵심 기술은 기존 이미지 대 비디오 모델에 포인트 수준의 모션 제어를 원활하게 추가 할 수있는 "잠재적 궤적 안내"입니다 ...

최신 AI 리소스

5개월 전

037K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - 파이어폭스 커널 기반의 오픈 소스 AI 웹 브라우저

Zen 브라우저는 Firefox 커널 기반의 오픈 소스 브라우저로, 세로 탭 표시줄 및 작업 공간 분리와 같은 핵심 기능을 통해 간단하고 효율적인 브라우징 경험에 중점을 두고 있습니다. 사이드바 디자인으로 50개 이상의 탭의 전체 제목을 명확하게 표시하고 다중 창 분할 화면 브라우징을 지원합니다.

최신 AI 리소스

4개월 전

036.9K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

최신 AI 리소스

3 개월 전

036.8K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

최신 AI 리소스

3 개월 전

036.8K

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델

VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...

최신 AI 리소스

7개월 전

036.8K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

최신 AI 리소스

4개월 전

036.7K

Ming-flash-omni 2.0 - 蚂蚁集团开源的全模态大模型

Ming-flash-omni 2.0 - 蚂蚁集团开源的全模态大模型

Ming-flash-omni 2.0是蚂蚁集团开源的全模态大模型，集成了视觉、语音和生成能力的AI模型，在多项基准测试中性能领先。支持同时生成语音、环境音效和音乐，能通过自然语言指令精细控制音色、语...

최신 AI 리소스

2개월 전

036.7K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

최신 AI 리소스

3 개월 전

036.6K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - 알리 통이가 출시한 최신 기본 모델

Qwen3-Next는 알리 통이가 오픈소스화한 차세대 하이브리드 아키텍처 빅 모델로, 긴 텍스트 처리, 빠른 추론, 계산 리소스 절약에 능한 Gated DeltaNet과 Gated Attention 기술을 결합한 것입니다.

최신 AI 리소스

8개월 전

036.5K

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型，以“边看边听主动说”的端到端架构，在手机端即可跑出 GPT-4o 级体验：支持单图、多图、高帧率长视频、实时语音双工对话，首 tok...

최신 AI 리소스

3 개월 전

036.5K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'

InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...

최신 AI 리소스

7개월 전

036.5K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - 샤오미의 오픈 소스 크로스 도메인 구현 인텔리전스 페데스탈 모델

MiMo-Embodied는 샤오미 그룹이 오픈소스화한 세계 최초의 교차 구현형 기본 모델로, 구현형 AI와 자율주행을 성공적으로 통합했습니다. 이는 구현형 AI와 자율 주행 간의 지식 마이그레이션 문제를 해결하고 두 영역의 작업을 통합 모델링합니다.

최신 AI 리소스

5개월 전

036.4K

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型，性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性：通过增加采...

최신 AI 리소스

3 개월 전

036.3K

Nemotron 3 - 英伟达发布的开源 AI 模型系列

네모트론 3 - NVIDIA에서 출시한 오픈 소스 AI 모델 제품군

Nemotron 3는 NVIDIA에서 나노, 슈퍼 및 울트라 크기로 출시한 오픈 소스 AI 모델 제품군입니다. 네모트론 3는 잠재적 MoE 아키텍처를 채택하여 추론 효율을 크게 개선하고 운영 비용을 절감합니다. 그 중 하나는...

최신 AI 리소스

4개월 전

036.2K

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra是一个基于OpenClaw框架开发的AI女友程序，由韩国开发者David Im制作，具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...

최신 AI 리소스

3 개월 전

036.2K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.

최신 AI 리소스

4개월 전

036.2K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - 오픈 소스 AI 비디오를 손으로 그린 분할 화면 도구로 변환, B 스테이션, 작은 빨간 책 지원

ClipSketch AI는 짧은 동영상 제작자를 위해 설계된 오픈 소스 동영상에서 손으로 그린 분할 화면 도구입니다. B 스테이션, 샤오홍슈 및 기타 플랫폼의 동영상을 한 번의 클릭으로 손으로 그린 스타일의 스토리보드로 변환하고, 키 프레임 표시, 서브 장면 자동 생성 및 소셜 카피를 지원하며, 사용자 정의 역할을 통합할 수 있습니다.

최신 AI 리소스

4개월 전

036.1K

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban是开源的AI编程代理任务管理工具，专为同时使用多个AI编程助手（如Claude Code、Gemini CLI、Codex等）的开发者设计。通过看板形式统一管理任务进度，支持并行...

최신 AI 리소스

4개월 전

035.9K

VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - 미니막스 콘치 비디오 팀의 오픈 소스 비주얼 제너레이티브 모델링 기술

VTP(Visual Tokenizer Pre-training)는 미니막스 콘치 비디오 팀이 비주얼 토큰화(토큰라이저)의 사전 학습 방식을 개선하여 제너레이티브 시스템의 성능을 향상시키기 위해 제안한 비주얼 제너레이티브 모델의 핵심 기술입니다. 기존 방식은...

최신 AI 리소스

4개월 전

035.9K

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”，把视频生成与机器人控制塞进同一 Transformer，每一步同时输出下一帧世界画面和对应动作，实现“边想边干”。

최신 AI 리소스

3 개월 전

035.9K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Microsoft의 오픈 소스 컴퓨터 운영 에이전트 어시스턴트 모델

Fara-7B는 Qwen 2.5-VL-7B 아키텍처를 기반으로 하는 70억 개 매개변수 규모의 컴퓨터 운영 에이전트(CUA) 모델의 Microsoft 오픈 소스 릴리스입니다. 웹 페이지의 스크린샷을 시각적으로 구문 분석하고 화면에서 클릭, 입력 등을 수행함으로써 추가적인 접근성 트리나 여러 개의 대형 모델에 의존할 필요가 없습니다....

최신 AI 리소스

5개월 전

035.9K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

최신 AI 리소스

4개월 전

035.9K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 스마트 스펙트럼 AI의 오픈 소스 휴대폰 AI 에이전트 모델

OpenAutoGLM은 다중 모드 인식을 통해 휴대폰 화면의 내용을 이해하고 사용자가 지정한 작업을 완료하기 위해 작업 흐름을 자동으로 생성 할 수있는 "휴대폰 사용"기능을 갖춘 오픈 소스 지능형 신체 모델입니다. 사용자는 "근처 훠궈를 검색하려면 메이투안을 열어..."와 같이 자연어를 사용하여 요구 사항을 설명하기만 하면 됩니다.

최신 AI 리소스

5개월 전

035.8K

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder - 오픈 소스 AI 로우코드 웹사이트 빌더, 빠른 구축을 위한 드래그 앤 드롭 구성 요소

Frappe 빌더는 Frappe에서 개발한 오픈 소스 로우코드 웹사이트 빌더로, 핵심 기능은 드래그 앤 드롭 구성 요소를 지원하는 Figma와 유사한 시각적 편집기를 제공하여 웹사이트를 빠르게 구축할 수 있도록 하는 것입니다. Frappe 생태계의 일부(Frappeverse)...

최신 AI 리소스

6개월 전

035.7K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...

최신 AI 리소스

8개월 전

035.7K

Qwen3.5 - 阿里通义千问团队开源的最新一代大语言模型

Qwen3.5 - 阿里通义千问团队开源的最新一代大语言模型

Qwen3.5是阿里巴巴通义千问团队开源的最新一代大语言模型，属于千问（Qwen）系列的升级版本。Qwen3.5突破了传统文本模型的限制，实现了真正的原生多模态理解，可直接处理文本、图像、视频等多种模...

최신 AI 리소스

2개월 전

035.6K

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow - 터미널에서 마크다운 파일 렌더링을 지원하는 오픈 소스 명령줄 도구

Glow는 터미널에서 마크다운 파일을 우아하게 렌더링하기 위한 오픈 소스 명령줄 도구입니다. 이 도구는 코드 블록, 수학 공식 및 기타 복잡한 요소 강조 표시를 지원하며 사용자 지정 스타일, 페이징 표시, 마우스 지원 등과 같은 다양한 기능을 제공합니다.

최신 AI 리소스

6개월 전

035.5K

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...

최신 AI 리소스

6개월 전

035.5K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

칼레이도 - 칭화대학교 등과 함께 Smart Spectrum AI가 오픈소스화한 다중 피사체 참조 비디오 생성 모델입니다.

칼레이도는 허페이 공과대학교, 칭화대학교, 스마트 스펙트럼 AI가 공동 개발한 오픈 소스 다중 피사체 참조 비디오 생성 모델입니다. 여러 참조 이미지를 통해 피사체 일관된 비디오를 생성하여 다중 피사체 일관성 및 배경 분리에서 기존 모델의 결함을 해결합니다.Kaleido는 특수한 데이터를 통해 비디오를 생성합니다.

최신 AI 리소스

5개월 전

035.5K

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - Android에서 AI 앱을 빌드하는 방법에 대한 Google 오픈 소스 무료 리소스

Androidify는 개발자가 Android에서 AI 기반 애플리케이션을 구축하는 방법을 배울 수 있도록 도와주는 Google의 오픈 소스 프로젝트입니다. 이 프로젝트는 제트팩 컴포즈, 제미니 API(Fire를 통해) 등 Google의 최신 기술을 사용합니다.

최신 AI 리소스

7개월 전

035.5K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

최신 AI 리소스

4개월 전

035.4K

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型，拥有140亿参数量，实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...

최신 AI 리소스

3 개월 전

035.4K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - 레이서 오픈 소스 무료 프로그래밍 전용 모델

KAT-Dev-72B-Exp는 레이서 팀에서 출시한 오픈소스 프로그래밍 전용 대규모 언어 모델로, 강화 학습 기법을 기반으로 최적화되어 SWE-Bench Verified 벤치마크 테스트에서 현재 오픈소스 모델 중 최고 성능인 74.6%의 정확도를 달성했습니다. 이 모델은 혁신적인...

최신 AI 리소스

7개월 전

035.4K

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

밍플래시 옴니 프리뷰 - 앤트 그룹 오픈 소스 풀 모달 매크로 모델

밍-플래시-옴니-프리뷰는 앤트그룹 인클루전AI가 출시한 오픈소스 풀모달 매크로 모델로, Ling 2.0의 스파스 MoE 아키텍처를 기반으로 총 103억 개의 파라미터와 9억 개의 활성화로 수천억 개의 파라미터 규모를 가지고 있으며 풀모달 이해 및 생성에 있어...

최신 AI 리소스

6개월 전

035.4K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AI의 오픈 소스 실시간 스트리밍 비디오 생성 시스템

리얼비디오는 스마트 스펙트럼 AI의 오픈소스 실시간 스트리밍 비디오 생성 시스템으로, 2~3초 안에 자연스럽고 부드러운 비디오 응답을 빠르게 생성할 수 있습니다. 사용자가 사진을 업로드하고 텍스트를 입력하기만 하면 시스템이 해당 음성과 영상을 생성하여 AI 캐릭터와 실시간으로 대화할 수 있습니다...

최신 AI 리소스

5개월 전

035.4K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - Google의 오픈 소스 의료 음성 인식 모델

MedASR은 구글이 오픈소스화한 1억 5천만 개의 파라미터 의료 음성 인식 모델로, 5,000시간의 감작된 임상 말뭉치를 기반으로 미세 조정되어 약물, 용량 및 해부학 용어에 최적화되어 있으며, 6그램의 의료 언어 모델이 내장되어 있고 민간 방사선 데이터 세트 RAD-DICT에서 단어 오류율이 4.6에 불과합니다....

최신 AI 리소스

4개월 전

035.3K

VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....

최신 AI 리소스

6개월 전

035.3K

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Di...

최신 AI 리소스

2개월 전

035.3K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

최신 AI 리소스

4개월 전

035.2K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

미스트랄 바이브 - 미스트랄 AI의 오픈 소스 명령줄 코딩 도우미

미스트랄 바이브는 코드 검색, 파일 조작, 버전 관리 및 기타 작업을 완료하기 위해 자연어 상호 작용을 지원하는 Devstral 모델을 기반으로 개발된 미스트랄 AI의 오픈 소스 명령줄 코딩 어시스턴트입니다. 기호를 통해 프로젝트 구조와 Git 상태를 자동으로 스캔할 수 있습니다....

최신 AI 리소스

5개월 전

035.2K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 고성능 멀티모달 이해를 위한 무료 오픈 소스 멀티모달 모델

LLaVA-OneVision-1.5는 128개의 A800...에서 8B 파라미터 스케일을 사용하는 EvolvingLMMS-Lab 팀의 오픈 소스 멀티모달 모델로, 컴팩트한 3단계 훈련 프로세스(언어-이미지 정렬, 개념 평형화 및 지식 주입, 명령어 미세 조정)를 통해 학습합니다.

최신 AI 리소스

7개월 전

035.1K

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - Alibaba 오픈 소스 AI 이력서 구문 분석 및 최적화 도구

SmartResume은 PDF, 이미지 또는 Office 문서에서 기본 정보, 교육 및 업무 경험과 같은 구조화된 정보를 효율적으로 추출하는 Alibaba의 오픈 소스 지능형 이력서 구문 분석 및 최적화 도구입니다. OCR 기술과 PDF 메타데이터를 통합하여 ...

최신 AI 리소스

6개월 전

035.1K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

최신 AI 리소스

4개월 전

035K