최신 AI 리소스

총 2788개의 기사
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

메소-(화학)크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...
1 일 전
01.9K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
7일 전
012K
OmniVinci - NVIDIA开源的全模态大语言模型

옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델

옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.
1주일 전
09.7K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - 여러 에이전트가 함께 작업하는 오픈 소스 다중 인텔리전스 금융 플랫폼

밸류셀은 AI 기술을 통해 재무 분석 및 투자 관리의 효율성을 향상시키는 오픈 소스 다중 지능체 금융 애플리케이션 플랫폼입니다. 전문 투자 팀을 시뮬레이션하여 여러 AI 지능이 함께 작동하여 시장 분석, 정서 분석, 기초 연구, 자동 거래 및 기타 기능을 포함하여 사용자에게 포괄적 인 기능을 제공합니다.
1주일 전
014K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

덱스보틱 - 포스 스피릿 머신 오픈 소스 VLA 모델의 구현형 인텔리전스 원스톱 연구 서비스 플랫폼

덱스보틱은 체화지능 분야의 파편화와 낮은 연구 효율성 문제를 해결하는 덱스말의 오픈소스 시각-언어-행동(VLA) 모델의 체화지능 원스톱 연구 서비스 플랫폼입니다. 덱스보틱은 파이토치를 기반으로 구현 지능 분야의 파편화와 낮은 효율성 문제를 해결하기 위한 원스톱 연구 서비스 플랫폼입니다...
1주일 전
07.8K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - 미션의 LongCat 오픈 소스 비디오 생성 모델

롱캣-비디오는 MIT 오픈 소스 프로토콜을 사용하는 롱캣 팀의 13억 6천만 개 매개변수 비디오 생성 모델 오픈 소스로, 텍스트 생성 비디오, 그래프 생성 비디오 및 비디오 연속의 세 가지 주요 작업을 지원합니다. "거친에서 미세한"생성 전략과 블록 희소주의 메커니즘을 통한 모델은 몇 분 안에있을 수 있습니다 ...
1주일 전
014.4K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.
2 주 전
012.9K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시

월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...
2 주 전
013.9K
VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....
2 주 전
011.8K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - 상하이 AI Lab과 북경대학교 오픈 소스 문서 구문 분석 모델

MinerU2.5는 상하이 인공지능 연구소와 북경대학교 팀이 공동으로 개발한 분리형 시각 언어 모델로, 고해상도 문서 이미지 구문을 효율적으로 처리하는 데 중점을 두고 있습니다. 핵심 혁신은 "글로벌 레이아웃 감지 후 로컬 콘텐츠 인식"의 2단계 설계에 있습니다. 첫 번째 단계는 저해상도...
2 주 전
015.6K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - 바이두 오픈 소스 초경량 시각 언어 모델

PaddleOCR-VL은 문서 구문 분석 시나리오에 최적화된 바이두의 오픈 소스 초경량 시각 언어 모델입니다. 이 모델은 동적 고해상도 시각 코더와 경량 ERNIE 언어 모델의 융합을 통해 0.9억 개의 파라미터만 포함하며, 높은 정확도를 유지하고 계산 오버헤드를 크게 줄입니다.
2 주 전
011.9K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.

유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.
3주 전
014.9K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크

DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...
3주 전
016K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - ByteHop의 오픈 소스 멀티모달 시각 언어 모델

SAIL-VL2는 이미지와 텍스트와 같은 멀티모달 입력의 공동 모델링에 중점을 둔 Byte Jump 팀의 오픈 소스 멀티모달 시각 언어 모델입니다. 전문가(MoE) 아키텍처와 점진적 훈련 전략의 희소 혼합을 사용하여 2B~8B의 매개변수 규모, 특히 그래픽 이해, 수학적 이해에서 높은 성능을 달성합니다.
3주 전
09.9K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - 바이트 오픈 소스 액티브 컨텍스트 인식 AI 파트너

MineContext는 사용자가 방대한 양의 정보를 효율적으로 관리하고 지식 업무의 효율성을 개선할 수 있도록 돕기 위해 ByteDance Viking 팀이 오픈소스로 제공하는 적극적인 상황 인식 AI 파트너입니다. 스크린샷 및 콘텐츠 이해 기술을 통해 사용자의 일상적인 작업(예: 웹 검색, 문서 편집 등)을 자동으로 기록하고, 지원...
3주 전
014.9K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....
3주 전
012.1K
吴恩达的《Agentic AI》最新智能体免费课程

에른스트 우의 에이전틱 AI의 최신 인텔리전스에 대한 무료 강좌

에이전틱 AI는 어니스트 응이 출시한 지능형 바디에 관한 최신 강좌로, 반영, 도구 사용, 계획 및 다중 지능형 바디 협업의 네 가지 설계 패턴을 다루는 지능형 바디의 설계 및 구축에 중점을 둡니다. 학습자는 이론적 설명과 코드 실습을 통해 지능형 바디가 출력을 확인하고 자율적으로 조정하는 방법을 익히게 됩니다....
4주 전
015.9K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AI 에이전트 네트워크 구축을 위한 오픈소스 무료 오픈 협업 프로젝트

오픈에이전트는 AI 에이전트 네트워크를 생성하고 에이전트 간의 개방형 협업을 촉진하는 오픈 소스 프로젝트입니다. AI 에이전트가 원활하게 연결하고 협업할 수 있도록 기본 네트워크 인프라가 제공됩니다. 사용자는 자체 에이전트 네트워크를 빠르게 시작하고, 모듈식 아키텍처를 통해 기능을 확장하고, 지원...
4주 전
011.8K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - 수조 개의 파라미터를 위한 Ant Group의 오픈 소스 범용 언어 모델

Ling-1T는 Ant Group에서 오픈소스화한 1조 개 매개변수 범용 언어 모델로, 베링의 대형 모델인 Ling 2.0 시리즈의 플래그십 제품에 속합니다. 이 모델은 고효율 MoE 아키텍처를 채택하고 128K 컨텍스트 윈도우를 지원하며 코드 생성, 수학적 추론, 논리 테스트 등 7가지 벤치마크에서 GPT를 능가합니다.
4주 전
024.4K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant 오픈 소스 통합 오디오 멀티모달 생성 모델

밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.
4주 전
013.1K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - 완벽한 창작 과정을 위한 무료 AI 만화 제작 도구!

AIMangaStudio는 창작자에게 줄거리 생성, 서브 장면 디자인, 캐릭터 설정 및 기타 기능을 포함한 완벽한 만화 제작 파이프라인을 제공하는 무료 AI 만화 제작 도구로, 스크립트에서 만화 페이지까지 제작 프로세스를 간소화할 수 있습니다. 줄거리, 대사를 포함한 만화 대본의 자연어 생성을 지원합니다.
1개월 전
015.6K
Logics-Parsing - 阿里开源的文档解析模型

논리 구문 분석 - Ali 오픈 소스 문서 구문 분석 모델

논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...
1개월 전
016.9K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

로보브레인-X0은 위즈덤 소스 연구소가 오픈소스로 공개한 세계 최초의 제로 샘플 교차 온톨로지 일반화를 지원하는 오픈소스 구현 모델로, 업계에서 큰 의미를 지니고 있습니다. 다양한 구성의 여러 실제 로봇을 구동하여 미세 조정없이 기본 작동 작업을 완료 할 수 있으며, 소량의 샘플 미세 조정 후 복제 기능을 보여줍니다.
1개월 전
014.1K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHop의 오픈 소스 고해상도 비디오 생성 모델

Lynx는 바이트댄스에서 오픈소스화한 고퀄리티 개인 맞춤형 동영상 생성 모델로, 단 한 장의 인물 사진으로 신원이 일치하는 동영상을 생성할 수 있습니다. 확산 트랜스포머(DiT) 기본 모델을 기반으로 구축되었으며, ID 어댑터와 Ref 어댑터의 도입으로...
1개월 전
014.5K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

헌위안이미지 3.0 - 텐센트 오픈소스 무료 멀티모달 이미지 생성 모델

훈위안이미지 3.0(훈위안 이미지 3.0)은 텐센트에서 공개하고 오픈소스로 제공한 네이티브 멀티모달 이미지 생성 모델입니다. 모델 매개변수 크기는 80B로, 현재 오픈소스 이미지 생성 모델 중 가장 많은 매개변수를 가진 최고의 평가 결과입니다. 하이브리드 이미지 3.0은 실시간 이미지 생성을 지원하며, 사용자는 측면 ...
1개월 전
022.2K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - 텐센트 오픈 소스 무료 3D 컴포넌트 생성 모델

후위안 3D 파트(하이브리드 3D 파트)는 텐센트에서 공개하고 오픈소스로 제공하는 3D 생성 모델입니다. P3 - SAM과 X - Part로 구성된 이 모델은 최초로 고정밀 제어가 가능한 컴포넌트 기반 3D 생성을 실현하여 자동으로 생성되는 50개 이상의 컴포넌트를 지원합니다. 사용자는 먼저 사용할 수 있습니다...
1개월 전
018.3K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfei 오픈 소스 텍스트 생성 사운드 AI 모델

AudioFly는 텍스트에서 음향 효과를 생성하기 위한 오픈 소스 AI 모델입니다. 10억 개의 파라미터가 포함된 잠재적 확산 모델 아키텍처를 기반으로 AudioSet, AudioCaps, TUT 및 내부 데이터 세트와 같은 대규모의 다양한 오디오 텍스트 데이터 세트에 대해 학습된 모델입니다.
1개월 전
017.9K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 위즈덤소스가 남양기술연구소(NTI)와 협력하여 오픈소스화한 전이중 오디오 대화 모델(FLM-Audio)

FLM-Audio는 베이징 즈위안 인공지능 연구소가 스핀 매트릭스 및 싱가포르 난양 공과대학교와 함께 출시한 네이티브 전이중 오디오 대화 매크로 모델로, 중국어와 영어를 모두 지원합니다. 네이티브 전이중 아키텍처를 채택하여 각 시간 단계에서 듣기, 말하기 및 독백을 병합 할 수 있습니다 ...
1개월 전
016K
CWM - Meta FAIR开源的代码世界语言模型

CWM - 메타 페어 오픈 소스 코드 월드 언어 모델

CWM(코드 월드 모델)은 메타 페어 팀이 공개한 320억 개의 파라미터를 가진 오픈 소스 월드 언어 모델로, 코드 생성 및 추론을 위해 설계되었습니다. 코드 실행 프로세스를 시뮬레이션하고 변수 상태 변화를 예측하고 미리 예측할 수 있는 '월드 모델'이라는 개념을 도입했습니다.
1개월 전
015.8K
Neovate Code - 蚂蚁开源的智能编程助手

네오베이트 코드 - Ant 오픈소스의 지능형 프로그래밍 도우미

네오베이트 코드는 앤트그룹 알리페이 경험 기술 부서의 오픈소스 지능형 프로그래밍 도우미로, 인공지능 기술을 통해 개발 효율성을 향상시킵니다. 대화형 개발 기능을 통해 개발자는 자연어를 통해 요구 사항을 설명할 수 있으며, Neovate Code는 이를 이해하고 해당 세대를 생성할 수 있습니다.
1개월 전
018.1K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - 알리클라우드 통이 첸첸 오픈 소스 멀티모달 시각 언어 매크로 모델

Qwen3-VL은 알리클라우드 통이 첸첸 팀의 오픈소스 멀티모달 시각 언어 대형 모델로, 235억 개의 참조와 약 471GB의 모델 파일이 있으며, 인스트럭션 및 사고 버전을 포함하고, 향상된 MRope 인터리브 레이아웃, 딥스택 및 기타 기술을 채택하여 시각 변환을 효과적으로 사용할 수 있습니다 ...
1개월 전
019.5K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - 알리 퀀 오픈 소스 보안 모델

Qwen3Guard는 보안 탐지를 위해 설계된 Qwen3 기본 모델을 기반으로 미세 조정된 보안 보호 모델입니다. 프롬프트 및 응답에 대한 정확한 보안 분류를 제공하고 위험 수준을 제공하며 영어, 중국어 및 다국어 환경을 지원합니다.Qwen3Guard는 두 가지 프로 버전으로 제공됩니다.
1개월 전
019.7K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - 알리 통이의 음성 합성 모델

Qwen3-TTS-Flash는 알리통이가 도입한 고급 음성 합성 모델로 중국어, 영어, 방언 등 17개 음색과 10개 언어를 지원합니다. 중국어와 영어 음성의 안정성이 뛰어나고 표현력이 높으며 음성 톤을 자동으로 조정하여 더욱 생생하게 표현할 수 있는 모델입니다.
1개월 전
020K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델

완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...
2개월 전
017.9K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

샤오미 미모 오디오는 다국어 대화, 음성 연속, 적은 샘플 일반화 및 오디오 이해와 같은 강력한 기능을 갖춘 샤오미의 오픈 소스 70억 개 파라미터 엔드투엔드 음성 매크로 모델로, 음성 지능 및 오디오 이해 벤치마크에서 구글 제미를 능가하는 SOTA 레벨에 도달할 수 있습니다.
2개월 전
015.7K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 상하이 AI 랩, 대형 모델 구현을 위한 운영 기능의 오픈 소스 통합

InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.
2개월 전
015K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - 직면 지능과 칭화 오픈 소스 엔드투엔드 TTS 모델

VoxCPM은 Facade Intelligence와 칭화대학교 선전 국제대학원이 공동으로 오픈소스화한 음성 생성 모델로, 엔드투엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 표현을 생성함으로써 기존의 이산적 명료화의 한계를 극복합니다. 계층적 언어 모델링과 유한 상태 양자화를 통해 ...
2개월 전
018.5K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델

InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
2개월 전
014.8K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델

VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...
2개월 전
013.3K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'

InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...
2개월 전
014.9K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - 유슈 테크놀로지 오픈 소스 월드 모델 액션 아키텍처

UnifoLM-WMA-0은 일반 로봇 학습을 위해 설계된 유슈 테크놀로지의 여러 로봇 온톨로지 클래스에 걸친 오픈 소스 월드 모델-액션 아키텍처입니다. 월드 모델과 액션 아키텍처로 구성된 월드 모델은 로봇과 환경 상호 작용의 물리적 법칙을 이해하고, 액션 아키텍처는 특정 동작을 담당합니다.
2개월 전
018.8K
Hyprnote - 开源的本地优先AI会议笔记工具

하이프노트 - 오픈 소스 로컬 최초의 AI 회의 노트 필기 도구

하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.
2개월 전
012.6K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...
2개월 전
014.5K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 상하이교통대학교 오픈 소스 모바일 인텔리전트 바디 풀스택 구축 프레임워크

모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...
2개월 전
014.3K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 차세대 텍스트 인식을 위한 바이두의 오픈소스 AI 모델

PP-OCRv5는 바이두에서 출시한 최신 세대의 텍스트 인식 AI 모델입니다. 경량 설계와 0.07B에 불과한 참조 개수로 CPU와 엣지 디바이스에서 효율적으로 실행하기에 적합하며 초당 370개 이상의 문자를 처리할 수 있습니다. 이 모델은 중국어 간체, 중국어 번체, 영어, 일본어, 병음...을 지원합니다.
2개월 전
021.1K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크

Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
2개월 전
014.2K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크

스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
2개월 전
012.3K