AI 도구를 찾을 수 없나요? 여기에서 찾아보세요!

키워드를 입력하기만 하면 됩니다. 접근성 Bing 검색이 사이트의 AI 도구 섹션에서는 이 사이트의 모든 AI 도구를 빠르고 쉽게 찾을 수 있습니다.

Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Ant Group 오픈 소스 고성능 가중치 교환 프레임워크

Awex는 강화 학습에서 대규모 파라미터 동기화를 위해 설계된 Ant Group의 오픈 소스 고성능 가중치 교환 프레임워크입니다. 몇 초 만에 테라바이트의 파라미터 교환을 완료하여 훈련 및 추론의 효율성을 크게 향상시킬 수 있으며, Awex는 매우 빠른 동기화 성능을 가지고 있으며, 수천 개의 카드 클러스터에서 6초 이내에 1조 개의 파라미터 모델을 완료할 수 있습니다....
7개월 전
089.6K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 데이터 진화 프레임워크를 호출하는 상하이교통대학교와 리틀 레드북의 오픈 소스 자동화 도구

LoopTool은 상하이 자오통 대학과 리틀 레드북 팀이 오픈소스화한 자동화된 도구 호출 데이터 진화 프레임워크로, 대규모 언어 모델의 도구 호출 기능을 향상시키기 위해 설계되었습니다. 오픈 소스 모델(예: Qwen3-32B)을 데이터 생성으로 사용하여 폐쇄 루프 반복을 통해 데이터 생성 및 모델 학습을 최적화합니다.
7개월 전
091.5K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - 메타 오픈 소스 3D 재구성 모델 시리즈

SAM 3D는 Meta의 SAM 시리즈를 기반으로 하는 3D 재구성 모델로, SAM 3D 오브젝트와 SAM 3D 바디의 두 가지로 구성되어 있습니다. SAM 3D 오브젝트는 단일 사진에서 인터랙티브 3D 오브젝트 모델을 생성할 수 있으며, 다음과 같은 기능을 지원합니다.
7개월 전
040.1K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

에이전트 에볼버 - 진화하는 지능을 위한 알리 통이 연구소의 오픈 소스 시스템

에이전트이볼버는 알리바바 통이 연구소의 오픈소스 지능형 신체 진화 시스템입니다. 자체 질문, 자체 탐색 및 자체 귀속의 세 가지 메커니즘을 통해 지능의 자율 학습 및 진화를 달성하며, 에이전트 에볼버는 환경 샌드박스, LLM 및 sc를 결합한 서비스 지향 아키텍처를 채택합니다.
7개월 전
097.9K
网格搜索(Grid Search)是什么,一文看懂

그리드 검색(그리드 검색)이란 무엇인가요?

그리드 검색은 머신러닝에서 최적의 하이퍼파라미터 조합을 체계적으로 찾기 위한 자동화된 방법입니다. 이 방법은 각 하이퍼파라미터에 대한 후보 값의 범위를 미리 정의하고 가능한 모든 파라미터 조합을 소진하여 모델을 하나씩 학습시키고 성능을 평가하여 최종적으로 가장 성능이 좋은 하이퍼파라미터를 선택합니다.
7개월 전
037.5K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

위드애니원 - 푸단 공동 스텝 도약 스타 오픈소스 AI 사진 생성 모델

위드애니원은 푸단대학교와 스텝스타가 공동 개발한 인공지능 사진 생성 모델로, 기존 인공지능 이미지 생성의 일반적인 '복사 및 붙여넣기' 문제를 해결하고 보다 자연스럽고 제어 가능한 다인용 이미지 생성을 실현합니다. 이 모델은 대규모 데이터 세트 MultiID-2M을 기반으로 합니다 ...
7개월 전
092.9K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - 대화형 학습을 시각화하는 오픈 소스 AI 교육 보조 도구

ChatTutor는 오픈 소스 AI 교구로, STEM 과목의 시각적 대화형 학습에 중점을 두고 있습니다. 대화 Q&A 및 동적 그리기 기능을 달성하는 다중 지능형 바디 아키텍처를 통해 화이트보드에 수학 그래픽, 물리 회로 또는 마인드맵을 실시간으로 그릴 수 있어 사용자가 추상적인 일반 개념을 직관적으로 이해할 수 있도록 도와줍니다.
7개월 전
032.9K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

에버메모스 - 팀 샨다의 오픈 소스 장기 메모리 운영 체제

에버메모스는 첸 티엔차오가 이끄는 샨다 팀이 출시한 오픈 소스 장기 기억 운영체제로, 대규모 언어 모델의 고정된 컨텍스트 창으로 인한 메모리 단절 문제를 해결하기 위해 인공지능을 위해 설계되었습니다. 이 시스템은 인간의 뇌 기억 메커니즘을 기반으로 4계층 아키텍처(에이전트 계층, 메모리 계층, 인덱스 계층, ...
7개월 전
043.9K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - 텐센트 혼합 메타 및 칭화 오픈소스 풀스택 멀티모달 대형 모델 프로젝트

Bee는 데이터 품질을 개선하여 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 좁히기 위해 텐센트 혼합 요소 팀과 칭화대학교가 공동으로 출시한 풀스택 오픈 소스 멀티모달 빅 모델 솔루션입니다. 이 프로젝트에는 세 가지 핵심 성과가 포함되어 있습니다. 1,500만 개 규모의 고품질 2계층 CoT 데이터 세트 Honey-Data...
7개월 전
034.7K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - 바이트 오픈 소스 통합 시공간 자동 회귀 비디오 생성 프레임워크

InfinityStar는 고해상도 이미지 및 동영상 생성을 위해 설계된 ByteDance에서 오픈소스화한 통합 시공간 자동 회귀 프레임워크입니다. 개별 자동 회귀 접근 방식을 사용하여 단일 모델에서 텍스트 대 이미지, 텍스트 대 비디오 및 이미지 대 비디오 작업을 동시에 처리할 수 있습니다. 이 프레임워크는 VBench에서 벤치마킹되었습니다 ...
7개월 전
036.9K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - 미시간 대학교와 협력하여 뮌헨 대학교에서 오픈소스화한 탈중앙화 머신 러닝 플랫폼

코이나는 프로테오믹스 데이터 분석을 간소화하는 데 중점을 둔 오픈 소스 분산형 머신 러닝 플랫폼입니다. 독일 뮌헨 공과대학교와 미국 미시간 대학교의 연구팀이 개발했습니다. 이 플랫폼은 표준화된 인터페이스를 통해 30개 이상의 주류 모델(예: ProSIT, MS²PIP)을 통합하고 펩타이드 질량...
7개월 전
037.2K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델인 VibeThinker-1.5B

바이브씽커-1.5B는 웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델입니다. 알리바바의 Qwen2.5-Math-1.5B를 기반으로 미세 조정된 이 모델은 수학 및 코딩 작업에 최적화되어 있으며 업계 최고의 추론 성능으로 뛰어난 성능을 발휘합니다.
7개월 전
039.3K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - 다양한 고품질 기술 콘텐츠를 제공하는 오픈 소스 AI 콘텐츠 집계 플랫폼

베스트블로그는 기술 실무자, 기업가, 제품 관리자 등을 위한 고품질 콘텐츠를 제공하는 데 중점을 둔 플랫폼입니다. RSS 피드와 크롤러 기술을 통해 400개가 넘는 고품질 블로그에서 기사, 팟캐스트, 동영상 및 기타 다양한 형식의 콘텐츠를 수집합니다. 핵심 강점은 AI 빅 랭귀지 활용에 있습니다...
7개월 전
034.3K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM을 기반으로 구축된 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼입니다.

LazyCraft는 오픈 소스 프레임워크 LazyLLM을 기반으로 상탕이 구축한 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼으로, 기업과 개발자를 위한 원스톱 AI 애플리케이션 개발 솔루션을 제공합니다. 개발자가 낮은 임계값과 저렴한 비용으로 대규모 모델 애플리케이션을 신속하게 빌드하고 출시할 수 있도록 지원합니다.
7개월 전
042.6K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - 상탕 테크놀로지의 오픈 소스 공간 인텔리전스 대규모 모델 제품군

센스노바-SI는 샹테크에서 출시한 오픈 소스 공간 지능 그랜드 모델로, 공간 이해와 추론에 있어 AI의 능력을 향상시키는 데 중점을 두고 있습니다. 이 모델은 공간 측정, 재구성, 관계 판단, 원근 변환, 변형 분석, 공간 추론 등 6가지 핵심 차원에서 탁월한 성능을 발휘하며 다른 모델보다 월등히 뛰어납니다.
8개월 전
033.2K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - 애플리케이션을 시각적으로 구축할 수 있는 무료 오픈 소스 AI 노코드 개발 플랫폼입니다.

노코베이스는 AI 기반 오픈 소스 노코드 개발 플랫폼을 기반으로 비즈니스 시스템의 신속한 구축을 지원하며, 애플리케이션 개발 구성을 통해 프로그래밍을 완료 할 수 없습니다. 이 프로젝트는 Apache-2.0 프로토콜을 사용하고 기업 관리, 협업 플랫폼 및 기타 분야에 적합한 개인 배포 및 유연한 확장 성을 제공합니다 ...
8개월 전
037.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

래빗쇼 인텔리전스와 북경대학교가 출시한 차세대 이미지 편집 모델, UniWorld V2

유니월드 V2는 래빗잔 인텔리전스와 북경대학교의 유니월드 팀이 공동으로 출시한 차세대 이미지 편집 모델입니다. 이미지 편집 분야, 특히 복잡한 명령의 중국어 이해와 실행에 있어 상당한 이점을 가지고 있습니다. 이 모델은 예술적인 중국어 글꼴을 정확하게 렌더링하고 미세한 글꼴을 지원할 수 있습니다.
8개월 전
037.4K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

Step-Audio-EditX는 스텝스타 팀이 개발한 오픈 소스 오디오 편집 매크로 모델로, 인공 지능 기술을 통한 오디오 콘텐츠의 세밀한 조작에 중점을 두고 있습니다. 이 모델은 오디오 분위기, 말하기 스타일(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨...)를 동적으로 조정할 수 있습니다.
8개월 전
040K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 비디오 - 북경대학교에서 오픈소스화한 비디오 추론 모델 유나이티드바이트

Open-o3 Video는 북경대학교와 바이트댄스가 공동 개발한 오픈 소스 비디오 추론 모델로, 시간적 및 공간적 증거를 통해 비디오 추론을 향상시키는 데 중점을 두고 있습니다. 타임스탬프와 바운딩 박스로 주요 증거에 명시적으로 레이블을 지정하여 모델이 비디오 콘텐츠를 더 잘 이해하고 해석할 수 있도록 도와줍니다.
8개월 전
035.2K
朴素贝叶斯(Naive Bayes)是什么,一文看懂

나이브 베이스란 무엇인가요?

나이브 베이즈 알고리즘은 베이즈 정리에 기반한 지도 학습 알고리즘입니다. "나이브 베이즈는 베이즈 정리를 기반으로 하며 특징들이 조건부로 서로 독립적이라고 가정합니다. 가정을 단순화하면 계산 복잡성이 크게 줄어들고 실제 애플리케이션에서 알고리즘을 효율적으로 사용할 수 있습니다.
8개월 전
042.7K
K均值聚类(K-Means Clustering)是什么,一文看懂

K-평균 클러스터링(K-평균 클러스터링)이란 무엇인가요?

K-평균 클러스터링(K-평균 클러스터링)은 고전적인 비지도 머신 러닝 알고리즘입니다. 주로 데이터 집합을 K개의 분리된 클러스터로 나누는 데 사용됩니다. 이 알고리즘의 목표는 각 데이터 포인트가 가장 가까운 클러스터 중심에 해당하는 클러스터에 속하도록 N개의 데이터 포인트를 K개의 클러스터에 할당하는 것입니다.
8개월 전
035.7K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...
8개월 전
040.3K
前馈神经网络(Feedforward Neural Network)是什么,一文看懂

피드포워드 신경망(FNN)이란 무엇인가요?

피드포워드 신경망(FNN)은 가장 기본적이고 널리 사용되는 인공 신경망 모델입니다. 핵심 기능은 네트워크의 연결이 루프나 피드백 경로를 형성하지 않으며 입력 계층에서 출력 계층으로 정보가 엄격하게 단방향으로 흐른다는 것입니다.
8개월 전
039.7K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

키미 리니어 - 달의 어두운 면에 오픈소스화된 새로운 하이브리드 선형 주의 아키텍처

키미 리니어는 다크 사이드 오브 더 문에서 오픈소스화한 새로운 하이브리드 선형 주의 아키텍처로, 키미 델타 어텐션(KDA)을 핵심으로 하며, 세밀한 게이팅 메커니즘을 통해 기존 주의 모델을 최적화하여 하드웨어 효율성과 메모리 제어 능력을 크게 향상시킵니다....
8개월 전
047.9K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
8개월 전
048.5K
OmniVinci - NVIDIA开源的全模态大语言模型

옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델

옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.
8개월 전
041.4K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - 여러 에이전트가 함께 작업하는 오픈 소스 다중 인텔리전스 금융 플랫폼

밸류셀은 AI 기술을 통해 재무 분석 및 투자 관리의 효율성을 향상시키는 오픈 소스 다중 지능체 금융 애플리케이션 플랫폼입니다. 전문 투자 팀을 시뮬레이션하여 여러 AI 지능이 함께 작동하여 시장 분석, 정서 분석, 기초 연구, 자동 거래 및 기타 기능을 포함하여 사용자에게 포괄적 인 기능을 제공합니다.
8개월 전
067.9K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

덱스보틱 - 포스 스피릿 머신 오픈 소스 VLA 모델의 구현형 인텔리전스 원스톱 연구 서비스 플랫폼

덱스보틱은 체화지능 분야의 파편화와 낮은 연구 효율성 문제를 해결하는 덱스말의 오픈소스 시각-언어-행동(VLA) 모델의 체화지능 원스톱 연구 서비스 플랫폼입니다. 덱스보틱은 파이토치를 기반으로 구현 지능 분야의 파편화와 낮은 효율성 문제를 해결하기 위한 원스톱 연구 서비스 플랫폼입니다...
8개월 전
036.6K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - 미션의 LongCat 오픈 소스 비디오 생성 모델

롱캣-비디오는 MIT 오픈 소스 프로토콜을 사용하는 롱캣 팀의 13억 6천만 개 매개변수 비디오 생성 모델 오픈 소스로, 텍스트 생성 비디오, 그래프 생성 비디오 및 비디오 연속의 세 가지 주요 작업을 지원합니다. "거친에서 미세한"생성 전략과 블록 희소주의 메커니즘을 통한 모델은 몇 분 안에있을 수 있습니다 ...
8개월 전
060.8K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.
8개월 전
045K
交叉验证(Cross-Validation)是什么,一文看懂

교차 유효성 검사(교차 검증)란 무엇인가요?

교차 검증은 머신 러닝에서 모델의 일반화 능력을 평가하는 핵심 방법으로, 기본 아이디어는 원본 데이터를 학습 세트와 테스트 세트로 나누고 서로 다른 데이터 하위 집합으로 학습과 검증을 순환하여 보다 신뢰할 수 있는 성능 추정치를 얻는 것입니다. 이 접근 방식은 ...
8개월 전
039.8K
随机森林(Random Forest)是什么,一文看懂

랜덤 포레스트(랜덤 포레스트)란 무엇인가요?

랜덤 포레스트는 여러 개의 의사 결정 트리를 구성하고 그 예측을 결합하여 머신 러닝 작업을 수행하는 통합 학습 알고리즘입니다. 이 알고리즘은 각 트리에 대한 풋백을 사용하여 원본 데이터 세트에서 여러 개의 샘플 하위 집합을 무작위로 추출하는 부트스트랩 집계 아이디어를 기반으로 합니다.
8개월 전
037K
损失函数(Loss Function)是什么,一文看懂

손실 함수(손실 함수)란 무엇인가요?

손실 함수(LF)는 머신러닝의 핵심 개념으로, 모델의 예측 오차를 정량화하는 중요한 작업을 수행합니다. 이 함수는 모델의 예측 값과 실제 값 사이의 차이 정도를 수학적으로 측정하여 모델 최적화를 위한 명확한 방향 가이드를 제공합니다.
8개월 전
038.1K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시

월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...
8개월 전
042.3K
VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....
8개월 전
041.8K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - 상하이 AI Lab과 북경대학교 오픈 소스 문서 구문 분석 모델

MinerU2.5는 상하이 인공지능 연구소와 북경대학교 팀이 공동으로 개발한 분리형 시각 언어 모델로, 고해상도 문서 이미지 구문을 효율적으로 처리하는 데 중점을 두고 있습니다. 핵심 혁신은 "글로벌 레이아웃 감지 후 로컬 콘텐츠 인식"의 2단계 설계에 있습니다. 첫 번째 단계는 저해상도...
8개월 전
054.8K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - 바이두 오픈 소스 초경량 시각 언어 모델

PaddleOCR-VL은 문서 구문 분석 시나리오에 최적화된 바이두의 오픈 소스 초경량 시각 언어 모델입니다. 이 모델은 동적 고해상도 시각 코더와 경량 ERNIE 언어 모델의 융합을 통해 0.9억 개의 파라미터만 포함하며, 높은 정확도를 유지하고 계산 오버헤드를 크게 줄입니다.
8개월 전
057.8K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.

유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.
8개월 전
045.1K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크

DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...
8개월 전
045.9K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - ByteHop의 오픈 소스 멀티모달 시각 언어 모델

SAIL-VL2는 이미지와 텍스트와 같은 멀티모달 입력의 공동 모델링에 중점을 둔 Byte Jump 팀의 오픈 소스 멀티모달 시각 언어 모델입니다. 전문가(MoE) 아키텍처와 점진적 훈련 전략의 희소 혼합을 사용하여 2B~8B의 매개변수 규모, 특히 그래픽 이해, 수학적 이해에서 높은 성능을 달성합니다.
8개월 전
034.6K
决策树(Decision Tree)是什么,一文看懂

의사 결정 트리(의사 결정 트리)란 무엇인가요?

의사 결정 트리(DT)는 일련의 규칙을 통해 데이터를 분류하거나 예측하는 인간의 의사 결정 과정을 시뮬레이션하는 나무 모양의 예측 모델입니다. 각 내부 노드는 기능 테스트를 나타내고, 가지는 테스트 결과에 해당하며, 리프 노드는 최종 결정을 저장합니다. 이 알고리즘은 분할 및 정복 전략을 사용합니다...
8개월 전
038.8K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - 바이트 오픈 소스 액티브 컨텍스트 인식 AI 파트너

MineContext는 사용자가 방대한 양의 정보를 효율적으로 관리하고 지식 업무의 효율성을 개선할 수 있도록 돕기 위해 ByteDance Viking 팀이 오픈소스로 제공하는 적극적인 상황 인식 AI 파트너입니다. 스크린샷 및 콘텐츠 이해 기술을 통해 사용자의 일상적인 작업(예: 웹 검색, 문서 편집 등)을 자동으로 기록하고, 지원...
8개월 전
057.7K
逻辑回归(Logistic Regression)是什么,一文看懂

로지스틱 회귀(로지스틱 회귀)란 무엇인가, 읽고 이해해야 할 문서

로지스틱 회귀는 이진 분류 문제를 해결하는 데 사용되는 통계적 학습 방법입니다. 핵심 목표는 입력된 특징을 바탕으로 샘플이 특정 범주에 속할 확률을 예측하는 것입니다. 이 모델은 S자형 함수를 사용하여 고유값을 선형적으로 결합하여 선형 출력을 0과 1 사이로 매핑합니다....
8개월 전
036.3K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....
8개월 전
043.3K
吴恩达的《Agentic AI》最新智能体免费课程

에른스트 우의 에이전틱 AI의 최신 인텔리전스에 대한 무료 강좌

에이전틱 AI는 어니스트 응이 출시한 지능형 바디에 관한 최신 강좌로, 반영, 도구 사용, 계획 및 다중 지능형 바디 협업의 네 가지 설계 패턴을 다루는 지능형 바디의 설계 및 구축에 중점을 둡니다. 학습자는 이론적 설명과 코드 실습을 통해 지능형 바디가 출력을 확인하고 자율적으로 조정하는 방법을 익히게 됩니다....
9개월 전
065.3K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AI 에이전트 네트워크 구축을 위한 오픈소스 무료 오픈 협업 프로젝트

오픈에이전트는 AI 에이전트 네트워크를 생성하고 에이전트 간의 개방형 협업을 촉진하는 오픈 소스 프로젝트입니다. AI 에이전트가 원활하게 연결하고 협업할 수 있도록 기본 네트워크 인프라가 제공됩니다. 사용자는 자체 에이전트 네트워크를 빠르게 시작하고, 모듈식 아키텍처를 통해 기능을 확장하고, 지원...
9개월 전
039.1K
正则化(Regularization)是什么,一文看懂

정규화(정규화)란 무엇인가, 보고 이해해야 할 기사

정규화는 모델 과적합을 방지하기 위한 머신러닝 및 통계의 핵심 기술입니다. 정규화는 모델의 복잡성과 관련된 목적 함수에 페널티 항을 추가하여 적합도를 제어합니다. 일반적인 형태에는 L1 및 L2 정규화가 포함됩니다. L1은 희소 솔루션을 생성하고 적용합니다.
9개월 전
040K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - 수조 개의 파라미터를 위한 Ant Group의 오픈 소스 범용 언어 모델

Ling-1T는 Ant Group에서 오픈소스화한 1조 개 매개변수 범용 언어 모델로, 베링의 대형 모델인 Ling 2.0 시리즈의 플래그십 제품에 속합니다. 이 모델은 고효율 MoE 아키텍처를 채택하고 128K 컨텍스트 윈도우를 지원하며 코드 생성, 수학적 추론, 논리 테스트 등 7가지 벤치마크에서 GPT를 능가합니다.
9개월 전
066.8K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant 오픈 소스 통합 오디오 멀티모달 생성 모델

밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.
9개월 전
044.8K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - 완벽한 창작 과정을 위한 무료 AI 만화 제작 도구!

AIMangaStudio는 창작자에게 줄거리 생성, 서브 장면 디자인, 캐릭터 설정 및 기타 기능을 포함한 완벽한 만화 제작 파이프라인을 제공하는 무료 AI 만화 제작 도구로, 스크립트에서 만화 페이지까지 제작 프로세스를 간소화할 수 있습니다. 줄거리, 대사를 포함한 만화 대본의 자연어 생성을 지원합니다.
9개월 전
054.6K
Logics-Parsing - 阿里开源的文档解析模型

논리 구문 분석 - Ali 오픈 소스 문서 구문 분석 모델

논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...
9개월 전
051.2K