AI 오픈 소스 프로젝트

총 1020개 문서
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R: 멀티모달 콘텐츠 구문 분석 및 지식 그래프와 하이브리드 검색의 결합을 위한 고급 AI 검색(RAG) 시스템

종합 소개 R2R(RAG to Riches)은 프로덕션에 바로 사용할 수 있는 기능을 갖춘 검색 증강 생성(RAG) 기능을 지원하는 고급 AI 검색 시스템입니다. 컨테이너화된 RESTful API를 기반으로 구축된 이 시스템은 멀티모달 콘텐츠 구문 분석, 하이브리드 검색 기능 등을 제공합니다.
10개월 전
025.3K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: 간소화된 검색 강화 생성 프레임워크, 엔티티 그래프 인덱스 관련 텍스트 블록 리콜

포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...
9개월 전
025.3K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: 멀티모달 입력 및 실시간 음성 상호작용을 위한 최종 측정 모델

종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...
7개월 전
025.3K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star: 이미지 및 동영상 생성 품질을 개선하는 오픈 소스 도구

종합 소개 CFG-Zero-star는 웨이첸 팬과 난양공과대학교의 S-Lab 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 안내 전략과 제로 이니셜을 최적화하여 스트림 매칭 모델에서 분류기 무료 안내(CFG) 기술을 개선하는 데 중점을 둡니다.
7개월 전
025.3K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

일반 소개 Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 이 프로젝트는 Lumina에서 개발했습니다...
10개월 전
025.3K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

레이캐스트-G4F: 레이캐스트를 통해 GPT-4, 라마-3 및 기타 여러 AI 모델에 무료로 액세스하세요!

일반 소개 레이캐스트-G4F(GPT4Free)는 사용자가 GPT-4, 라마-3을 포함한 다양한 고급 AI 모델에 무료로 액세스할 수 있는 강력한 레이캐스트 확장 프로그램입니다. 이 확장 프로그램은 실시간 대화 스트리밍을 제공할 뿐만 아니라...
9개월 전
025.3K
Prompt Optimizer:优化主流AI模型提示词的开源工具

프롬프트 옵티마이저: 주요 AI 모델에 프롬프트 단어를 최적화하는 오픈 소스 도구

일반 소개 프롬프트 옵티마이저는 프롬프트 단어 최적화에 중점을 둔 오픈 소스 도구로, linshenkx가 GitHub에서 개발했습니다. 사용자가 지능형 알고리즘을 통해 AI 모델의 프롬프트 단어를 최적화하여 생성된 콘텐츠의 품질을 개선할 수 있도록 도와줍니다....
8개월 전
025.3K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: 정지 이미지와 동영상에서 역동적인 인물 사진을 생성하는 애니메이션 도구

일반 소개 라이브포트트레이트는 레이서 테크놀로지에서 개발한 고급 AI 동적 인물 애니메이션 툴입니다. 혁신적인 AI 기술을 활용하여 정지 이미지를 생생한 비디오 애니메이션으로 변환합니다. 실제 사진, 애니메이션 스타일 또는 예술적 초상화를 사용하든 LivePo...
11개월 전
025.2K
Moffee:将Markdown转为PPT幻灯片

Moffee: 마크다운을 PPT 슬라이드쇼로 변환하기

일반 소개 Moffee는 마크다운 파일을 빠르고 간단하고 효율적으로 전문 슬라이드쇼로 변환하는 오픈 소스 도구입니다. 사용자는 마크다운 콘텐츠를 작성하기만 하면 Moffee가 레이아웃, 페이지 매김 및 스타일을 자동으로 처리하므로 수동으로 조판할 필요가 없습니다.
7개월 전
025.2K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

제네시스: 실제 물리 기반의 4D 동적 월드 시뮬레이션을 위한 오픈 소스 제너레이티브 물리 엔진

일반 소개 Genesis는 범용 로봇 공학 및 구현형 AI 학습을 위해 설계된 제너레이티브 물리 세계입니다. 다양한 재료와 물리 현상의 시뮬레이션을 지원하는 통합 시뮬레이션 플랫폼을 제공하며, 제네시스는 제너레이티브 AI와 물리 시뮬레이션을 결합하여...
10개월 전
025.2K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT: 워크플로 자동화 및 자율적 작업 실행을 위한 지능형 바디 구축 플랫폼

일반 설명 AutoGPT는 사용자가 지속적으로 실행되는 AI 에이전트를 생성, 배포, 관리하고 복잡한 워크플로를 자동화할 수 있도록 설계된 강력한 플랫폼입니다. 시그니피컨트 그라비타스에서 개발한 이 플랫폼은 사용자가 집중할 수 있는 다양한 도구와 기능을 제공합니다.
10개월 전
025.2K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme: 로컬 고 충실도 표현 액션 일관된 이미지 또는 비디오 생성, 런웨이 액트 원 오픈 소스 탁구!

포괄적 인 소개 HelloMeme은 HelloVision에서 개발 한 오픈 소스 프로젝트로, 공간 뜨개질주의를 통합하여 확산 모델에 고수준 및 고 충실도 스트립을 포함하는 것을 목표로합니다 ...
10개월 전
025.2K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V: 다국어 입력 및 긴 비디오 생성을 지원하는 Vincennes 비디오 모델

종합 소개 Step-Video-T2V는 StepFun AI(StepFun Star)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 고도로 압축된 가변 자동 인코더(VAE)를 통해 이 모델은 ...
8개월 전
025.2K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

포괄적인 소개 NodeRAG는 GitHub에서 호스팅되고 Terry-Xu-666이 개발한 오픈 소스 검색 증강 생성(RAG) 시스템입니다. 이기종 그래프 구조를 통해 정보 검색 및 생성을 최적화하여 검색 정확도와 문맥 관련성을 크게 개선합니다.고개 끄덕임...
6개월 전
025.2K
ANP:实现智能代理间安全高效通信的开源协议

ANP: 지능형 에이전트 간의 안전하고 효율적인 통신을 위한 오픈 소스 프로토콜

일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
7개월 전
025.2K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.

일반 소개 MegaParse는 대규모 언어 모델(LLM)의 데이터 처리를 최적화하도록 설계된 강력하고 다재다능한 문서 구문 분석 도구입니다. 텍스트, PDF, PowerPoint 프레젠테이션, Word 문서 등 어떤 작업을 하든 MegaParse...
10개월 전
025.2K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 음성 대화 기본 모델을 위한 여러 언어와 악센트를 지원하는 실시간 음성 대화 프레임워크

일반 소개 모시 챗은 프랑스의 비영리 AI 연구소인 큐타이의 엔드투엔드 실시간 AI 음성 비서입니다. 실시간으로 들을 뿐만 아니라 자연스러운 대화에 참여하고 보고, 듣고, 말하는 기능을 포함한 다중 모드 상호 작용을 지원합니다.모시 챗 ...
1 년 전
025.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: 멀티모달 입력으로 캐릭터 일관성 있는 이미지를 생성하는 통합 이미지 생성 모델

일반 소개 OmniGen은 벡터스페이스랩에서 개발한 "범용" 이미지 생성 모델로, 간단한 텍스트 프롬프트 또는 멀티모달 입력으로 다양하고 맥락이 풍부한 비주얼을 생성할 수 있습니다. 특히 인식이 필요한 애플리케이션에 적합합니다...
11개월 전
025.2K
AnkiAIUtils: 메모리 카드를 자동으로 최적화하는 지능형 어시스턴트인 Anki 플래시카드 학습 AI 툴셋

AnkiAIUtils: 메모리 카드를 자동으로 최적화하는 지능형 어시스턴트인 Anki 플래시카드 학습 AI 툴셋

일반 설명 AnkiAIUtils는 Anki 플래시카드 학습 시스템을 위해 설계된 AI 강화 도구 세트입니다. 의대생이 개발한 이 도구는 AI 기술을 통해 사용자가 학습 과정에서 어려움을 겪고 있는 카드를 자동으로 개선하도록 설계되었습니다. 이 도구는 사용자에게 지능적으로 개인화된 ...
10개월 전
025.2K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: 동영상에서 임의의 움직이는 객체를 자동으로 분할하는 오픈 소스 도구

일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
7개월 전
025.1K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: 로컬에서 LLM을 실행하고 미세 조정하는 가장 빠른 방법!

일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.
9개월 전
025.1K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: Tencent ARC에서 출시한 이미지 복원 및 편집을 위한 올인원 도구

종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
10개월 전
025.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow(Laminar): 작업을 간소화하고 유연하게 관리하는 빌딩 인텔리전스를 위한 경량 작업 엔진입니다.

포괄적인 소개 Flow는 단순성과 유연성에 중점을 두고 AI 에이전트 구축을 위해 설계된 경량 작업 엔진입니다. 기존의 노드 및 에지 기반 워크플로우와 달리 Flow는 병렬 실행, 동적 스케줄링 및 지능형 종속성 관리를 지원하는 동적 작업 대기열 시스템을 사용합니다. 핵심 개념은 ...
10개월 전
025.1K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: 음성-텍스트 변환을 지원하는 휴대용 AI 음성 일기장 앱입니다.

개요 ALog는 사용자가 음성으로 일상을 기록할 수 있도록 설계된 AI 기반 음성 일기장 애플리케이션입니다. duxins가 개발했으며 GitHub에서 오픈소스입니다. 사용자는 음성 입력을 통해 일기 항목을 녹음할 수 있으며, 앱은 음성을 자동으로 텍스트로 변환합니다....
9개월 전
025.1K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

에이전틱 보안: 포괄적인 퍼즈 테스트 및 공격 기법을 제공하는 오픈 소스 LLM 취약점 스캔 도구

일반 소개 에이전트 보안은 개발자와 보안 전문가에게 포괄적인 퍼즈 테스트 및 공격 기술을 제공하도록 설계된 오픈 소스 LLM(대규모 언어 모델) 취약점 스캔 도구입니다. 이 도구는 사용자 지정 규칙 세트 또는 에이전트 기반 공격을 지원하며 LLM AP를 통합할 수 있습니다.
8개월 전
025.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

레파: 고충실도 모델 가상 트라이얼 및 캐릭터 포즈 조정, 메타 오픈 소스 제어 캐릭터 이미지 생성 모델

개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.
10개월 전
025.1K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

음성 복제: 원클릭 설치 프로그램을 갖춘 Windows용 xtts_v2 기반의 다국어 샘플 없는 음성 복제 툴입니다.

일반 설명 Clone Voice는 오픈 소스 사운드 복제 도구로, 사용자가 모든 사운드 또는 개인 음성 녹음을 사용하여 음성을 복제할 수 있는 웹 기반 인터페이스를 제공합니다. 이 도구는 NVIDIA GPU가 없어도 쉽게 사용할 수 있으며, 사전 컴파일된 앱과 함께 사용할 수 있습니다.
1 년 전
025.1K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: DeepSeek를 사용하여 4학년 단어 학습 자료를 생성하는 오픈 소스 도구입니다.

종합 소개 "Vocabulary Book by DeepSeek"은 영어 학습자가 대학 영어 레벨 4(CET-4)의 어휘를 효율적으로 마스터할 수 있도록 돕기 위해 DeepSeek의 빅 모델을 기반으로 개발된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅됩니다...
8개월 전
025K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: 프런트엔드 디자인을 위한 오픈 소스 커서, React 애플리케이션에서 코드를 디자인하고 게시하세요.

일반 소개 Onlook은 디자이너와 개발자를 위해 만들어진 오픈 소스 디자인 도구로, 사용자가 실행 중인 React 애플리케이션에서 직접 디자인하고 디자인 변경 사항을 코드로 변환할 수 있습니다. 이 도구는 Figma나 Webf...와 유사한 직관적인 시각적 편집 환경을 제공합니다.
9개월 전
025K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: 대화형 이미지 편집 도구, 포인트 앤 클릭 및 드래그 앤 드롭으로 이미지 위치를 제어할 수 있습니다.

일반 소개 DragGAN은 생성적 적대 신경망(GAN)을 기반으로 하는 대화형 이미지 편집 도구입니다. 시그라프 2023에서 Xingang Pan 등이 발표한 이 도구는 간단한 포인트 앤 클릭과 드래그 앤 드롭 조작을 통해 사용자가 직관적으로 조작할 수 있도록 하는 것을 목표로 합니다.
10개월 전
025K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: 멀티 소셜 미디어 플랫폼 콘텐츠, 동영상 댓글 크롤러 도구

일반 소개 미디어크롤러는 개발자를 위해 설계된 소셜 미디어 콘텐츠 크롤러 도구입니다. 강력한 크롤러 기능을 제공하여 샤오홍슈, 셰이크, 셔터, B, 웨이보 등과 같은 소셜 플랫폼에서 동영상, 이미지, 댓글, 좋아요, 리트윗 및 기타 데이터를 빠르게 수집할 수 있습니다.
1 년 전
025K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: 무음 동영상에 생생한 동기화 사운드 추가하기

일반 소개 FoleyCrafter는 무음 동영상에 생생하고 동기화된 음향 효과를 생성하기 위해 OpenMMLab에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 인공 지능 기술을 사용하여 비디오 콘텐츠를 분석하여 의미적으로 관련성이 높고 시간에 동기화된 음향 효과를 생성합니다....
10개월 전
024.9K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: 멀티모달 매크로 모델을 사용한 흉부 방사선 사진 분석용 지능형 바디

포괄적인 소개 MedRAX는 흉부 엑스레이(CXR) 분석을 위해 설계된 최첨단 AI 인텔리전스입니다. 최첨단 CXR 분석 도구와 멀티모달 대규모 언어 모델을 통합하여 추가 교육 없이 복잡한 의료 쿼리를 동적으로 처리하며, 모듈식 설계를 통해 MedRAX는 ...
7개월 전
024.9K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

페이 디지털 휴먼 프레임워크: 언어 모델과 3D 디지털 캐릭터를 통합하여 다양한 애플리케이션 시나리오 지원

종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...
9개월 전
024.9K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

일반 소개 포토두들은 쇼랩에서 개발한 오픈 소스 이미지 편집 도구로, 인공지능 기술을 통한 사진의 예술적 편집에 중점을 두고 있습니다. 사용자는 간단한 텍스트 입력만으로 만화 스타일, 3D 효과, 빛을 실제 사진에 추가할 수 있습니다...
7개월 전
024.9K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: 명령을 이해하고 하위 작업으로 분할하여 코드를 작성하는 오픈 소스 AI 소프트웨어 엔지니어 인텔리전스

일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....
7개월 전
024.9K
混元文生视频:生成写实镜头感的高质量视频,腾讯开源视频生成大模型

하이브리드 빈센느 비디오: 고품질 비디오의 사실적인 영상 생성, 대형 모델의 텐센트 오픈 소스 비디오 생성

종합 소개 텐센트 혼합 위안화 텍스트 생성 동영상(위안바오 앱에서 사용 가능)은 텐센트에서 출시한 AI 기술을 기반으로 한 동영상 생성 플랫폼입니다. 이 플랫폼은 강력한 교차 도메인 지식과 자연어 이해력을 갖춘 텐센트 혼합 위안화 빅 모델을 활용하여 사용자의 텍스트 설명을 기반으로 고품질 동영상을 생성합니다....
9개월 전
024.9K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

로컬 장치에서 여러 문서와 통신하여 데이터 프라이버시 보장: 로컬 장치에서 여러 문서와 통신하여 데이터 프라이버시 보장

일반 소개 LocalGPT는 사용자가 로컬 장치에서 문서와 대화할 수 있도록 설계된 오픈 소스 프로젝트로, 데이터 프라이버시를 보장합니다. 다양한 오픈 소스 모델을 사용하여 LocalGPT는 클라우드에 데이터를 업로드하지 않고도 문서 콘텐츠를 처리하고 이해할 수 있습니다. 이 프로젝트는 다양한 ...
10개월 전
024.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 효율적인 수학적 추론과 코드 생성을 위한 소규모 오픈 소스 모델

일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
5개월 전
024.9K
Deep Recall:为大模型提供企业级记忆框架的开源工具

딥 리콜: 대규모 모델을 위한 엔터프라이즈급 메모리 프레임워크를 제공하는 오픈 소스 도구

포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
5개월 전
024.8K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft: 단편 스토리, 대화 스크립트, 보이스오버, 그래픽을 생성하는 다목적 AI 콘텐츠 제작 툴입니다.

일반 설명 AI ContentCraft는 텍스트 생성, 음성 합성, 이미지 생성 등을 통합하는 다목적 콘텐츠 제작 도구입니다. 크리에이터가 스토리, 팟캐스트 스크립트, 함께 제공되는 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있도록 도와줍니다. 이 도구는 여러 언어 변환을 지원하며 일괄적으로 ...
9개월 전
024.8K
Data Formulator:AI驱动的数据可视化工具

데이터 포뮬레이터: AI 기반 데이터 시각화 도구

일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.
8개월 전
024.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: 오프라인에서 실행되는 OLMoE 모델 기반의 오픈 소스 iOS AI 앱

일반 소개 Ai2 OLMoE는 앨런 인공지능 연구소(Ai2, Allen Institute for AI)에서 기기에서만 실행되는 인공지능 모델을 제공하기 위해 개발한 오픈 소스 iOS 앱입니다. 이 앱은 Ai2의 오픈 소스 OLMoE를 활용합니다.
8개월 전
024.8K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

코그에이전트: 그래픽 인터페이스 자동화를 위한 스마트 스펙트럼의 오픈 소스 지능형 시각 언어 모델

종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
10개월 전
024.8K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 오디오 기반 인물 사진으로 말하는 동영상 생성(EchoMimicV2 가속 설치 프로그램)

일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
9개월 전
024.8K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3 및 PlayHT TTS를 기반으로 하는 NotebookLM의 오픈 소스 구현

일반 소개 오픈 소스 노트북LM은 딥시크-V3의 언어 이해 기능과 PlayHT의 음성 합성 기술을 결합한 혁신적인 인공지능 프로젝트로, 지능형 노트 필기 대화 시스템을 만드는 것을 목표로 합니다. 이 프로젝트는 Build Fast w에서 개발했습니다.
9개월 전
024.8K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: 머신 러닝 논문을 실행 가능한 코드로 자동 변환하기

일반 소개 Paper2Code는 머신러닝 논문에 대한 코드 구현 부족 문제를 해결하기 위한 오픈 소스 프로젝트입니다. 이 프로젝트는 다중 에이전트 LLM(대규모 언어 모델링) 시스템인 PaperCoder를 통해 과학 논문을 실행 가능한 코드 리포지토리로 자동 변환합니다. 이 시스템은 계획을 사용합니다 ...
5개월 전
024.8K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: 오픈 소스 제로 샘플 음성 복제 및 텍스트 음성 변환 도구

개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.
1 년 전
024.8K
Gemini Teacher:英语口语发音纠正助手

쌍둥이자리 선생님: 영어 말하기 발음 교정 도우미

일반 소개 제미니 선생님은 구글 제미니 AI를 기반으로 한 영어 말하기 연습 도우미입니다. 사용자의 영어 발음을 실시간으로 인식하고 즉각적인 피드백과 교정 제안을 제공합니다. 이 도구는 사용자가 다음을 통해 영어 말하기 능력을 향상시킬 수 있도록 설계되었습니다.
8개월 전
024.7K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: 클릭 한 번으로 로컬 LLM 개발 환경을 배포하고 AI 서비스를 쉽게 관리 및 실행할 수 있는 컨테이너화된 도구 세트입니다.

개요 Harbor는 로컬 AI 개발 환경의 배포와 관리를 간소화하는 데 중점을 둔 혁신적인 컨테이너형 LLM 도구 세트입니다. 깔끔한 명령줄 인터페이스(CLI)와 컴패니언 애플리케이션을 통해 개발자는 클릭 한 번으로 LLM 백엔드, API 인터페이스, 프런트엔드 등을 시작하고 관리할 수 있습니다.
9개월 전
024.7K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 언어 명령으로 애니메이션 동영상 및 캐릭터 상호작용을 생성하는 오픈 소스 도구

AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.
6개월 전
024.7K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText: 다국어 이미지 텍스트를 생성하고 편집할 수 있으며, 이미지에 여러 줄의 중국어를 생성하도록 고도로 제어할 수 있습니다.

종합 소개 AnyText는 확산 모델을 기반으로 개발된 혁신적인 다국어 시각 텍스트 생성 및 편집 도구입니다. 이미지에서 자연스러운 고품질 다국어 텍스트를 생성하고 유연한 텍스트 편집 기능을 지원합니다. 연구팀이 개발하여 ICLR 2024에서 발표했습니다...
10개월 전
024.7K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2B 개방형 컴퓨터 사용: E2B 샌드박스에서 안전하게 AI 운영 체제 실행하기

일반 소개 E2B 개방형 컴퓨터 사용은 E2B 데스크톱 샌드박스를 통해 안전한 클라우드 기반 리눅스 컴퓨터 사용 경험을 제공하는 것을 목표로 하는 오픈 소스 프로젝트로, E2B 샌드박스는 사용자가 모든 대형 컴퓨터에 연결할 수 있는 데스크톱 그래픽 환경을 제공합니다.
9개월 전
024.7K
AgenticSeek:完全本地运行的任务自动化AI助手

에이전틱시크릿: 완전히 로컬에서 실행되는 작업 자동화를 위한 AI 어시스턴트

일반 소개 에이전틱시크는 완전히 로컬에서 실행되는 오픈 소스 AI 어시스턴트로, 딥시크 R1 모델을 기반으로 합니다. 클라우드 API가 필요하지 않으며 수백 달러의 월 사용료가 발생하지 않습니다. 영화 속 '자비스'와 유사한 지능형 비서를 목표로 합니다...
7개월 전
024.7K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: AI를 통해 마우스 동작을 셀레늄 파이썬 스크립트로 변환하는 브라우저 자동화 코드 생성

일반 소개 AutoMouser는 사용자 상호작용을 지능적으로 추적하고 OpenAI의 GPT 모델을 사용하여 셀레늄 테스트 코드를 자동으로 생성하는 Chrome 확장 프로그램입니다. 사용자 브라우저 동작을 기록하고 이를 변환하여 이를 수행합니다.
9개월 전
024.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: 고해상도 이미지의 빠른 생성, 0.6B 초소형 모델, 로우 프로파일 노트북 GPU 작동

일반 소개 Sana는 NVIDIA 연구소에서 개발한 효율적인 고해상도 이미지 생성 프레임워크로, 최대 4096 × 4096 해상도의 이미지를 단 몇 초 만에 생성할 수 있으며, 선형 확산 트랜스포머와 딥 압축 셀프 인코더 기술을 사용하여 이미지를 크게...
11개월 전
024.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 복잡한 사회 현상을 연구하기 위해 수백만 사용자의 소셜 미디어 상호 작용을 다중 지능으로 시뮬레이션합니다.

일반 소개 OASIS(오픈 에이전트 소셜 상호작용 시뮬레이션)는 최대 100만 명의 사용자의 행동을 시뮬레이션할 수 있는 오픈 소스 소셜 미디어 시뮬레이터입니다. 이 플랫폼은 대규모 언어 모델과 규칙 기반...
7개월 전
024.6K
NextChat:兼容多平台的本地化AI聊天助手

NextChat: 여러 플랫폼과 호환되는 현지화된 AI 채팅 도우미

일반 소개 NextChat은 사용자가 GPT-3, GPT-4, GPT-4.5 및 Gemini Pro와 같은 동급 최고의 언어 모델을 사용하여 채팅 서비스를 배포할 수 있는 혁신적인 AI 채팅 서비스입니다. 우아한 사용자 인터페이스, 공동 작업 기능, 통합, 템플릿 및 ...
8개월 전
024.6K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: AI 기반 오픈소스 검색 엔진으로 스마트 Q&A, 동영상 검색, UI 코드 생성 기능을 제공합니다.

일반 소개 모픽은 지능형 Q&A와 효율적인 검색 환경을 제공하기 위해 설계된 생성형 사용자 인터페이스를 갖춘 AI 기술 기반의 검색 엔진입니다. 사용자는 모픽으로 텍스트, 동영상 등 다양한 검색을 수행할 수 있으며, 검색 기록을 저장하고 검색 결과를 공유할 수 있습니다.모픽은...
11개월 전
024.6K
LangGraph Supervisor:利用监督智能体来管理多智能体协作的工具

LangGraph Supervisor: 감독 지능을 사용하여 다중 지능 협업을 관리하기 위한 도구

일반 소개 LangGraph Supervisor는 다중 지능형 바디 시스템을 생성하고 관리하기 위해 설계된 LangGraph 프레임워크에 기반한 Python 라이브러리입니다. 이 라이브러리는 중앙 감독 에이전트를 통해 여러 전문 에이전트의 작업을 조정하여 통신 흐름과 작업을 분담합니다.
8개월 전
024.6K
STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告

STORM: 토픽을 기반으로 웹 데이터를 검색하고, 인용이 포함된 논문, 긴 논문 보고서를 생성하세요.

일반 소개 STORM은 스탠포드 대학교의 Oval 팀에서 개발한 지식 통합 및 문서 생성 시스템입니다. 이 시스템은 처음부터 위키백과와 같은 철저한 문서(체계적 논문)를 생성하는 데 중점을 둡니다. 이 시스템은 주제 조사, 시놉시스 준비 및 실제 상호 연결된 시뮬레이션을 위해 대규모 언어 모델을 사용합니다.
7개월 전
024.6K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR: 비디오 얼굴 복구, 흑백, 흐릿한 인물 오래된 비디오 복구를 구현하기 위한 통합 프레임워크

종합 소개 SVFR(안정적인 비디오 얼굴 복원)은 비디오 얼굴 복원을 위한 통합 프레임워크로, 기본 얼굴 복원(BFR), 컬러링, 복구 및 이들의 조합 작업을 지원합니다. 이 프레임워크는 제너레이티브 및 키네마틱 프리오어를 통합하여 활용합니다.
9개월 전
024.6K
RAG Web UI:构建智能文档问答系统,简单构建私有Web端知识库

RAG 웹 UI: 지능형 문서 Q&A 시스템 구축 및 비공개 웹 사이드 지식창고 간편하게 구축하기

종합 소개 RAG 웹 UI는 RAG(검색 증강 생성) 기술을 기반으로 한 지능형 대화 시스템입니다. 기업과 개인이 자체 지식 베이스를 기반으로 지능형 Q&A 시스템을 구축할 수 있도록 도와줍니다. 문서 검색과 대규모 언어 모델을 결합하여 정확하고 신뢰할 수 있는 ...
9개월 전
024.5K
OAK:可视化构建智能体应用的开源项目

OAK: 지능형 신체 애플리케이션을 시각적으로 구축하기 위한 오픈 소스 프로젝트

일반 소개 OAK(오픈 에이전트 키트)는 개발자가 AI 인텔리전스를 신속하게 구축, 사용자 지정 및 배포할 수 있도록 도와주는 오픈 소스 도구입니다. OpenAI, Google 또는 Anthropic과 같은 모든 대규모 언어 모델(LLM)을 연결할 수 있습니다.
7개월 전
024.5K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: 오픈소스 지능형 회의 녹음 및 요약 도구로 OpenAI Whisper에 의존합니다.

일반 소개 미팅마인드는 비즈니스 회의를 캡처하고 요약하는 효율성을 향상시키기 위해 설계된 고급 AI 애플리케이션입니다. 이 앱은 정확한 음성-텍스트 변환을 위해 OpenAI의 Whisper 기술을 통합하고 IBM Watso...
1 년 전
024.5K
ACE++:用文本指令精准对图像局部编辑的多功能开源工具

ACE++: 텍스트 명령으로 이미지를 로컬에서 정밀하게 편집할 수 있는 다목적 오픈 소스 도구

종합 소개 ACE++는 알리바바 통이 연구소(통이 연구소)의 ali-vilab 팀이 개발한 오픈 소스 프로젝트입니다. FLUX.1-Fill-dev 모델을 기반으로 하며 간단한 텍스트 명령을 통해 이미지 생성 및 컴파일을 달성하는 것을 목표로 합니다.
7개월 전
024.5K