일반 소개 TRELLIS는 Microsoft에서 개발한 대규모 3D 에셋 생성 모델입니다. 텍스트 또는 이미지 프롬프트를 수신하고 방사형 필드, 3D 가우시안 및 메시와 같은 다양한 형식의 고품질 3D 에셋을 생성할 수 있으며, TRELLIS의 핵심은 통합된 구조화된 잠복...
포괄적인 소개 Dynamiq은 에이전트 AI 및 LLM(대규모 언어 모델링) 애플리케이션을 위해 설계된 오픈 소스 AI 오케스트레이션 프레임워크입니다. 특히 검색 증강 생성(RAG) 및 LLM 에이전트의 오케스트레이션 영역에서 AI 기반 애플리케이션 개발을 간소화하는 것을 목표로 합니다.Dynamiq은 다음과 같이 제안합니다.
종합 소개 OpenSPG는 SPG(Semantic Augmented Programmable Graph) 프레임워크에 기반하여 Ant Group이 OpenKG와 협력하여 개발한 오픈 소스 지식 그래프 엔진입니다. 이 엔진은 도메인 지식 그래프의 구축 및 관리를 지원하기 위해 명시적 의미 표현, 논리적 규칙 정의 및 운영 프레임워크와 같은 기능을 제공하도록 설계되었습니다....
일반 소개 컴피유 포트레이트 마스터 중국어 버전은 AI 이미지 제작자를 위해 설계된 포트레이트 단서 단어 생성 도구입니다. 이 도구는 사용자가 큐 단어를 최적화하여 고품질의 인물 사진을 생성할 수 있도록 도와줍니다. 사용자는 수요에 따라 다른 렌즈를 선택할 수 있습니다 ...
일반 소개 LibreChat은 다양한 사용자 지정 옵션과 여러 AI 제공업체, 서비스 및 통합을 지원하는 무료 오픈 소스 AI 채팅 플랫폼입니다. 친숙한 인터페이스와 혁신적인 기능으로 모든 AI 대화를 한곳에 모아 여러 AI 모델, 플러그인 및 여러 언어를 지원합니다. 작성자...
종합 소개 Open Deep Research는 모든 주제에 대한 종합적인 연구 보고서를 생성할 수 있는 웹 기반 연구 도우미입니다. 이 시스템은 사용자가 시간이 많이 걸리는 연구 단계로 넘어가기 전에 보고서 구조를 계획하고 검토할 수 있는 계획 및 실행 워크플로우를 사용합니다....
종합 소개 RAGFlow는 심층 문서 이해 기술을 기반으로 하는 오픈 소스 검색 증강 생성(RAG) 엔진입니다. 모든 규모의 비즈니스에 효율적인 RAG 워크플로우를 제공하며, 실제 데이터를 기반으로 복잡한 형식의 데이터를 제공할 수 있는 대규모 언어 모델(LLM)을 통합합니다.
일반 소개 Infinity는 FoundationVision 팀에서 개발한 획기적인 고해상도 이미지 생성 프레임워크입니다. 이 프로젝트는 혁신적인 비트 레벨의 시각적 자동 회귀 모델링 접근 방식을 통해 기존 이미지 생성 모델의 한계를 극복합니다.Infinity의 핵심 기능은 다음과 같습니다.
일반 소개 NextChat은 사용자가 GPT-3, GPT-4, GPT-4.5 및 Gemini Pro와 같은 동급 최고의 언어 모델을 사용하여 채팅 서비스를 배포할 수 있는 혁신적인 AI 채팅 서비스입니다. 우아한 사용자 인터페이스, 공동 작업 기능, 통합, 템플릿 및 ...
포괄적 인 소개 NGCBot은 개발자 ngc660sec (Yunshan / eXM)이 만들고 GitHub에서 호스팅하는 WeChat 로봇 오픈 소스 프로젝트 개발을 기반으로 한 HOOK 메커니즘입니다. 2 년간의 반복 끝에 현재 버전 인 V2.3은 초기 단순 기능에서 기능을 향상 시켰습니다 ...
종합 소개 Tencent Hunyuan3D(Hunyuan3D 2.0)는 고해상도 텍스처 3D 에셋을 생성하도록 설계된 Tencent의 고급 대규모 3D 합성 시스템입니다. 이 시스템은 대규모 형상 생성 모델인 훈위안3D-DiT와 대규모 텍스처 생성 모델인 훈위안3D-DiT의 두 가지 핵심 구성 요소로 이루어져 있습니다.
종합 소개 텐센트 혼합 위안화 텍스트 생성 동영상(위안바오 앱에서 사용 가능)은 텐센트에서 출시한 AI 기술을 기반으로 한 동영상 생성 플랫폼입니다. 이 플랫폼은 강력한 교차 도메인 지식과 자연어 이해력을 갖춘 텐센트 혼합 위안화 빅 모델을 활용하여 사용자의 텍스트 설명을 기반으로 고품질 동영상을 생성합니다....
개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.
일반 설명 InstantIR은 손상된 이미지를 매우 높은 품질과 생생한 디테일로 복원할 수 있도록 설계된 InstantX 팀에서 개발한 혁신적인 단일 이미지 복원 모델로, 손상된 이미지를 고품질로 복원할 수 있습니다. 이 도구는 이미지의 세부 사항을 복원할 뿐만 아니라 ...
종합 소개 IC-Light는 고급 AI 모델을 통해 이미지의 조명 효과를 조작하는 것을 목표로 하는 이미지 조명 제어 프로젝트입니다. Lvmin Zhang 등이 개발한 이 프로젝트는 텍스트 조건부 재조명 모델과 배경 조건부 모델이라는 두 가지 주요 모델을 제공합니다. 사용자는 통과할 수 있습니다...
일반 소개 InvSR은 저해상도 이미지를 고품질 고해상도 이미지로 변환할 수 있는 확산 반전 기법을 기반으로 하는 혁신적인 오픈 소스 이미지 초고해상도 프로젝트입니다. 이 프로젝트는 사전 훈련된 대규모 확산 모델에 포함된 풍부한 이미지 사전 지식을 활용하며, 유연한 샘플링 메커니즘을 통해 다음을 지원합니다.
일반 소개 Midscene.js는 자연어 명령을 통해 웹 페이지를 제어하고, 어설션을 수행하고, 데이터를 추출하는 AI 기반 브라우저 자동화 도구입니다. 이 도구는 Chrome 확장 프로그램, JavaScript SDK 및 YAML 스크립트를 지원하여 UI 측정을 간소화합니다.
일반 소개 Void는 vscode 저장소의 브랜치를 기반으로 하는 오픈 소스 커서 대안입니다. 개발자에게 보다 효율적인 코딩 경험을 제공하도록 설계된 강력한 개발 환경을 제공하며, 커뮤니티 기여와 빠른 반복을 통해 기능과 안정성을 지속적으로 개선하는 것이 Void의 목표입니다....
종합 소개 Maxun은 오픈 소스 노코드 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 이를 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고, 웹사이트 레이아웃 변경에 적응하며, 강력한 데이터 크롤링 기능을 제공합니다.
일반 소개 LuminaBrush는 인공 지능 기술로 구동되는 조명 효과를 위한 혁신적인 대화형 이미지 편집 도구입니다. 이 프로젝트는 2단계 프레임워크를 사용하여 이미지를 처리합니다. 첫 번째 단계에서는 입력 이미지를 "균일한 조명" 모양으로 변환하고 두 번째 단계에서는...
개요 ALog는 사용자가 음성으로 일상을 기록할 수 있도록 설계된 AI 기반 음성 일기장 애플리케이션입니다. duxins가 개발했으며 GitHub에서 오픈소스입니다. 사용자는 음성 입력을 통해 일기 항목을 녹음할 수 있으며, 앱은 음성을 자동으로 텍스트로 변환합니다....
종합 소개 Qwen-Agent는 명령 팔로잉, 도구 사용, 계획 및 메모리 등의 기능을 갖춘 Qwen 2.0 이상을 기반으로 개발된 지능형 에이전트 애플리케이션 프레임워크입니다. 이 프레임워크는 브라우저 어시스턴트, 코드 인터프리터 및 사용자 지정 어시스턴트와 같은 다양한 샘플 애플리케이션을 제공합니다....
일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.
일반 소개 STORM은 스탠포드 대학교의 Oval 팀에서 개발한 지식 통합 및 문서 생성 시스템입니다. 이 시스템은 처음부터 위키백과와 같은 철저한 문서(체계적 논문)를 생성하는 데 중점을 둡니다. 이 시스템은 주제 조사, 시놉시스 준비 및 실제 상호 연결된 시뮬레이션을 위해 대규모 언어 모델을 사용합니다.
개요 BuffGPT는 대규모 언어 모델(LLM) 기반의 오픈 소스 AI 애플리케이션 개발 플랫폼으로, 데이터 처리, 모델 호출, RAG 검색, 시각적 워크플로 오케스트레이션 등의 기본 기능을 제공하여 사용자가 제너레이티브 AI 애플리케이션을 쉽게 구축하고 운영할 수 있도록 지원합니다. 이 플랫폼은 프라이빗을 지원합니다.
종합 소개 Midjourney Proxy는 AI 그리기 기능을 API 형태로 변환하기 위해 Midjourney의 Discord 채널에 프록시 서비스를 제공하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 완전 무료 오픈 소스이며, 원클릭 얼굴 교체, 이미지 블렌딩, 그래프 생성 등을 지원합니다.
일반 소개 딥 라이브 캠은 한 장의 사진으로 실시간 얼굴 교체 및 딥 페이크 비디오 생성을 가능하게 하는 오픈 소스 인공 지능 도구입니다. 이 도구는 고급 딥러닝 알고리즘을 사용하여 라이브 스트리밍 또는 영상 통화 중에 실시간으로 얼굴을 교체하여 사용자의 개인 정보를 보호하고 재미를 더할 수 있습니다.
종합 소개 ChatGPT-on-WeChat 프로젝트는 대형 모델 기반의 지능형 대화 로봇으로, 개인 WeChat, WeChat 공개 번호, 기업 WeChat 애플리케이션, 플라이북, 네일 등에 대한 다중 플랫폼 액세스를 지원합니다. 사용자는 GPT3.5, GPT-4, Claude, Man ...
포괄적인 소개 민감한 단어 필터링 도구(민감한 단어)는 DFA 알고리즘 프레임워크 구현을 기반으로 하는 고성능 Java 민감한 단어 필터링 도구입니다. 이 도구는 민감한 단어를 효율적으로 감지하고 필터링할 수 있으며 다양한 형식 변환 및 사용자 지정 대체 전략을 지원합니다. 설계 목표는 제공하는 것입니다 ...
종합적인 소개 모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 모든 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows에서는 ...
일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...
일반 소개 RMBG-2-Studio는 BRIA-RMBG-2.0 모델을 기반으로 개발된 향상된 배경 제거 및 교체 애플리케이션입니다. 이 애플리케이션은 사용자에게 전자상거래, 게임 등 다양한 이미지 유형에 대한 효율적이고 정확한 이미지 배경 처리 기능을 제공하도록 설계되었습니다.
포괄적인 소개 AppAgent는 스마트폰 애플리케이션을 조작하도록 설계된 LLM(대규모 언어 모델) 기반 멀티모달 에이전트 프레임워크입니다. 이 프레임워크는 단순화된 조작 공간을 통해 탭 및 스와이프와 같은 인간의 상호 작용을 모방하여 시스템 백엔드 액세스가 필요하지 않으므로 다양한 앱으로 범위를 확장할 수 있습니다.
종합 소개 MoneyPrinterPlus는 AI 기술을 통해 한 번의 클릭으로 모든 종류의 짧은 동영상을 생성 및 믹싱하여 Jieyin, Shutterbugs, Xiaohongshu, Video Number 등 여러 동영상 플랫폼에 자동으로 게시하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 도구는 채팅을 포함한 로컬 및 클라우드 기반 음성 모델을 지원합니다.
포괄적 인 소개 이것은 Novel이라고 불리는 Steven Tey가 개발 한 오픈 소스 프로젝트로, 사용자가 텍스트 입력의 효율성을 향상시키는 데 도움이되는 통합 AI 자동 완성 기능인 Notion 스타일 WYSIWYG 텍스트 편집기입니다. 이 프로젝트는 자세한 문서 및 설치 지침을 제공합니다 ...
종합 소개 MaxKB(Max Knowledge Base)는 대규모 언어 모델과 RAG(검색 증강 생성)를 기반으로 하는 오픈 소스 지식 기반 Q&A 시스템입니다. 이 시스템은 지능형 고객 서비스, 기업 내부 지식 기반, 학술 연구 및 교육 및 기타 시나리오에서 널리 사용됩니다.MaxKB...
일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
일반 소개 DragGAN은 생성적 적대 신경망(GAN)을 기반으로 하는 대화형 이미지 편집 도구입니다. 시그라프 2023에서 Xingang Pan 등이 발표한 이 도구는 간단한 포인트 앤 클릭과 드래그 앤 드롭 조작을 통해 사용자가 직관적으로 조작할 수 있도록 하는 것을 목표로 합니다.