종합 소개 R2R(RAG to Riches)은 프로덕션에 바로 사용할 수 있는 기능을 갖춘 검색 증강 생성(RAG) 기능을 지원하는 고급 AI 검색 시스템입니다. 컨테이너화된 RESTful API를 기반으로 구축된 이 시스템은 멀티모달 콘텐츠 구문 분석, 하이브리드 검색 기능 등을 제공합니다.
포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...
종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...
종합 소개 Step-Video-T2V는 StepFun AI(StepFun Star)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 고도로 압축된 가변 자동 인코더(VAE)를 통해 이 모델은 ...
종합 소개 WeChatAI는 파이썬 기반의 WeChat 그룹 채팅 및 개인 지능형 비서로, 지능형 대화, 자동 응답 및 기타 기능을 수행할 수 있는 다양한 대규모 언어 모델(예: DeepSeek, Gemini, 통이천문)을 지원합니다. 이 프로젝트는 현대를 사용합니다 ...
일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
일반 설명 AnkiAIUtils는 Anki 플래시카드 학습 시스템을 위해 설계된 AI 강화 도구 세트입니다. 의대생이 개발한 이 도구는 AI 기술을 통해 사용자가 학습 과정에서 어려움을 겪고 있는 카드를 자동으로 개선하도록 설계되었습니다. 이 도구는 사용자에게 지능적으로 개인화된 ...
일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.
종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
포괄적인 소개 Flow는 단순성과 유연성에 중점을 두고 AI 에이전트 구축을 위해 설계된 경량 작업 엔진입니다. 기존의 노드 및 에지 기반 워크플로우와 달리 Flow는 병렬 실행, 동적 스케줄링 및 지능형 종속성 관리를 지원하는 동적 작업 대기열 시스템을 사용합니다. 핵심 개념은 ...
개요 ALog는 사용자가 음성으로 일상을 기록할 수 있도록 설계된 AI 기반 음성 일기장 애플리케이션입니다. duxins가 개발했으며 GitHub에서 오픈소스입니다. 사용자는 음성 입력을 통해 일기 항목을 녹음할 수 있으며, 앱은 음성을 자동으로 텍스트로 변환합니다....
일반 소개 에이전트 보안은 개발자와 보안 전문가에게 포괄적인 퍼즈 테스트 및 공격 기술을 제공하도록 설계된 오픈 소스 LLM(대규모 언어 모델) 취약점 스캔 도구입니다. 이 도구는 사용자 지정 규칙 세트 또는 에이전트 기반 공격을 지원하며 LLM AP를 통합할 수 있습니다.
개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.
일반 설명 Clone Voice는 오픈 소스 사운드 복제 도구로, 사용자가 모든 사운드 또는 개인 음성 녹음을 사용하여 음성을 복제할 수 있는 웹 기반 인터페이스를 제공합니다. 이 도구는 NVIDIA GPU가 없어도 쉽게 사용할 수 있으며, 사전 컴파일된 앱과 함께 사용할 수 있습니다.
종합 소개 "Vocabulary Book by DeepSeek"은 영어 학습자가 대학 영어 레벨 4(CET-4)의 어휘를 효율적으로 마스터할 수 있도록 돕기 위해 DeepSeek의 빅 모델을 기반으로 개발된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅됩니다...
일반 소개 Onlook은 디자이너와 개발자를 위해 만들어진 오픈 소스 디자인 도구로, 사용자가 실행 중인 React 애플리케이션에서 직접 디자인하고 디자인 변경 사항을 코드로 변환할 수 있습니다. 이 도구는 Figma나 Webf...와 유사한 직관적인 시각적 편집 환경을 제공합니다.
일반 소개 DragGAN은 생성적 적대 신경망(GAN)을 기반으로 하는 대화형 이미지 편집 도구입니다. 시그라프 2023에서 Xingang Pan 등이 발표한 이 도구는 간단한 포인트 앤 클릭과 드래그 앤 드롭 조작을 통해 사용자가 직관적으로 조작할 수 있도록 하는 것을 목표로 합니다.
일반 소개 FoleyCrafter는 무음 동영상에 생생하고 동기화된 음향 효과를 생성하기 위해 OpenMMLab에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 인공 지능 기술을 사용하여 비디오 콘텐츠를 분석하여 의미적으로 관련성이 높고 시간에 동기화된 음향 효과를 생성합니다....
종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...
일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....
종합 소개 텐센트 혼합 위안화 텍스트 생성 동영상(위안바오 앱에서 사용 가능)은 텐센트에서 출시한 AI 기술을 기반으로 한 동영상 생성 플랫폼입니다. 이 플랫폼은 강력한 교차 도메인 지식과 자연어 이해력을 갖춘 텐센트 혼합 위안화 빅 모델을 활용하여 사용자의 텍스트 설명을 기반으로 고품질 동영상을 생성합니다....
일반 소개 LocalGPT는 사용자가 로컬 장치에서 문서와 대화할 수 있도록 설계된 오픈 소스 프로젝트로, 데이터 프라이버시를 보장합니다. 다양한 오픈 소스 모델을 사용하여 LocalGPT는 클라우드에 데이터를 업로드하지 않고도 문서 콘텐츠를 처리하고 이해할 수 있습니다. 이 프로젝트는 다양한 ...
일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
일반 설명 AI ContentCraft는 텍스트 생성, 음성 합성, 이미지 생성 등을 통합하는 다목적 콘텐츠 제작 도구입니다. 크리에이터가 스토리, 팟캐스트 스크립트, 함께 제공되는 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있도록 도와줍니다. 이 도구는 여러 언어 변환을 지원하며 일괄적으로 ...
일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.
종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
일반 소개 Paper2Code는 머신러닝 논문에 대한 코드 구현 부족 문제를 해결하기 위한 오픈 소스 프로젝트입니다. 이 프로젝트는 다중 에이전트 LLM(대규모 언어 모델링) 시스템인 PaperCoder를 통해 과학 논문을 실행 가능한 코드 리포지토리로 자동 변환합니다. 이 시스템은 계획을 사용합니다 ...
개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.
개요 Harbor는 로컬 AI 개발 환경의 배포와 관리를 간소화하는 데 중점을 둔 혁신적인 컨테이너형 LLM 도구 세트입니다. 깔끔한 명령줄 인터페이스(CLI)와 컴패니언 애플리케이션을 통해 개발자는 클릭 한 번으로 LLM 백엔드, API 인터페이스, 프런트엔드 등을 시작하고 관리할 수 있습니다.
AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.
일반 소개 NextChat은 사용자가 GPT-3, GPT-4, GPT-4.5 및 Gemini Pro와 같은 동급 최고의 언어 모델을 사용하여 채팅 서비스를 배포할 수 있는 혁신적인 AI 채팅 서비스입니다. 우아한 사용자 인터페이스, 공동 작업 기능, 통합, 템플릿 및 ...
일반 소개 모픽은 지능형 Q&A와 효율적인 검색 환경을 제공하기 위해 설계된 생성형 사용자 인터페이스를 갖춘 AI 기술 기반의 검색 엔진입니다. 사용자는 모픽으로 텍스트, 동영상 등 다양한 검색을 수행할 수 있으며, 검색 기록을 저장하고 검색 결과를 공유할 수 있습니다.모픽은...
일반 소개 LangGraph Supervisor는 다중 지능형 바디 시스템을 생성하고 관리하기 위해 설계된 LangGraph 프레임워크에 기반한 Python 라이브러리입니다. 이 라이브러리는 중앙 감독 에이전트를 통해 여러 전문 에이전트의 작업을 조정하여 통신 흐름과 작업을 분담합니다.
일반 소개 STORM은 스탠포드 대학교의 Oval 팀에서 개발한 지식 통합 및 문서 생성 시스템입니다. 이 시스템은 처음부터 위키백과와 같은 철저한 문서(체계적 논문)를 생성하는 데 중점을 둡니다. 이 시스템은 주제 조사, 시놉시스 준비 및 실제 상호 연결된 시뮬레이션을 위해 대규모 언어 모델을 사용합니다.