일반 소개 TubeTube는 MattBlackOnly가 개발한 오픈 소스 YouTube 동영상 다운로드 도구입니다. 이 도구는 yt-dlp를 핵심 다운로드 엔진으로 사용하고 멀티 스레드 다운로드를 지원하며 동시에 여러 동영상을 빠르게 다운로드할 수 있습니다. 사용자는 ...
종합 소개 LangWatch는 대규모 언어 모델(LLM) 작업을 위해 설계된 종합 플랫폼으로, 모니터링, 분석, 평가, 데이터 세트 관리 및 큐 최적화를 제공합니다. 이 플랫폼은 스탠포드 대학의 DSPy 프레임워크를 기반으로 하며 사용자가 더 나은 관리와 최적화를 할 수 있도록 설계되었습니다.
일반 소개 PR-Agent는 AI 기술을 통해 풀 리퀘스트(Pull Request) 처리를 자동화하기 위해 Qodo에서 개발한 오픈 소스 도구입니다. 이 도구는 개발자가 코드 리뷰를 보다 효율적으로 수행할 수 있도록 자동화된 피드백, 제안 및 분석을 제공할 수 있습니다....
일반 소개 코딩 에이전트는 개발자의 프로그래밍 효율성 향상을 돕기 위해 AbhinavTheDev에서 개발한 지능형 프로그래밍 어시스턴트입니다. 이 도구는 인공 지능 기술을 사용하여 자동으로 코드를 생성하고, 프로그래밍 제안을 제공하며, 개발자에게 다양한 코딩을 지원합니다.
종합 소개 Ragas는 검색 증강 생성(RAG) 시스템을 평가하고 최적화하기 위해 특별히 고안된 도구입니다. 쿼리, 검색 컨텍스트, 생성된 답변 간의 관계를 분석하여 종합적인 평가 메트릭 세트를 제공합니다. 이러한 메트릭에는 충실도, 답변 관련성, 문맥 관련성 등이 포함됩니다.
종합 소개 VeighNa는 파이썬 기반의 오픈 소스 퀀트 트레이딩 플랫폼으로, 국내 개인 트레이더가 개발하여 2015년에 공식 출시했습니다. 단순한 트레이딩 인터페이스 패키지에서 완전한 기능을 갖춘 트레이딩 개발 프레임워크로 발전했습니다. 사용자로는 사모펀드, 증권사, ...
일반 소개 SkyPilot은 캘리포니아 버클리 대학교의 Sky Computing Lab에서 시작한 오픈 소스 프레임워크로, 사용자가 모든 클라우드 인프라에서 AI 및 일괄 처리 작업을 효율적으로 실행할 수 있도록 설계되었습니다. 14개 이상의 클라우드 서비스를 지원합니다(다음을 포함하여 ...
일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.
일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...
일반 소개 페이지 어시스트는 사용자가 로컬 AI 모델과 쉽게 상호작용할 수 있도록 설계된 오픈 소스 브라우저 확장 프로그램입니다. 이 확장 프로그램을 사용하면 모든 웹 페이지에서 사이드바를 열어 로컬에서 실행 중인 AI 모델과 상호 작용할 수 있습니다.Page Assi...
일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.
일반 소개 CHRONOS는 Alibaba NLP 팀에서 개발한 뉴스 타임라인 요약 도구입니다. 이 도구는 반복적 인 자체 질문을 통해 뉴스 이벤트의 타임 라인 요약을 생성합니다.CHRONOS는 오픈 도메인 타임 라인 요약 작업을 처리 할 수있을뿐만 아니라 효율성과 확장 성 측면에서도 ...
일반 소개 X-Dyna는 제로 샘플 확산 기법을 사용하여 역동적인 인물 애니메이션을 생성하기 위해 ByteDance에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 드라이브 비디오의 얼굴 표정과 신체 움직임을 사용하여 개별 인물 이미지에 애니메이션을 적용하여 사실적이고 상황에 맞는 모션 효과를 생성합니다.X-D...
종합 소개 Tencent Hunyuan3D(Hunyuan3D 2.0)는 고해상도 텍스처 3D 에셋을 생성하도록 설계된 Tencent의 고급 대규모 3D 합성 시스템입니다. 이 시스템은 대규모 형상 생성 모델인 훈위안3D-DiT와 대규모 텍스처 생성 모델인 훈위안3D-DiT의 두 가지 핵심 구성 요소로 이루어져 있습니다.
일반 소개 UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호 작용을 할 수 있습니다.UI-TAR...
일반 설명 AI ContentCraft는 텍스트 생성, 음성 합성, 이미지 생성 등을 통합하는 다목적 콘텐츠 제작 도구입니다. 크리에이터가 스토리, 팟캐스트 스크립트, 함께 제공되는 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있도록 도와줍니다. 이 도구는 여러 언어 변환을 지원하며 일괄적으로 ...
일반 소개 Midscene.js는 자연어 명령을 통해 웹 페이지를 제어하고, 어설션을 수행하고, 데이터를 추출하는 AI 기반 브라우저 자동화 도구입니다. 이 도구는 Chrome 확장 프로그램, JavaScript SDK 및 YAML 스크립트를 지원하여 UI 측정을 간소화합니다.
종합 소개 MaxKB(Max Knowledge Base)는 대규모 언어 모델과 RAG(검색 증강 생성)를 기반으로 하는 오픈 소스 지식 기반 Q&A 시스템입니다. 이 시스템은 지능형 고객 서비스, 기업 내부 지식 기반, 학술 연구 및 교육 및 기타 시나리오에서 널리 사용됩니다.MaxKB...
포괄적인 소개 OmniThink는 인간의 인지 과정의 반복적인 확장과 반영을 모방하여 고품질의 긴 형식의 에세이를 생성하도록 설계된 혁신적인 기계 글쓰기 프레임워크입니다. 이 프레임워크는 지식의 경계를 확장하고 풍부하고 깊이 있는 정보를 생성하는 데 중점을 두며, 이를 위해 다음과 같이 구성됩니다.
일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.
일반 설명 SynthLight는 확산 모델에 기반한 인물 사진 재조명 도구입니다. 합성 얼굴 이미지를 다시 렌더링하여 실제 인물 사진에 조명 효과를 조정하는 방법을 학습합니다. 이 도구는 물리적 렌더링 엔진을 사용하여 다양한 조명 조건에서 조명 변환을 시뮬레이션하는 데이터 세트를 생성합니다....
일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...
포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...
종합 소개 Omni-RGPT는 이미지와 동영상에 대한 영역 수준의 이해를 가능하게 하도록 설계된 멀티모달 대규모 언어 모델입니다. 토큰 마크 기술을 도입함으로써 Omni-RGPT는 시각적 특징 공간에서 영역 단서(예: 상자 또는...)로 대상 영역을 강조 표시할 수 있습니다.
개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.
일반 소개 위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 처리하는 경향이 있습니다.
일반 소개 OpenAI Edge TTS는 OpenAI와 호환되는 네이티브 TTS(텍스트 음성 변환) API를 제공하는 오픈 소스 프로젝트로, 이 프로젝트는 Microsoft Edge의 온라인 텍스트 음성 변환 서비스를 사용하여 사용자가 고품질의 음성 변환을 생성할 수 있도록 합니다.
일반 소개 AIEvo는 멀티 에이전트 애플리케이션을 효율적으로 생성하기 위해 설계된 Ant Group의 오픈 소스 멀티 에이전트 프레임워크입니다. 이 프레임워크는 복잡한 작업의 실행 성공률을 높이기 위해 SOP 작업 그래프를 엄격하게 따르며, 피드백 및 모니터링 메커니즘을 통해 높은 유연성과 확장성을 보장합니다.AIEvo는 Ant Group 내에서 제작되었습니다...
일반 소개 PPTAgent는 문서에서 프레젠테이션을 자동으로 생성하도록 설계된 혁신적인 시스템입니다. 이 시스템은 콘텐츠 품질과 시각적 효과를 보장하기 위해 2단계 프로세스를 사용하여 프레젠테이션을 제작하는 인간의 접근 방식을 따릅니다. 또한 PPTAgent는 포괄적인 PPTEval을 소개합니다.
일반 소개 FlowiseAI는 개발자가 맞춤형 LLM(대규모 언어 모델) 애플리케이션과 AI 에이전트를 구축할 수 있도록 설계된 오픈 소스 로우코드 툴입니다. 간단한 드래그 앤 드롭 인터페이스를 통해 사용자는 LLM 애플리케이션을 빠르게 생성하고 반복할 수 있어 테스트부터 생산에 이르는 프로세스를 더욱 효율적으로 진행할 수 있습니다.
개요 BotSharp는 포괄적인 AI 챗봇 플랫폼 구축 도구를 제공하기 위한 .NET Core 기반의 오픈 소스 프로젝트입니다. C# 프로그래밍을 사용하고 크로스 플랫폼 운영을 지원하며 머신러닝 알고리즘의 적용을 단순화하여 엔터프라이즈급 개발자가 효율적으로 사용할 수 있도록 하는 것을 목표로 합니다.
종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
일반 소개 Memora는 개인화된 각 AI를 위해 인간의 기억을 복제하도록 설계된 에이전트입니다. 타임스탬프 기억, 감정 마커, 다중 모드 기억과 같은 기능을 통해 AI가 인간처럼 과거의 상호 작용, 감정, 공유 경험의 세부 사항을 기억할 수 있도록 도와주며, 메모라는 멀티 테넌시를 지원하며 다음과 같은 작업을 처리할 수 있습니다.
일반 소개 마이크로 에이전트는 Builder.io에서 개발한 오픈 소스 AI 코딩 도우미로, 개발자에게 코드를 자동으로 생성하고 테스트할 수 있는 기능을 제공하도록 설계되었습니다. 자연어 설명을 이해하여 테스트 케이스를 생성하고 모든 테스트가 통과할 때까지 코드를 반복하여 오픈 ...
일반 소개 에이전트 인박스는 AI 지능과 상호 작용할 수 있는 새로운 사용자 경험을 제공하기 위해 LangChain 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 중앙 집중식 인터페이스를 통해 여러 AI 인텔리전스와의 상호 작용을 관리하고 최적화할 수 있습니다.
종합 소개 Search-o1은 고급 검색 메커니즘을 통합하여 대규모 추론 모델(LRM)의 성능을 향상시키는 것을 목표로 하는 오픈 소스 프로젝트입니다. 핵심 아이디어는 동적 검색과 지식 통합을 통해 추론 과정에서 발생하는 지식 결핍 문제를 해결하는 것입니다. 이 프로젝트는 sunn이 후원합니다...
일반 소개 Gemini Next Chat은 사용자가 비공개 Gemini 애플리케이션을 쉽게 배포할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Gemini 1.5 및 Gemini 2.0 멀티모달 모델을 지원하며, 사용자는 클릭 한 번으로 배포할 수 있습니다.
포괄적인 소개 Vanna는 RAG(검색 증강 생성) 기술을 통해 SQL 쿼리를 생성하는 데 중점을 둔 MIT 라이선스 오픈 소스 Python 프레임워크입니다. 사용자는 RAG 모델을 학습하고 자신의 데이터에 적용한 다음 질문을 하면 Vanna가 적절한 답변을 반환합니다.
포괄적 인 소개 라이브토킹은 오픈 소스 실시간 대화 형 디지털 휴먼 시스템으로 고품질 디지털 휴먼 라이브 솔루션을 구축하기 위해 최선을 다하고 있습니다. 이 프로젝트는 아파치 2.0 오픈 소스 프로토콜을 사용하며, ER-NeRF 렌더링, 실시간 오디오 및 비디오 스트리밍 처리 등 다양한 최첨단 기술과 통합되어 있습니다 ...
일반 소개 Aider는 개발자가 자연어 대화를 통해 코드를 작성, 편집 및 리팩터링할 수 있도록 도와주는 강력한 오픈 소스 AI 프로그래밍 보조 도구입니다. 대화형 AI 쌍 프로그래밍 도구인 Aider는 여러 주요 프로그래밍 언어를 지원하며 Git에 원활하게 통합할 수 있습니다.
종합 소개 JoyGen은 말하는 얼굴을 위한 혁신적인 2단계 비디오 생성 프레임워크로, 오디오 기반 표정 생성 문제를 해결하는 데 중점을 두고 있습니다. 징동 테크놀로지 팀이 개발한 이 프레임워크는 고급 3D 재구성 기술과 오디오 특징 추출 방법을 사용하여 화자의 신원 특성과 표정을 정확하게 포착합니다.
종합 소개 WeChat 비디오 번호 다운로더는 사용자가 WeChat 비디오 번호에서 비디오 콘텐츠를 빠르게 다운로드할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 다양한 동영상 형식과 플랫폼을 지원하며, 사용자는 Windows 및 macOS 시스템에서 쉽게 사용할 수 있습니다. 이 프로젝트는 ltaoo에 의해 개발되었으며 다음에서 호스팅됩니다.
포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
포괄적인 소개 Lecca는 사용자가 여러 도구와 워크플로우를 사용하여 대규모 언어 모델(LLM)을 구성하고 배포할 수 있는 강력한 AI 플랫폼입니다. 사용자는 AI 에이전트를 쉽게 구축, 사용자 지정 및 자동화할 수 있으며, 다양한 AI 제공업체와 모델을 선택할 수 있습니다.