일반 소개 LocalGPT는 사용자가 로컬 장치에서 문서와 대화할 수 있도록 설계된 오픈 소스 프로젝트로, 데이터 프라이버시를 보장합니다. 다양한 오픈 소스 모델을 사용하여 LocalGPT는 클라우드에 데이터를 업로드하지 않고도 문서 콘텐츠를 처리하고 이해할 수 있습니다. 이 프로젝트는 다양한 ...
종합 소개 Linly-Dubbing은 고급 AI 기술을 통합하여 사용자에게 고품질의 다국어 동영상 더빙 및 자막 번역 서비스를 제공하도록 설계된 지능형 다국어 AI 더빙 및 번역 도구입니다. 이 도구는 특히 국제 교육, 글로벌 콘텐츠 로컬라이제이션 및 기타 시나리오에 적합하며 다음을 지원합니다.
표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).
포괄적 인 소개 위챗 기사 내보내기 도구는 사용자가 위챗 공개 번호 기사를 일괄 내보낼 수 있도록 설계된 오픈 소스 도구입니다. 이 도구는 환경을 구축하지 않고도 기사에 포함 된 오디오 및 비디오를 내보내고, 100%가 기사 스타일을 복원하고, 비공개 부분을 지원할 수 있습니다.
포괄적인 소개 PhiData는 지능형 AI 어시스턴트 개발을 위해 설계된 프레임워크입니다. 향상된 메모리, 지식 통합 및 도구 호출 기능을 통해 AI 어시스턴트가 장기적인 대화에 참여하고, 정확한 비즈니스 컨텍스트를 제공하며, 다양한 작업을 수행할 수 있도록 지원합니다.PhiData는 AI 어시스턴트의 기능을 향상시킬 뿐만 아니라...
일반 소개 Robo Blogger는 음성-텍스트 기술을 통해 콘텐츠 생성 과정을 간소화하도록 설계된 혁신적인 블로그 생성 도구입니다. 사용자는 모든 음성-텍스트 애플리케이션을 통해 아이디어를 녹음할 수 있으며, Robo Blogger는 이러한 아이디어를 구조화된 블로그 콘텐츠로 변환합니다....
종합 소개 Ragas는 검색 증강 생성(RAG) 시스템을 평가하고 최적화하기 위해 특별히 고안된 도구입니다. 쿼리, 검색 컨텍스트, 생성된 답변 간의 관계를 분석하여 종합적인 평가 메트릭 세트를 제공합니다. 이러한 메트릭에는 충실도, 답변 관련성, 문맥 관련성 등이 포함됩니다.
일반 소개 DH_live는 샘플리스 학습을 기반으로 하는 실시간 라이브 디지털 휴먼 프로젝트로, 사용자에게 원활하고 인터랙티브한 라이브 스트리밍 경험을 제공하는 것을 목표로 합니다. 이 프로젝트는 NVIDIA 30 및 40 시리즈 그래픽 카드를 지원하며 25fps 이상에서 실시간으로 실행할 수 있습니다. 사용자는...
일반 소개 VITA는 선도적인 오픈 소스 대화형 대규모 언어 모델링 프로젝트로, 진정한 완전한 멀티모달 상호 작용을 구현하는 기능을 개척하고 있습니다. 이 프로젝트는 2024년 8월에 VITA-1.0을 출시하여 최초의 오픈 소스 대화형 완전 모달 대규모 언어 모델을 개척했습니다.2024...
일반 소개 SP-MangaEditer는 만화 창작자를 위해 설계된 독립적인 만화 편집 플랫폼입니다. 이 플랫폼은 이미지 생성, 레이어 편집, 이미지 조정, 필터 적용 및 기타 여러 기능을 지원하여 사용자가 고품질의 만화 일러스트를 쉽게 만들 수 있도록 도와줍니다. 사용자는 간단하게 조작할 수 있습니다.
종합 소개 "Vocabulary Book by DeepSeek"은 영어 학습자가 대학 영어 레벨 4(CET-4)의 어휘를 효율적으로 마스터할 수 있도록 돕기 위해 DeepSeek의 빅 모델을 기반으로 개발된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅됩니다...
종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...
일반 소개 MCP 서버 ChatSum은 사용자가 채팅 메시지를 쿼리하고 요약할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅되며 사용자가 특정 매개변수를 기반으로 채팅 로그를 쿼리하고 해당 요약을 생성할 수 있는 강력한 도구 세트를 제공합니다....
포괄적인 소개 프런트엔드, 순수 구성 파일 구성 API 채널이 없습니다. 파일을 작성하기 만하면 자체 API 스테이션을 실행할 수 있으며 문서에는 흰색 친화적 인 자세한 구성 가이드가 있습니다. uni-api는 대규모 모델 API 프로젝트의 통합 관리로, 통합 된 ...
일반 소개 Srcbook은 AI 어시스턴트를 사용하여 웹 애플리케이션을 빠르게 만들고 반복할 수 있도록 설계된 TypeScript 중심 애플리케이션 개발 플랫폼입니다. 기본 런타임을 지원하고, 대화형 노트북 인터페이스를 제공하며, 사용자가 백엔드 코드를 작성하고 실행할 수 있습니다.
종합적인 소개 GPT-SoVITS는 오픈 소스 음성 변환 및 합성 도구로, GPT 모델과 SoVITS 보이스 체인저 기술을 결합한 것입니다. 이 도구는 샘플이 전혀 없거나 적은 상태에서 즉석에서 텍스트를 음성으로 변환하고 5초의 오디오 샘플만으로 음성 스타일 마이그레이션을 지원합니다. 그 기능에는 교차 언어가 포함됩니다 ...
일반 소개 프롬프타이마이저는 사용자가 AI 시스템의 단서를 체계적으로 개선할 수 있도록 설계된 실험적인 단서 단어 최적화 라이브러리입니다. 프롬프타이마이저는 최적화 프로세스를 자동화함으로써 특정 작업에서 프롬프트 단어의 성능을 향상시킬 수 있습니다. 사용자는 다음 정보만 제공하면 됩니다.
개요 Director는 지능형 비디오 에이전트를 구축하여 비디오 상호 작용 및 워크플로우를 간소화하고 최적화하도록 설계된 오픈 소스 프레임워크입니다. 이 프레임워크는 VideoDB의 '데이터형 비디오' 인프라를 기반으로 하며 검색, 편집, 컴파일, 생성 등 복잡한 비디오 작업을 처리할 수 있습니다.
일반 소개 SkyReels-V1은 인간 중심의 고품질 동영상 콘텐츠 제작에 초점을 맞춘 SkyworkAI 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 수천만 개의 고품질 영화 및 텔레비전 클립을 통해 수천만 개의 고품질 영화 및 텔레비전 클립을 통해 HunyuanVideo 모델을 기반으로 합니다.
일반 소개 Aider는 개발자가 자연어 대화를 통해 코드를 작성, 편집 및 리팩터링할 수 있도록 도와주는 강력한 오픈 소스 AI 프로그래밍 보조 도구입니다. 대화형 AI 쌍 프로그래밍 도구인 Aider는 여러 주요 프로그래밍 언어를 지원하며 Git에 원활하게 통합할 수 있습니다.
일반 소개 RoomGPT는 사용자가 방 사진을 업로드하고 인공지능 기술을 사용하여 새롭게 디자인된 버전을 생성할 수 있는 GitHub 사용자 Nutlope가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자가 비싼 디자이너 비용 없이 전문가 수준의 인테리어 디자인을 이용할 수 있도록 하는 것을 목표로 합니다....
일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....
일반 소개 Make Sense는 사용자가 컴퓨터 비전 프로젝트를 위한 데이터 세트를 빠르게 준비할 수 있도록 설계된 무료 온라인 이미지 주석 도구입니다. 복잡한 설치 없이 브라우저에 액세스하기만 하면 사용할 수 있고, 여러 운영 체제를 지원하며, 소규모 딥 러닝 프로젝트에 이상적입니다. 사용자는 다음을 수행할 수 있습니다.
종합 소개 Moondream은 딥러닝과 컴퓨터 비전 기술을 통해 이미지 설명 기능을 구현하도록 설계된 오픈 소스 경량 시각 언어 모델입니다. 이 모델은 다양한 플랫폼에서 효율적으로 실행할 수 있으며 특히 엣지 디바이스에 적합합니다.Moondream은 고급 기술을 사용하며...
일반 소개 Fabric은 일상적인 컴퓨터 작업을 단순화 및 자동화하고 인공 지능을 더 쉽게 사용할 수 있도록 Daniel Miessler가 개발한 오픈 소스 AI 프레임워크입니다. 모듈식 설계와 사전 정의된 프롬프트 단어(패턴)를 통해 사용자가 효율적으로 사용할 수 있도록 도와줍니다...
포괄적인 소개 VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하도록 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 효율적으로 처리합니다....
일반 소개 DocsGPT는 프로젝트 문서 쿼리 프로세스를 간소화하도록 설계된 오픈 소스 문서 도우미입니다. 강력한 GPT 모델을 통합하여 개발자는 프로젝트에 대해 쉽게 질문하고 정확한 답변을 얻을 수 있으며, DocsGPT는 로컬 배포를 지원하여 데이터 프라이버시를 보장하는 동시에...
일반 소개 Sonic은 글로벌 오디오 인식에 초점을 맞춘 혁신적인 플랫폼으로, 오디오를 기반으로 생생한 인물 애니메이션을 생성하는 것을 목표로 합니다. 텐센트와 저장대학교의 연구팀이 개발한 이 플랫폼은 오디오 정보를 사용하여 얼굴 표정과 머리 움직임을 제어하여 자연스럽고 부드러운 애니메이션 동영상을 생성합니다....
종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
포괄적인 소개 유인원 입 계산기 리버스 노트는 유인원 입 계산기 애플리케이션을 리버스 엔지니어링하는 과정과 방법을 문서화하고 공유하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트에는 사용자가 작은 유인원 구강 산술 추가를 이해하고 해독하는 데 도움이 되는 지침을 사용하기 위한 다양한 리버스 도구 및 기술(예: Frida, dexdump 등)이 포함되어 있습니다.
종합 소개 SciToolAgent는 항저우 절강대학교 혁신 센터(HICAI-ZJU)에서 개발한 오픈 소스 도구 플랫폼입니다. 지식 그래프(SciToolKG)와 빅 언어 모델링 기술을 통해 500개 이상의 과학 도구를 통합하여 연구자들이 다음과 같은 문제를 처리할 수 있도록 지원합니다.
종합 소개 DeepSeek-R1-FP4는 NVIDIA에서 오픈 소스화 및 최적화한 정량화된 언어 모델로, DeepSeek AI의 DeepSeek-R1을 기반으로 개발되었습니다. DeepSeek AI용 DeepSeek-R1을 기반으로 개발되었으며, TensorRT 모델 옵티컬을 사용하여 개발되었습니다.
일반 소개 HiOllama는 Python과 Gradio를 기반으로 구축된 사용자 친화적인 인터페이스로, 올라마 모델과 상호 작용하도록 설계되었습니다. 실시간 텍스트 생성 및 모델 관리 기능을 지원하는 간단하고 직관적인 웹 인터페이스를 제공합니다. 사용자는 온도와 같은 매개변수를 조정할 수 있으며 대부분의 ...
일반 소개 E2B는 안전한 클라우드 샌드박스에서 AI 생성 코드를 실행하도록 설계된 오픈 소스 플랫폼입니다. 다양한 프로그래밍 언어와 프레임워크를 지원하고 격리된 가상 환경을 제공하여 코드 실행의 보안과 안정성을 보장하며, E2B는 데이터 파티셔닝을 비롯한 다양한 AI 애플리케이션 시나리오에 적합합니다.
일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
종합 소개 CR-Mentor는 전문 지식 베이스와 LLM(대규모 언어 모델링)의 강력한 기능을 결합한 지능형 코드 리뷰 도구입니다. 모든 프로그래밍 언어에 대한 코드 리뷰를 지원할 뿐만 아니라 지식 기반에 축적된 모범 사례를 기반으로 팀을 위한 전용 검토 기준과 집중 영역을 사용자 지정할 수 있습니다. 다음을 통해...
포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
종합 소개 R2R(RAG to Riches)은 프로덕션에 바로 사용할 수 있는 기능을 갖춘 검색 증강 생성(RAG) 기능을 지원하는 고급 AI 검색 시스템입니다. 컨테이너화된 RESTful API를 기반으로 구축된 이 시스템은 멀티모달 콘텐츠 구문 분석, 하이브리드 검색 기능 등을 제공합니다.
Synthesis Muyan-TTS는 팟캐스트 시나리오를 위해 설계된 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 100,000시간 이상의 팟캐스트 오디오 데이터로 사전 학습되었으며 제로 샘플 음성 합성을 지원하여 고품질의 자연스러운 음성을 생성합니다. 이 모델은 Llama-3.2-3...을 기반으로 합니다.
종합 소개 컬러는 잠재적 확산 기법을 기반으로 Racer 팀에서 개발한 대규모 텍스트-이미지 생성 모델입니다. 이 모델은 수십억 개의 텍스트-이미지 데이터 쌍에 대해 학습되었으며 중국어와 영어 입력을 모두 지원하여 의미적으로 정확한 고품질의 복잡한 이미지를 생성할 수 있습니다.시각적 품질의 컬러...
종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.