일반 소개 LangbaseInc의 Langui는 제너레이티브 AI 및 LLM(대규모 언어 모델링) 프로젝트를 위해 설계된 오픈 소스 사용자 인터페이스 컴포넌트 라이브러리입니다. 이 라이브러리는 Tailwind CSS를 기반으로 하며 개발자가 빠르게 구성할 수 있도록 미리 빌드된 UI 컴포넌트 모음을 제공합니다.
포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
종합 소개 CogVLM2는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 멀티모달 모델로, Llama3-8B 아키텍처를 기반으로 하며 GPT-4V와 비슷하거나 더 나은 성능을 제공하는 것을 목표로 합니다. 이 모델은 이미지 이해, 다원 대화, 시각적 ...
종합 소개 SmartRead는 기술 문서용으로 설계된 AI 기반 오픈 소스 도구입니다. PDF 파일을 자동으로 분석하고 중요한 용어, 제목 또는 핵심 아이디어와 같은 주요 내용을 표시하여 사용자가 복잡한 문서를 빠르게 이해할 수 있도록 도와줍니다. 동시에 주요 내용을 제공하고 문서화할 수도 있습니다.
종합 소개 "Vocabulary Book by DeepSeek"은 영어 학습자가 대학 영어 레벨 4(CET-4)의 어휘를 효율적으로 마스터할 수 있도록 돕기 위해 DeepSeek의 빅 모델을 기반으로 개발된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅됩니다...
종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...
일반 소개 AgentGPT는 사용자가 브라우저를 통해 자율적으로 AI 인텔리전스를 생성, 구성 및 배포할 수 있도록 설계된 오픈 소스 프로젝트로, Reworkd 팀에서 개발하여 GitHub에서 호스팅하고 있습니다. 사용자는 목표를 설정하기만 하면 AgentGPT는 다음을 수행할 수 있습니다.
일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....
종합 소개 Omni-RGPT는 이미지와 동영상에 대한 영역 수준의 이해를 가능하게 하도록 설계된 멀티모달 대규모 언어 모델입니다. 토큰 마크 기술을 도입함으로써 Omni-RGPT는 시각적 특징 공간에서 영역 단서(예: 상자 또는...)로 대상 영역을 강조 표시할 수 있습니다.
일반 소개 에이전트 인박스는 AI 지능과 상호 작용할 수 있는 새로운 사용자 경험을 제공하기 위해 LangChain 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 중앙 집중식 인터페이스를 통해 여러 AI 인텔리전스와의 상호 작용을 관리하고 최적화할 수 있습니다.
종합 소개 AIBot PRO는 사용자에게 여러 AI 제품을 통합할 수 있는 편리한 플랫폼을 제공하도록 설계된 .NET 6 기반 AI 통합 클라이언트입니다. 이 클라이언트는 무의미한 전환 대화를 지원하며 ChatGPT, Gemini, Claude, Wenxin Yiyin을 통합합니다.
개요 Easy-Voice-Toolkit은 오픈 소스 음성 프로젝트에 기반한 다기능 툴킷으로 음성 인식, 음성 전사, 음성 변환, 데이터 세트 생성 및 모델 학습을 위한 다양한 자동화된 오디오 도구를 제공합니다. 사용자는 필요에 따라 이러한 도구를 선택적으로 사용할 수 있습니다...
포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...
개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.
종합 소개 Easegen은 AI 기술을 통해 교육 콘텐츠 제작 및 관리의 효율성을 높이는 것을 목표로 하는 오픈 소스 디지털 휴먼 코스 제작 플랫폼입니다. 이 플랫폼은 코스 제작, 비디오 관리, 지능형 질문까지 원스톱 솔루션을 제공하여 사용자가 디지털 휴먼 설명 비디오 코스를 제작할 수 있도록 지원합니다.
일반 소개 Memora는 개인화된 각 AI를 위해 인간의 기억을 복제하도록 설계된 에이전트입니다. 타임스탬프 기억, 감정 마커, 다중 모드 기억과 같은 기능을 통해 AI가 인간처럼 과거의 상호 작용, 감정, 공유 경험의 세부 사항을 기억할 수 있도록 도와주며, 메모라는 멀티 테넌시를 지원하며 다음과 같은 작업을 처리할 수 있습니다.
포괄적인 소개 민감한 단어 필터링 도구(민감한 단어)는 DFA 알고리즘 프레임워크 구현을 기반으로 하는 고성능 Java 민감한 단어 필터링 도구입니다. 이 도구는 민감한 단어를 효율적으로 감지하고 필터링할 수 있으며 다양한 형식 변환 및 사용자 지정 대체 전략을 지원합니다. 설계 목표는 제공하는 것입니다 ...
종합적인 소개 모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 모든 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows에서는 ...
종합 소개 MindSearch는 상하이 인공 지능 연구소(SAL)에서 출시한 오픈 소스 AI 검색 엔진 프레임워크로, 복잡한 정보 수집 및 통합을 위한 인간의 사고 과정을 시뮬레이션하는 것을 목표로 합니다. 이 도구는 다중 지능을 통해 대규모 언어 모델링(LLM)과 검색 엔진의 고급 기술을 결합합니다....
종합 소개 Step-Video-T2V는 StepFun AI(StepFun Star)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 고도로 압축된 가변 자동 인코더(VAE)를 통해 이 모델은 ...
종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.
일반 소개 CodeArena는 실시간 대결을 통해 최고의 오픈 소스 코드 생성 모델(LLM)을 선보이기 위해 고안된 독특한 플랫폼입니다. 사용자는 동일한 프로그래밍 작업에서 서로 다른 LLM이 경쟁하는 모습을 보고 실시간 순위표를 통해 가장 우수한 모델을 확인할 수 있습니다. 이 플랫폼은 Tog...
종합 소개 Maxun은 오픈 소스 노코드 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 이를 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고, 웹사이트 레이아웃 변경에 적응하며, 강력한 데이터 크롤링 기능을 제공합니다.
포괄적 인 소개 이것은 Novel이라고 불리는 Steven Tey가 개발 한 오픈 소스 프로젝트로, 사용자가 텍스트 입력의 효율성을 향상시키는 데 도움이되는 통합 AI 자동 완성 기능인 Notion 스타일 WYSIWYG 텍스트 편집기입니다. 이 프로젝트는 자세한 문서 및 설치 지침을 제공합니다 ...
일반 소개 Clevrr Computer는 PyAutoGUI 라이브러리를 사용하여 시스템 운영을 자동화하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 다음을 사용하여 정확하고 효율적으로 작업을 수행할 수 있는 자동화 에이전트를 설계하기 위해 Anthropic에서 영감을 받았습니다.
포괄적 인 소개 애그리 게이터는 사용 가능한 다양한 프록시 노드를 크롤링 할 수있는 무료 프록시 풀을 만드는 것을 목표로하는 오픈 소스 프로젝트입니다. 플랫폼에는 유연한 플러그인 시스템이 있으며 사용자는 대상 사이트의 특별한 요구에 따라 플러그인을 통해 특정 기능을 달성 할 수 있습니다. 이 프로젝트는 주로 크롤링하는 법을 배우는 데 사용됩니다 ...
일반 소개 채팅애니원은 HumanAIGC 팀이 개발한 혁신적인 프로젝트입니다. 인공 지능 기술을 사용하여 한 장의 사진과 오디오 입력으로 상체 움직임이 있는 디지털 인물 동영상을 생성합니다. 이 프로젝트는 머리 움직임을 생성하는 계층적 모션 확산 모델을 기반으로 합니다...
개요 PicMenu는 간단한 사진 조작을 통해 기존의 종이 메뉴판을 생생하고 직관적인 그림 메뉴판으로 바꿔주는 혁신적인 AI 도구입니다. 이 도구는 각 요리의 고품질 이미지를 자동으로 생성할 뿐만 아니라 요식업의 디지털 혁신을 위해 요리에 대한 풍부한 정보를 제공합니다...
일반 소개 MCP 서버 ChatSum은 사용자가 채팅 메시지를 쿼리하고 요약할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅되며 사용자가 특정 매개변수를 기반으로 채팅 로그를 쿼리하고 해당 요약을 생성할 수 있는 강력한 도구 세트를 제공합니다....
일반 소개 코딩 에이전트는 개발자의 프로그래밍 효율성 향상을 돕기 위해 AbhinavTheDev에서 개발한 지능형 프로그래밍 어시스턴트입니다. 이 도구는 인공 지능 기술을 사용하여 자동으로 코드를 생성하고, 프로그래밍 제안을 제공하며, 개발자에게 다양한 코딩을 지원합니다.
일반 소개 스토리 어댑터는 텍스트 스토리를 일관된 이미지 시퀀스로 변환하는 혁신적인 스토리 시각화 프레임워크입니다. 연구원들이 개발한 이 프로젝트는 고품질 스토리 일러스트를 생성하기 위해 별도의 교육이 필요 없는 반복적인 접근 방식을 채택하고 있습니다. 이 프레임워크는 긴 스토리를 처리할 수 있는 기능이 특징입니다.
포괄적인 소개 AppAgent는 스마트폰 애플리케이션을 조작하도록 설계된 LLM(대규모 언어 모델) 기반 멀티모달 에이전트 프레임워크입니다. 이 프레임워크는 단순화된 조작 공간을 통해 탭 및 스와이프와 같은 인간의 상호 작용을 모방하여 시스템 백엔드 액세스가 필요하지 않으므로 다양한 앱으로 범위를 확장할 수 있습니다.
일반 소개 옵텍스티는 옵텍스티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 다음과 같은 세 가지 코드 라이브러리가 포함되어 있습니다.
일반 소개 MIDI-3D는 개발자, 연구원 및 크리에이터를 위해 단일 이미지에서 여러 오브젝트가 포함된 3D 장면을 빠르게 생성하기 위해 VAST-AI-Research 팀에서 개발한 오픈 소스 프로젝트입니다. 이 도구는 다중 인스턴스 확산 모델링 기법을 기반으로 합니다...
일반 소개 인피니트유는 바이트댄스 인텔리전트 크리에이션 팀에서 개발한 오픈소스 프로젝트입니다. FLUX.1-dev 모델을 사용하는 확산 트랜스포머(DiT) 기술을 기반으로 하며, 핵심 기능은 사용자가 사진을 업로드하고 텍스트 설명을 입력하여 생성할 수 있도록 하는 것입니다.
일반 소개 에이전트 보안은 개발자와 보안 전문가에게 포괄적인 퍼즈 테스트 및 공격 기술을 제공하도록 설계된 오픈 소스 LLM(대규모 언어 모델) 취약점 스캔 도구입니다. 이 도구는 사용자 지정 규칙 세트 또는 에이전트 기반 공격을 지원하며 LLM AP를 통합할 수 있습니다.
종합 소개 에이전타는 사용자가 쉽게 큐 워드를 실험하고, 모델 효과를 테스트하고, 실행을 모니터링할 수 있도록 설계된 오픈 소스 AI 모델 관리 도구입니다. 작동이 간편한 플랫폼을 제공하여 AI 애플리케이션을 빠르게 개발하고자 하는 사람들에게 적합합니다. 다양한 단서 단어의 효과를 테스트하는 데 사용할 수 있습니다...
일반 빠른 프롬프트는 프롬프트 단어(프롬프트) 관리와 빠른 입력에 중점을 둔 오픈 소스 브라우저 확장 프로그램입니다. 사용자는 프롬프트 라이브러리를 생성, 구성 및 저장하고 미리 설정된 프롬프트 콘텐츠를 웹 페이지의 입력 상자에 빠르게 삽입할 수 있습니다. 이 도구는 특히 ...
일반 소개 VideoSeal은 Facebook Research에서 개발한 오픈 소스 동영상 워터마킹 도구로, 효율적인 동영상 워터마크 삽입 및 추출을 제공하기 위해 설계되었습니다. 이 도구는 최신 오픈 소스 모델을 지원하며 사전 학습된 모델, 학습 코드, 추론 코드 및 평가 도구가 포함되어 있습니다.
일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
포괄적인 소개 NVIDIA Cosmos는 개발자를 위한 월드 기반 모델링 플랫폼으로, 물리 AI 개발자가 물리 AI 시스템을 더 빠르고 효율적으로 구축할 수 있도록 특별히 설계되었습니다. 이 플랫폼은 확산 및 자동 회귀 월드 기반 등 다양한 사전 훈련된 모델을 제공합니다.