일반 소개 TripoSG는 단일 이미지에서 고품질 3D 모델을 생성하기 위해 VAST AI 연구팀에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 하이브리드 지도 학습 및 고품질 데이터 세트와 결합된 대규모 정류기-흐름 변환기 기술을 사용하여 생성된 3D 모델이 다음과 같은 기능을 갖출 수 있도록 합니다.
일반 소개 그루크 플레이그라운드는 "Technical Crawling Shrimp" 팀이 개발한 오픈소스 프로젝트입니다. 이 도구의 핵심 기능은 사용자가 10초 안에 Grok3 국내 미러 사이트를 배포할 수 있도록 하는 것입니다. Grok3는 xAI에서 도입한 인공 지능 모델이며, ...
일반 설명 Inbox Zero는 AI 어시스턴트를 통해 사용자가 받은 편지함 이메일을 빠르게 정리할 수 있도록 설계된 오픈 소스 이메일 관리 앱입니다. 이 앱은 자동 응답, 보관, 라벨 지정 및 이메일 전달, 뉴스레터 관리 및 구독 취소, 콜드 이메일 차단, 팔로잉 등 다양한 기능을 제공합니다.
일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...
일반 소개 Dia는 초현실적인 대화 오디오를 생성하는 데 중점을 두고 나리 랩스에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 텍스트 스크립트를 한 번의 프로세스로 사실적인 다중 문자 대화로 변환하고 감정과 억양 제어를 지원하며 비언어적 표현까지 생성합니다....
일반 소개 Hunyuan3D-2는 텍스트나 이미지에서 고해상도 3D 모델을 생성하기 위해 Tencent에서 개발한 오픈 소스 프로젝트입니다. 형상 생성 모델(Hunyuan3D-DiT)과 텍스처 생성 모델(Hunyuan3D...)의 두 가지 핵심 구성 요소로 이루어져 있습니다.
CoT-Lab은 인간과 컴퓨터 협업의 새로운 패러다임을 탐구하기 위한 실험적 인터페이스입니다. 인지 부하 이론과 능동적 학습 원리를 기반으로 하는 CoT-Lab은 '생각하는 파트너' 관계를 구축하여 인간과 인공지능(AI) 간의 심층적인 인지적 조율을 촉진합니다. 이 프로젝트의 목표는 다음과 같습니다.
종합 소개 Omni-RGPT는 이미지와 동영상에 대한 영역 수준의 이해를 가능하게 하도록 설계된 멀티모달 대규모 언어 모델입니다. 토큰 마크 기술을 도입함으로써 Omni-RGPT는 시각적 특징 공간에서 영역 단서(예: 상자 또는...)로 대상 영역을 강조 표시할 수 있습니다.
종합 소개 Grok-Mirror는 서버가 필요 없는 빠른 배포가 가능한 Grok3 기반의 국내 미러 스테이션입니다.Grok 미러 스테이션은 운영 가능한 Grok 미러 스테이션으로 구축되었습니다. 이를 통해 사용자는 Docker를 통해 클릭 한 번으로 로컬 Grok 키오스크를 배포할 수 있습니다.Grok은 xAI의 인공 지능입니다.
종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...
일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
일반 소개 로컬 딥 리서치는 사용자가 심층 연구를 수행하고 복잡한 문제에 대한 상세한 보고서를 생성할 수 있도록 설계된 오픈 소스 AI 연구 도우미입니다. 로컬 실행을 지원하므로 사용자가 클라우드 서비스에 의존하지 않고도 연구 작업을 완료할 수 있습니다. 이 도구는 ...
일반 소개 Skywork-R1V는 SkyworkAI(쿤룬 완웨이) 팀이 개발하여 GitHub에 공개한 오픈 소스 다중 모드 추론 모델로, 이미지와 텍스트를 동시에 처리하고 다단계 논리적 추론을 수행할 수 있으며 특히 복잡한 이미지 문제를 분석하는 데 능숙합니다. 이...
일반 소개 AI Logo은 사용자가 인공지능을 통해 개인화된 브랜드 로고를 빠르게 생성할 수 있도록 지원하는 오픈 소스 인공지능 애플리케이션 프로젝트입니다. 스테이블 디퓨전 및 딥AI와 같은 강력한 AI 기술을 결합하여 사용자가 간단한 브랜드 로고를 입력할 수 있습니다.
일반 소개 Zev는 사용자가 자연어로 터미널 명령을 빠르게 쿼리하고 생성할 수 있도록 도와주는 사용하기 쉬운 명령줄 인터페이스(CLI) 도구입니다. 복잡한 명령 구문을 기억할 필요 없이 Zev는 일상적인 언어로 사용자의 요구 사항을 설명하여 터미널 명령을 생성합니다. Ope...
일반 소개 OmniParser는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 구문 분석하기 위해 Microsoft에서 개발한 도구입니다. 이 도구는 해당 인터페이스 영역에서 정확한 동작을 생성하는 GPT-4V의 기능을 크게 향상시킵니다.OmniParser는 다음을 지원할 뿐만 아니라...
일반 소개 CogView4는 칭화대학교의 KEG Lab(THUDM)에서 개발한 오픈 소스 텍스트-그래프 모델로, 텍스트 설명을 고품질 이미지로 변환하는 데 중점을 두고 있습니다. 이중 언어 단서 단어 입력을 지원하며, 특히 중국어 단서를 이해하고 중국어 이외의 문자로 이미지를 생성하는 데 능숙합니다.
일반 소개 해커 뉴스 중국어 팟캐스트 프로젝트는 AI 기술을 기반으로 한 혁신적인 플랫폼으로, 매일 해커 뉴스의 인기 기사를 자동으로 가져와 AI를 통해 중국어 요약 및 팟캐스트 콘텐츠를 생성하는 것을 목표로 합니다. 이 프로젝트는 ccbikai가 자금을 지원합니다 ...
포괄적 인 소개 OpenSearch-SQL은 오픈 소스 프로젝트로, 데이터베이스에 익숙하지 않은 사람들이 데이터에 쉽게 액세스 할 수 있도록 사용자의 자연어 설명을 SQL 쿼리 문으로 변환 할 수있는 강력한 Text-to-SQL 도구입니다. 이 프로젝트는 O에 의해 개발되었습니다 ...
개요 MegaPairs는 대규모 데이터 합성 기술을 통해 이미지-텍스트 간 이미지 검색 작업을 위한 멀티모달 임베딩 모델을 생성하기 위한 VectorSpaceLab 팀의 오픈 소스 프로젝트로, GitHub에 게시되어 있습니다. 이 프로젝트는 2,600만 개 이상의 이기종 ...
종합 소개 GPT Researcher는 로컬 및 웹 리서치를 수행하고 상세한 리서치 보고서를 생성하도록 설계된 LLM(대규모 언어 모델) 기반의 자율 에이전트 도구입니다. 이 도구는 에이전트 작업을 병렬화하여 안정적인 성능과 빠른 속도를 제공하고 정확한 정보를 보장합니다.
일반 소개 Airweave는 사용자의 애플리케이션 데이터, API, 데이터베이스, 웹사이트를 그래프 및 벡터 데이터베이스에 동기화하여 모든 애플리케이션을 검색할 수 있도록 설계된 오픈 소스 도구로, 구조화된 데이터든...데이터 검색이 가능한 데이터로 만드는 프로세스를 간소화합니다.
종합 소개 스토리 플릭스는 사용자가 HD 스토리 동영상을 빠르게 생성할 수 있도록 지원하는 오픈 소스 AI 툴입니다. 사용자는 스토리 주제만 입력하면 시스템이 대규모 언어 모델을 통해 스토리 콘텐츠를 생성하고 AI가 생성한 이미지, 오디오 및 자막을 결합하여 완전한 비디오를 출력합니다....
일반 소개 에이전트IQ는 개발자가 AI 인텔리전스를 효율적으로 연결하고 관리할 수 있도록 설계된 NVIDIA의 오픈 소스 툴입니다. 이를 통해 서로 다른 프레임워크의 인텔리전스를 원활하게 협업하고, 엔터프라이즈 데이터와 도구를 연결하고, 함수 호출과 같은 워크플로우를 구축할 수 있습니다. 이 도구의 가장 큰 장점은...
UNO는 바이트댄스 인텔리전트 크리에이션 팀이 개발한 오픈 소스 이미지 생성 프레임워크입니다. FLUX.1 모델을 기반으로 하며 "적은 것에서 더 많은 것"으로 일반화 접근 방식을 통해 단일 피사체 및 다중 피사체 맞춤형 이미지 생성에 중점을 둡니다.UNO는 확산 변환기를 사용합니다...
일반 소개 PrimisAI Nexus는 GitHub에서 호스팅되고 PrimisAI 팀이 개발한 경량 오픈 소스 Python 프레임워크로, 사용자가 LLM(대규모 언어 모델링)을 통해 확장 가능한 AI 다중 지능형 바디 시스템을 구축하고 관리할 수 있도록 지원합니다....
일반 소개 SkyPilot은 캘리포니아 버클리 대학교의 Sky Computing Lab에서 시작한 오픈 소스 프레임워크로, 사용자가 모든 클라우드 인프라에서 AI 및 일괄 처리 작업을 효율적으로 실행할 수 있도록 설계되었습니다. 14개 이상의 클라우드 서비스를 지원합니다(다음을 포함하여 ...
일반 소개 Onyx(구 Danswer)는 조직이 문서, 애플리케이션 및 직원 데이터를 통합하고 관리할 수 있도록 지원하기 위해 onyx-dot-app 팀에서 개발한 오픈 소스 AI 채팅 플랫폼입니다. 모든 대규모 언어 모델(LLM)을 연결할 수 있는 풍부한 채팅 기능을 제공합니다.
일반 소개 인피니트유는 바이트댄스 인텔리전트 크리에이션 팀에서 개발한 오픈소스 프로젝트입니다. FLUX.1-dev 모델을 사용하는 확산 트랜스포머(DiT) 기술을 기반으로 하며, 핵심 기능은 사용자가 사진을 업로드하고 텍스트 설명을 입력하여 생성할 수 있도록 하는 것입니다.
일반 소개 GraphAgent는 GitHub에서 호스팅되고 Ji-Cather가 개발한 오픈 소스 프레임워크입니다. 대규모 언어 모델(LLM)을 사용하여 인간의 행동을 시뮬레이션하고 텍스트 속성을 가진 동적인 소셜 그래프를 생성합니다. 이 도구는 온라인 소셜 미디어에 적합합니다...
일반 소개 TestDriver는 인공 지능 기술을 사용하여 개발자가 소프트웨어를 테스트할 수 있도록 도와주는 웹사이트입니다. 마우스를 클릭하거나 텍스트를 입력하는 등 사람의 동작을 시뮬레이션하여 소프트웨어 테스트 작업을 자동화합니다. 이 사이트의 중심에는 실제 사람처럼 작동하는 'AI 에이전트를 사용하는 컴퓨터'가 있습니다....
일반 소개 GenXD는 싱가포르 국립대학교(NUS)와 마이크로소프트 팀이 개발한 오픈 소스 프로젝트입니다. 불충분한 데이터와 모델 설계 복잡성으로 인한 실제 3D 및 4D 생성 문제를 해결하기 위해 임의의 3D 및 4D 장면을 생성하는 데 중점을 둡니다. 이 프로젝트는 ...
포괄적인 소개 Dify-Plus는 Dify 오픈 소스 프로젝트의 2차 개발을 기반으로 하는 AI 애플리케이션 개발 플랫폼입니다. Dify에 기반한 새로운 관리 센터를 추가하고 기업 시나리오에 맞게 기능을 최적화합니다. 이 프로젝트는 처음에 기업 내부용으로 개발되었으나 나중에 커뮤니티에도 비슷한 요구가 있다는 것을 알게 되었습니다.
개요 GraphGen은 상하이의 AI 연구소인 OpenScienceLab에서 개발한 오픈 소스 프레임워크로, 지식 그래프를 통해 합성 데이터 생성을 안내하여 대규모 언어 모델(LLM)의 감독 미세 조정을 최적화하는 데 중점을 두고 있으며, GitHub에 호스팅되어 있습니다. 개발 배경은 ...
일반 설명 회사 리서처(Company Researcher)는 사용자가 모든 회사에 대한 빠르고 포괄적인 개요를 얻을 수 있도록 설계된 무료 오픈 소스 도구입니다. 회사의 URL을 입력하기만 하면 이 도구가 웹에서 포괄적인 정보를 수집하여 조직, 제품 등에 대한 정보를 표시합니다.
일반 소개 채팅애니원은 HumanAIGC 팀이 개발한 혁신적인 프로젝트입니다. 인공 지능 기술을 사용하여 한 장의 사진과 오디오 입력으로 상체 움직임이 있는 디지털 인물 동영상을 생성합니다. 이 프로젝트는 머리 움직임을 생성하는 계층적 모션 확산 모델을 기반으로 합니다...
일반 소개 AgentGPT는 사용자가 브라우저를 통해 자율적으로 AI 인텔리전스를 생성, 구성 및 배포할 수 있도록 설계된 오픈 소스 프로젝트로, Reworkd 팀에서 개발하여 GitHub에서 호스팅하고 있습니다. 사용자는 목표를 설정하기만 하면 AgentGPT는 다음을 수행할 수 있습니다.
포괄적인 소개 LitServe는 범용 AI 모델을 위한 추론 서비스를 신속하게 배포하는 데 중점을 둔 FastAPI를 기반으로 구축된 Lightning AI의 오픈 소스 AI 모델 서비스 엔진입니다. 대규모 언어 모델(LLM), 시각적 모델부터 다양한 모델을 지원합니다.
종합 소개 텐센트 터보 S는 텐센트에서 자체 개발한 차세대 빠른 사고 모델로서, 지난 27일 텐센트 클라우드 공식 웹사이트를 통해 출시되었습니다. 기존의 느린 사고 모델(예: 딥서치 R1, 하이브리드 T1)과는 달리 "두 번째 응답"을 실현할 수 있다는 점에서 다릅니다.
종합 소개 ColossalAI는 대규모 AI 모델의 훈련과 추론을 위한 효율적이고 비용 효율적인 솔루션을 제공하는 것을 목표로 HPC-AI Technologies에서 개발한 오픈 소스 플랫폼입니다. 여러 병렬 전략, 이기종 메모리 관리, 혼합 정밀도 훈련을 지원함으로써 ColossalAI는...
종합 소개 LangWatch는 대규모 언어 모델(LLM) 작업을 위해 설계된 종합 플랫폼으로, 모니터링, 분석, 평가, 데이터 세트 관리 및 큐 최적화를 제공합니다. 이 플랫폼은 스탠포드 대학의 DSPy 프레임워크를 기반으로 하며 사용자가 더 나은 관리와 최적화를 할 수 있도록 설계되었습니다.