TransRouter는 영어와 중국어 간의 실시간 음성 번역을 위해 특별히 설계된 Google의 Gemini 모델을 기반으로 하는 실시간 음성 번역 도구입니다. 이 도구는 Zoom과 같은 화상 회의 소프트웨어에 원활하게 통합되어 언어 간 번역을 위한 강력한 도구를 제공합니다.
일반 소개 Gemini Next Chat은 사용자가 비공개 Gemini 애플리케이션을 쉽게 배포할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Gemini 1.5 및 Gemini 2.0 멀티모달 모델을 지원하며, 사용자는 클릭 한 번으로 배포할 수 있습니다.
일반 소개 GenXD는 싱가포르 국립대학교(NUS)와 마이크로소프트 팀이 개발한 오픈 소스 프로젝트입니다. 불충분한 데이터와 모델 설계 복잡성으로 인한 실제 3D 및 4D 생성 문제를 해결하기 위해 임의의 3D 및 4D 장면을 생성하는 데 중점을 둡니다. 이 프로젝트는 ...
종합 소개 VoAPI는 주로 개인 또는 기업 내부 관리 및 배포 채널에 사용되는 새로운 고도의 고성능 AI 모델 인터페이스 관리 및 배포 시스템입니다. NewAPI를 기반으로 개발된 이 시스템은 풍부한 기능 모듈과 최적화된 사용자 인터페이스를 제공하여 다음을 향상시키는 것을 목표로 합니다.
일반 소개 원자 에이전트는 에이전트 AI 파이프라인 및 애플리케이션 구축을 위해 원자 개념을 중심으로 설계된 매우 가벼운 모듈식 프레임워크입니다. 이 프레임워크는 강력한 애플리케이션을 만들기 위해 결합할 수 있는 일련의 도구와 에이전트를 제공합니다. 이 프레임워크는 Instruc ...
일반 소개 마이크로 에이전트는 Builder.io에서 개발한 오픈 소스 AI 코딩 도우미로, 개발자에게 코드를 자동으로 생성하고 테스트할 수 있는 기능을 제공하도록 설계되었습니다. 자연어 설명을 이해하여 테스트 케이스를 생성하고 모든 테스트가 통과할 때까지 코드를 반복하여 오픈 ...
종합 소개 HealthGPT는 이기종 지식 적응을 통해 통합된 의료 시각적 이해 및 생성 기능을 달성하는 것을 목표로 하는 고급 의료 그랜드 비주얼 언어 모델입니다. 이 프로젝트의 목표는 의료 시각적 이해 및 생성 기능을 통합된 자동 회귀 프레임워크에 통합하여 의료 그래프를 크게 개선하는 것입니다.
종합 소개 지식 테이블(Knowledge Table)은 비정형 문서에서 정형 데이터를 추출하고 탐색하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 사용자는 자연어 쿼리 인터페이스를 통해 표와 그래프와 같은 구조화된 지식 표현을 만들 수 있습니다. 이 도구는 추출 사용자 지정을 지원합니다 ...
종합 소개 Diffbot LLM Reasoning Server는 LLama 모델 아키텍처를 기반으로 특별한 최적화와 개선이 이루어진 혁신적인 대규모 언어 모델링 시스템입니다. 이 프로젝트의 가장 중요한 특징은 실시간 지식 그래프와 검색 기능이 강화된 생성 기능을 통합한 것입니다.
일반 소개 miniLLMFlow는 100줄의 핵심 코드만 포함된 미니멀한 대규모 언어 모델(LLM) 개발 프레임워크로, '단순함 유지'라는 디자인 철학을 보여줍니다. 이 프레임워크는 AI 어시스턴트(예: ChatGPT, Claude 등)가 다음을 수행할 수 있도록 특별히 설계되었습니다.
종합 소개 스트리밍T2V는 텍스트 설명을 기반으로 일관성 있고 동적이며 확장 가능한 긴 동영상을 생성하는 데 중점을 두고 픽사트 AI 연구팀에서 개발한 공개 프로젝트입니다. 이 기술은 고급 자동 회귀 접근 방식을 사용하여 비디오와 설명 텍스트의 시간적 일관성을 엄격하게 보장합니다.
일반 소개 R1-Omni는 HumanMLLM 팀이 GitHub에서 시작한 오픈 소스 프로젝트입니다. 이는 감정 인식에 초점을 맞춘 멀티모달 대규모 언어 모델에 검증 가능한 보상이 포함된 강화 학습(RLVR) 기법을 최초로 적용한 프로젝트입니다. 이 프로젝트는 비디오 및 오디오 데이터를 다음과 같이 분석합니다.
종합 소개 DeepEval은 대규모 언어 모델링 시스템을 평가하고 테스트하기 위한 사용하기 쉬운 오픈 소스 LLM 평가 프레임워크입니다. Pytest와 유사하지만 LLM 출력의 단위 테스트에 중점을 두며, DeepEval은 G-Eval, 팬텀을 통한 최신 연구 결과를 결합합니다.
일반 소개 슈퍼코더는 터미널에서 실행되는 지능형 도구로 프로그래머를 위해 설계되었습니다. AI 기술을 사용하여 사용자가 코드를 검색하고, 프로젝트 구조를 보고, 파일을 편집하고, 버그를 수정할 수 있도록 도와주며, 이 프로젝트는 GitHub의 huytd에서 오픈 소스이며 다음을 지원합니다.
포괄적인 소개 ScrapeGraphAI는 대규모 언어 모델링(LLM)과 직접 그래프 로직을 영리하게 결합하여 웹사이트와 로컬 문서를 위한 스크래핑 파이프라인을 생성하는 혁신적인 Python 웹 스크래핑 라이브러리입니다. 이 도구를 독특하게 만드는 것은 완벽한 수준의 단순성과 강력함입니다...
일반 소개 AI 팟캐스트 생성기는 고급 AI 기술을 사용하여 웹 소스에서 매력적인 오디오 콘텐츠를 자동으로 생성하는 지능형 팟캐스트 생성 도구입니다. 이 시스템은 뉴스 콘텐츠를 캡처하여 오디오 팟캐스트로 변환함으로써 자연스럽게 흐르는 내러티브를 생성합니다. 이 프로젝트는 다음...
종합 소개 JoyGen은 말하는 얼굴을 위한 혁신적인 2단계 비디오 생성 프레임워크로, 오디오 기반 표정 생성 문제를 해결하는 데 중점을 두고 있습니다. 징동 테크놀로지 팀이 개발한 이 프레임워크는 고급 3D 재구성 기술과 오디오 특징 추출 방법을 사용하여 화자의 신원 특성과 표정을 정확하게 포착합니다.
일반 소개 AIEvo는 멀티 에이전트 애플리케이션을 효율적으로 생성하기 위해 설계된 Ant Group의 오픈 소스 멀티 에이전트 프레임워크입니다. 이 프레임워크는 복잡한 작업의 실행 성공률을 높이기 위해 SOP 작업 그래프를 엄격하게 따르며, 피드백 및 모니터링 메커니즘을 통해 높은 유연성과 확장성을 보장합니다.AIEvo는 Ant Group 내에서 제작되었습니다...
일반 소개 MTranServer는 오프라인 번역에 중점을 둔 오픈 소스 서버 프로젝트로, GitHub에서 호스팅되며 개발자 xxnuo가 만들었습니다. 가장 큰 특징은 리소스 요구 사항이 매우 낮다는 점으로, G소스가 없어도 CPU와 1GB의 RAM만 있으면 실행할 수 있습니다.
종합 소개 AI-Infra-Guard는 Tencent의 하이브리드 보안 팀인 Zhuqiao Labs에서 개발한 오픈 소스 AI 인프라 보안 평가 도구로, 사용자가 AI 시스템에서 잠재적인 보안 위험을 신속하게 발견하고 탐지할 수 있도록 설계되었습니다. 이 도구는 30개 이상의 AI 프레임워크와 구성 요소를 지원합니다.
종합 소개 CR-Mentor는 전문 지식 베이스와 LLM(대규모 언어 모델링)의 강력한 기능을 결합한 지능형 코드 리뷰 도구입니다. 모든 프로그래밍 언어에 대한 코드 리뷰를 지원할 뿐만 아니라 지식 기반에 축적된 모범 사례를 기반으로 팀을 위한 전용 검토 기준과 집중 영역을 사용자 지정할 수 있습니다. 다음을 통해...
일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
일반 소개 미니 커버는 블로그, 짧은 동영상, 소셜 미디어 등의 플랫폼을 위한 맞춤형 커버를 생성하도록 설계된 오픈 소스 온라인 커버 생성 도구입니다. JLinMr에서 개발한 이 도구는 사용자가 자신의 필요에 맞는 표지를 빠르게 생성할 수 있는 간단하고 효율적인 솔루션을 제공하는 것을 목표로 합니다.
일반 소개 스웜은 다중 에이전트 시스템을 위한 가볍고 제어 가능하며 테스트하기 쉬운 인터페이스를 탐색하기 위해 OpenAI에서 개발한 실험적인 교육용 프레임워크입니다. 이 프레임워크는 주로 에이전트 간의 핸드오프와 일상적인 패턴을 시연하는 데 사용되며, 개발자가 멀티 에이전트 시스템의 조정 및 실행을 이해하고 구현하는 데 도움이 됩니다.
종합 소개 TryOffAnyone은 이커머스 분야의 의류 디스플레이 문제를 해결하기 위해 특별히 설계된 획기적인 AI 이미지 처리 툴입니다. 실제 사람이 옷을 입은 사진을 평평한 디스플레이 효과 이미지로 지능적으로 변환할 수 있으며, 이 기술은 최신 잠재 차이 기술을 기반으로 합니다.
일반 소개 오토북은 사용자가 .epub 형식의 전자책을 .m4b 형식의 오디오북으로 빠르게 변환할 수 있도록 설계된 오픈 소스 도구입니다. Kokoro에서 제공하는 고품질 음성 합성 기술을 사용하여 자연스럽고 부드러운 오디오를 생성합니다. 이 도구는 ...에 의해 구동됩니다.
일반 소개 LLM API 엔진은 개발자가 AI 기반 API를 신속하게 구축하고 배포할 수 있도록 설계된 오픈 소스 프로젝트로, 대규모 언어 모델(LLM)과 지능형 웹 크롤링 기술을 활용하여 사용자가 자연어 설명을 통해 사용자 지정 API를 만들 수 있도록 합니다.주요 ...
종합 소개 MM-EUREKA는 상하이 인공 지능 연구소, 상하이 자오통 대학교 및 기타 관계자들이 개발한 오픈 소스 프로젝트입니다. 이 도구는 규칙 기반 강화 학습 기법을 통해 텍스트 추론 기능을 멀티모달 시나리오로 확장하여 모델이 이미지와 텍스트 정보를 처리할 수 있도록 지원합니다. 이 도구의 핵심은...
일반 소개 PrivateGPT는 프로덕션 환경에서 사용할 수 있는 AI 프로젝트로, 사용자가 인터넷 연결 없이도 대규모 언어 모델(LLM)을 사용하여 문서를 퀴즈할 수 있습니다. 이 프로젝트는 모든 데이터를 사용자의 실행 환경에 배치하여 100%의 데이터 프라이버시를 보장합니다...
종합 소개 GPTMe는 개발자의 업무 효율성을 높이기 위해 설계된 혁신적인 터미널 AI 어시스턴트 도구입니다. 강력한 AI 기능과 터미널 환경을 완벽하게 결합하여 코드 실행, 파일 편집, 웹 브라우징, 시각적 인식 등 다양한 기능을 지원합니다. ChatGPT 코드 풀이...
종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...
일반 소개 GaiaNet-AI/gaianet-node는 사용자가 단일 명령으로 Mac, Linux 또는 Windows WSL에 기본 노드 소프트웨어 스택을 빠르게 설치할 수 있는 오픈 소스 프로젝트입니다. 사용자는 노드를 초기화하고, 구성을 사용자 지정하고, 다운로드할 수 있습니다.
포괄적인 소개 Higress는 효율적인 트래픽 스케줄링, 서비스 거버넌스 및 보안 솔루션을 제공하도록 설계된 Istio 및 Envoy를 기반으로 Alibaba에서 개발한 클라우드 네이티브 API 게이트웨이입니다. AI 비즈니스를 위한 여러 프로그래밍 언어용 Wasm 플러그인 확장을 지원합니다.
개요 BotSharp는 포괄적인 AI 챗봇 플랫폼 구축 도구를 제공하기 위한 .NET Core 기반의 오픈 소스 프로젝트입니다. C# 프로그래밍을 사용하고 크로스 플랫폼 운영을 지원하며 머신러닝 알고리즘의 적용을 단순화하여 엔터프라이즈급 개발자가 효율적으로 사용할 수 있도록 하는 것을 목표로 합니다.
종합 소개 DeepSeek-R1-FP4는 NVIDIA에서 오픈 소스화 및 최적화한 정량화된 언어 모델로, DeepSeek AI의 DeepSeek-R1을 기반으로 개발되었습니다. DeepSeek AI용 DeepSeek-R1을 기반으로 개발되었으며, TensorRT 모델 옵티컬을 사용하여 개발되었습니다.
일반 소개 DragGAN은 생성적 적대 신경망(GAN)을 기반으로 하는 대화형 이미지 편집 도구입니다. 시그라프 2023에서 Xingang Pan 등이 발표한 이 도구는 간단한 포인트 앤 클릭과 드래그 앤 드롭 조작을 통해 사용자가 직관적으로 조작할 수 있도록 하는 것을 목표로 합니다.
일반 소개 LangManus는 GitHub에서 호스팅되는 오픈 소스 AI 자동화 프레임워크입니다. 전직 동료들이 여가 시간에 개발한 이 프레임워크는 웹 검색, 데이터 크롤링 및 코드 실행을 위한 언어 모델과 전문 도구를 결합하는 것을 목표로 하는 학술 중심 프로젝트입니다....
일반 소개 Vibe Draw는 Martin Sit이 개발한 오픈 소스 프로젝트로, 사용자가 손으로 그린 스케치를 아름다운 3D 모델로 변환할 수 있게 해줍니다. 이 도구의 목표는 간단합니다. 뛰어난 예술적 기술이나 재주가 없어도 누구나 쉽게 3D 모델링을 할 수 있도록 하는 것입니다.
일반 설명 반응형 이력서는 이력서 작성, 업데이트 및 공유 프로세스를 간소화하도록 설계된 무료 오픈 소스 이력서 작성기입니다. 이 플랫폼은 사용자 추적이나 광고 없이 사용자 개인정보 보호에 중점을 두고 있습니다. 사용자는 30초 이내에 앱을 셀프 호스팅할 수 있으며, 앱을 완전히 제어할 수 있습니다.
포괄적인 소개 Lecca는 사용자가 여러 도구와 워크플로우를 사용하여 대규모 언어 모델(LLM)을 구성하고 배포할 수 있는 강력한 AI 플랫폼입니다. 사용자는 AI 에이전트를 쉽게 구축, 사용자 지정 및 자동화할 수 있으며, 다양한 AI 제공업체와 모델을 선택할 수 있습니다.
일반 소개 위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 처리하는 경향이 있습니다.
일반 소개 OmniParser는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 구문 분석하기 위해 Microsoft에서 개발한 도구입니다. 이 도구는 해당 인터페이스 영역에서 정확한 동작을 생성하는 GPT-4V의 기능을 크게 향상시킵니다.OmniParser는 다음을 지원할 뿐만 아니라...
일반 소개 모픽은 지능형 Q&A와 효율적인 검색 환경을 제공하기 위해 설계된 생성형 사용자 인터페이스를 갖춘 AI 기술 기반의 검색 엔진입니다. 사용자는 모픽으로 텍스트, 동영상 등 다양한 검색을 수행할 수 있으며, 검색 기록을 저장하고 검색 결과를 공유할 수 있습니다.모픽은...