개요 Sim Studio는 가볍고 직관적인 시각적 인터페이스를 통해 사용자가 대규모 언어 모델(LLM) 워크플로를 빠르게 설계, 테스트 및 배포할 수 있도록 지원하는 데 중점을 둔 오픈 소스 AI 에이전트 워크플로 구축 플랫폼입니다. 사용자는 드래그 앤 드롭을 통해 복잡한 워크플로를 심층적인 프로그래밍 없이도 만들 수 있습니다.
일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...
일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
Synthesis Muyan-TTS는 팟캐스트 시나리오를 위해 설계된 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 100,000시간 이상의 팟캐스트 오디오 데이터로 사전 학습되었으며 제로 샘플 음성 합성을 지원하여 고품질의 자연스러운 음성을 생성합니다. 이 모델은 Llama-3.2-3...을 기반으로 합니다.
일반 소개 CAD-MCP는 사용자가 도면 작업을 위한 자연어 명령을 통해 CAD 소프트웨어를 제어할 수 있는 오픈 소스 프로젝트입니다. 자연어 처리와 CAD 자동화 기술을 결합하여 사용자가 CAD 인터페이스를 수동으로 조작할 필요 없이 간단한 텍스트 명령어를 입력하기만 하면 됩니다.
개요 GraphGen은 상하이의 AI 연구소인 OpenScienceLab에서 개발한 오픈 소스 프레임워크로, 지식 그래프를 통해 합성 데이터 생성을 안내하여 대규모 언어 모델(LLM)의 감독 미세 조정을 최적화하는 데 중점을 두고 있으며, GitHub에 호스팅되어 있습니다. 개발 배경은 ...
일반 소개 로컬 딥 리서치는 사용자가 심층 연구를 수행하고 복잡한 문제에 대한 상세한 보고서를 생성할 수 있도록 설계된 오픈 소스 AI 연구 도우미입니다. 로컬 실행을 지원하므로 사용자가 클라우드 서비스에 의존하지 않고도 연구 작업을 완료할 수 있습니다. 이 도구는 ...
일반 소개 키미오디오는 문샷 AI에서 개발한 오픈 소스 오디오 기반 모델로, 오디오 이해, 생성 및 대화에 중점을 두고 있습니다. 음성 인식, 오디오 질의응답, 음성 감정 인식 등 다양한 오디오 처리 작업을 지원합니다. 이 모델은 130개 이상의 테스트를 거쳤습니다...
일반 소개 쿠라젠트는 칭화대학교의 LeapLab에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 에이전트 협업 프레임워크로, 사용자가 한 문장 설명으로 지능형 AI 에이전트를 만들 수 있으며 복잡한 작업에서 여러 에이전트가 협업할 수 있도록 지원합니다. 이 프레임워크는 두 가지 기능을 제공합니다.
포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
일반 소개 Paper2Code는 머신러닝 논문에 대한 코드 구현 부족 문제를 해결하기 위한 오픈 소스 프로젝트입니다. 이 프로젝트는 다중 에이전트 LLM(대규모 언어 모델링) 시스템인 PaperCoder를 통해 과학 논문을 실행 가능한 코드 리포지토리로 자동 변환합니다. 이 시스템은 계획을 사용합니다 ...
종합 소개 DeepWiki-Open은 GitHub, GitLab 및 Bitbucket의 코드 리포지토리에 대한 구조화된 문서를 자동으로 생성하도록 설계된 오픈 소스 프로젝트입니다. AI 기술을 사용하여 코드 구조, 파일 콘텐츠 및 논리적 관계를 분석하고 신속하게 생성합니다.
일반 소개 Audibit은 오픈 소스 프로젝트로, 핵심 기능은 해커 뉴스, 테크크런치 및 기타 인기 기술 기사를 자동으로 오디오 팟캐스트로 변환하여 출퇴근, 피트니스 또는 바쁜 사용자가 웹이나 모바일을 통해 정보를들을 때 사용할 수 있도록하는 것입니다. 이 프로젝트는 ...
일반 빠른 프롬프트는 프롬프트 단어(프롬프트) 관리와 빠른 입력에 중점을 둔 오픈 소스 브라우저 확장 프로그램입니다. 사용자는 프롬프트 라이브러리를 생성, 구성 및 저장하고 미리 설정된 프롬프트 콘텐츠를 웹 페이지의 입력 상자에 빠르게 삽입할 수 있습니다. 이 도구는 특히 ...
일반 소개 Suna는 Kortix AI에서 개발한 오픈 소스 범용 AI 에이전트로, Apache 2.0 라이선스를 기반으로 GitHub에서 호스팅되며 사용자가 무료로 다운로드, 수정 및 자체 호스팅할 수 있습니다. 자연어 대화를 사용하여 사용자에게 다음과 같은 도움을 줍니다.
포괄적인 소개 Potpie AI는 개발자에게 맞춤형 AI 엔지니어링 어시스턴트를 제공하는 데 중점을 둔 오픈 소스 플랫폼입니다. AI 에이전트가 코드 구조와 로직을 심층적으로 이해하고 코드 베이스의 지식 그래프를 구축하여 디버깅, 테스트, 코드 생성과 같은 작업을 자동화할 수 있습니다. 사용자는 간단한...
포괄적인 소개 RooFlow는 프로젝트 로깅을 통해 개발 중 코드, 의사 결정 및 작업 진행 상황을 보존하는 핵심 기능을 갖춘 오픈 소스 AI 지원 프로그래밍 도구입니다. Roo Code 확장을 기반으로 하며 아키텍처, 코딩, 테스트, 디버깅, Q&A의 다섯 가지 모드를 통합합니다. 이러한 모드는 상호 ...
일반 소개 Zev는 사용자가 자연어로 터미널 명령을 빠르게 쿼리하고 생성할 수 있도록 도와주는 사용하기 쉬운 명령줄 인터페이스(CLI) 도구입니다. 복잡한 명령 구문을 기억할 필요 없이 Zev는 일상적인 언어로 사용자의 요구 사항을 설명하여 터미널 명령을 생성합니다. Ope...
UNO는 바이트댄스 인텔리전트 크리에이션 팀이 개발한 오픈 소스 이미지 생성 프레임워크입니다. FLUX.1 모델을 기반으로 하며 "적은 것에서 더 많은 것"으로 일반화 접근 방식을 통해 단일 피사체 및 다중 피사체 맞춤형 이미지 생성에 중점을 둡니다.UNO는 확산 변환기를 사용합니다...
일반 소개 Dia는 초현실적인 대화 오디오를 생성하는 데 중점을 두고 나리 랩스에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 텍스트 스크립트를 한 번의 프로세스로 사실적인 다중 문자 대화로 변환하고 감정과 억양 제어를 지원하며 비언어적 표현까지 생성합니다....
일반 소개 프레임팩은 동영상 확산 기술을 보다 실용적으로 만드는 데 중점을 둔 오픈 소스 동영상 생성 도구입니다. 고유한 다음 프레임 예측 신경망을 통해 입력 프레임을 고정된 길이로 압축하여 동영상 길이와 생성 워크로드를 분리합니다. 즉, 긴 동영상을 생성할 때에도 비디오 메모리 요구 사항이 ...
일반 소개 Open-Sora는 누구나 고품질의 동영상을 효율적으로 생성할 수 있도록 설계된 오픈 소스 프로젝트입니다. 텍스트 또는 이미지에서 동영상을 생성하는 도구를 제공하기 위해 hpcaitech 팀에서 개발했으며, 다양한 해상도와 길이를 지원합니다. 이 프로젝트는 완전히 오픈 소스이며, 공개 모델 가중치를 사용합니다.
일반 소개 Chatlog는 WeChat의 로컬 데이터베이스에서 채팅 로그를 추출하고 쿼리하는 데 중점을 둔 오픈 소스 도구입니다. 이 도구는 WeChat 버전 3.x와 4.0을 지원하며, Windows와 macOS 시스템을 모두 포괄합니다. 사용자는 명령줄, 터미널 인터페이스 또는 H...
일반 소개 self.so는 이력서나 LinkedIn 프로필을 개인 웹사이트로 빠르게 전환하도록 설계된 오픈 소스 도구입니다. 사용자가 PDF 이력서를 업로드하거나 LinkedIn 링크를 입력하기만 하면 시스템이 AI 기술을 사용하여 개인 웹사이트로 변환합니다(Tog...
일반 소개 OmniSVG는 멀티모달 모델을 통해 고품질 벡터 그래픽(SVG)을 생성하는 데 중점을 둔 오픈 소스 프로젝트입니다. 사전 학습된 시각 언어 모델을 사용하여 텍스트 설명이나 이미지 입력에서 SVG 생성을 지원하며, 간단한 아이콘부터 복잡한 애니메이션 캐릭터까지 다양한 시나리오를 다룹니다. 항목 ...
일반 소개 Napkins.dev는 무료 오픈 소스 프로젝트로, 핵심 기능은 사용자가 인터페이스 스크린샷이나 와이어프레임을 업로드하여 실행 가능한 프런트엔드 코드를 자동으로 생성할 수 있도록 하는 것입니다. 사용자는 디자인 도면만 제공하면 되며, 도구는 Llama 4 모델(Together ...
개요 오리온은 샤오미 연구소에서 개발한 오픈 소스 프로젝트로, 엔드투엔드(E2E) 자율주행 기술에 중점을 두고 있습니다. 시각적 언어 모델링(VLM)과 생성 플래너를 통해 기존 자율 주행 방식의 복잡한 시나리오에서 인과 추론이 불충분한 문제를 해결하며, 오리온은 긴 ...
일반 소개 ReCamMaster는 오픈 소스 동영상 처리 도구로, 핵심 기능은 단일 동영상에서 새로운 카메라 뷰를 생성하는 것입니다. 사용자는 카메라 트랙을 지정하고 비디오를 다시 렌더링하여 다양한 각도의 역동적인 영상을 얻을 수 있습니다. 절강대학교와 레이서 테크놀로지 팀이 개발한 이 도구는 텍스트-투-텍스트를 기반으로 합니다.
일반 소개 A2A(에이전트2에이전트)는 서로 다른 프레임워크 또는 공급업체에서 개발한 인공지능이 서로 통신하고 협업할 수 있도록 Google에서 개발한 오픈 소스 프로토콜입니다. 이 프로토콜은 지능이 서로의 기능을 발견하고 작업을 공유하며 작업을 완료할 수 있는 표준화된 방법 세트를 제공합니다.
일반 소개 LM Speed는 AI 개발자를 위해 특별히 설계된 도구로, lmspeed.net에서 온라인 서비스로도 제공됩니다. 핵심 기능은 언어 모델 API의 성능을 테스트하고 분석하여 사용자가 속도 병목 현상을 빠르게 식별하고 호출 전략을 최적화할 수 있도록 돕는 것입니다. 이...
일반 소개 TestDriver는 인공 지능 기술을 사용하여 개발자가 소프트웨어를 테스트할 수 있도록 도와주는 웹사이트입니다. 마우스를 클릭하거나 텍스트를 입력하는 등 사람의 동작을 시뮬레이션하여 소프트웨어 테스트 작업을 자동화합니다. 이 사이트의 중심에는 실제 사람처럼 작동하는 'AI 에이전트를 사용하는 컴퓨터'가 있습니다....
종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...
종합 소개 WeClone은 대규모 언어 모델 및 음성 합성 기술과 결합된 WeChat 채팅 로그와 음성 메시지를 사용하여 사용자가 개인화된 디지털 도플갱어를 만들 수 있는 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자의 채팅 습관을 분석하여 모델을 훈련시킬 뿐만 아니라 소수의 음성 샘플로 사실적인 소리를 생성할 수 있습니다....
포괄적인 소개 KrillinAI는 인공 지능을 사용하여 사용자가 동영상을 번역하고 자동으로 더빙하는 데 중점을 둔 오픈 소스 동영상 처리 도구입니다. 동영상 다운로드부터 다양한 플랫폼에 적합한 완제품 생성까지 모든 과정을 단 몇 번의 클릭만으로 진행할 수 있습니다. 개발자는 깃허브에서 확인할 수 있습니다...
AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.