일반 설명 BlinkShot은 오픈 소스 실시간 AI 이미지 생성기로, Together AI와 Flux Schnell 기술을 활용하여 사용자가 프롬프트에 입력하는 대로 고품질 이미지를 생성할 수 있습니다. 이 플랫폼은 완전 무료이며 사용자 커스터마이징과 2차 오픈을 지원합니다.
종합 소개 MoneyPrinterPlus는 AI 기술을 통해 한 번의 클릭으로 모든 종류의 짧은 동영상을 생성 및 믹싱하여 Jieyin, Shutterbugs, Xiaohongshu, Video Number 등 여러 동영상 플랫폼에 자동으로 게시하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 도구는 채팅을 포함한 로컬 및 클라우드 기반 음성 모델을 지원합니다.
포괄적 인 소개 이것은 Novel이라고 불리는 Steven Tey가 개발 한 오픈 소스 프로젝트로, 사용자가 텍스트 입력의 효율성을 향상시키는 데 도움이되는 통합 AI 자동 완성 기능인 Notion 스타일 WYSIWYG 텍스트 편집기입니다. 이 프로젝트는 자세한 문서 및 설치 지침을 제공합니다 ...
일반 설명 Clone Voice는 오픈 소스 사운드 복제 도구로, 사용자가 모든 사운드 또는 개인 음성 녹음을 사용하여 음성을 복제할 수 있는 웹 기반 인터페이스를 제공합니다. 이 도구는 NVIDIA GPU가 없어도 쉽게 사용할 수 있으며, 사전 컴파일된 앱과 함께 사용할 수 있습니다.
일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
일반 소개 KGGen은 스탠포드 신뢰 인공 지능 연구소(STAIR Lab)에서 개발한 오픈 소스 도구로, GitHub에서 호스팅되며 임의의 텍스트로부터 지식 그래프를 자동으로 생성하도록 설계되었습니다. 고급 언어 모델링 및 클러스터링 알고리즘을 사용하여 구조화되지 않은 텍스트를 ...
일반 소개 WeChatMsg는 GitHub 플랫폼에 있는 오픈 소스 프로젝트입니다. 이 도구는 WeChat 사용자에게 WeChat 채팅을 다양한 문서(HTML, Word, CSV)로 추출 및 내보낼 수 있는 방법을 제공하고 채팅 데이터 시각화 연례 보고서 생성을 지원하는 것을 목표로 합니다.
포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...
종합 소개 Dify-WebUI는 기업에 강력한 AI 대화 기능을 제공하도록 설계된 Dify API 기반의 최신 데스크톱 지능형 대화 애플리케이션입니다. 이 애플리케이션은 기업의 개별 요구 사항을 충족하기 위해 다양한 사전 설정 테마 색상을 지원하며 지식 기반 관리 기능을 통해 다음을 지원합니다.
일반 소개 OpenManus는 사용자가 간단한 설정으로 로컬에서 인텔리전스를 실행하여 다양한 창의적인 아이디어를 실현할 수 있도록 설계된 오픈 소스 프로젝트입니다. MetaGPT 커뮤니티 회원인 @mannaandpoem, @XiangJinyu, @Mos...가 개발했습니다.
종합 소개 CrewAI는 롤플레잉과 자율 AI 에이전트 간의 협업을 조율하도록 설계된 고급 프레임워크입니다. CrewAI는 협업 인텔리전스를 촉진함으로써 에이전트들이 원활하게 협력하여 복잡한 작업을 해결할 수 있도록 지원합니다. 지능형 어시스턴트 플랫폼을 구축하든, 고객 서비스 팀을 자동화하든, 멀티 에이전트를 구축하든 관계없이...
일반 소개 GPT Academic은 학술 연구에 최적화된 대규모 언어 모델을 위한 대화형 플랫폼으로, 특히 논문 번역, 논문 읽기, 다듬기 및 쓰기 경험에 최적화된 GPT/GLM과 같은 대규모 언어 모델에 실용적인 대화형 인터페이스를 위한 도구를 제공합니다. 모듈식 디자인을 사용합니다...
개요 Easy-Voice-Toolkit은 오픈 소스 음성 프로젝트에 기반한 다기능 툴킷으로 음성 인식, 음성 전사, 음성 변환, 데이터 세트 생성 및 모델 학습을 위한 다양한 자동화된 오디오 도구를 제공합니다. 사용자는 필요에 따라 이러한 도구를 선택적으로 사용할 수 있습니다...
개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.
일반 소개 OpenAI Edge TTS는 OpenAI와 호환되는 네이티브 TTS(텍스트 음성 변환) API를 제공하는 오픈 소스 프로젝트로, 이 프로젝트는 Microsoft Edge의 온라인 텍스트 음성 변환 서비스를 사용하여 사용자가 고품질의 음성 변환을 생성할 수 있도록 합니다.
일반 소개 Mahilo는 오픈 소스 다중 지능 통합 플랫폼으로, 개발자 Jayesh Sharma가 GitHub에 공개했으며, 사용자가 서로 다른 프레임워크의 AI 지능을 연결하여 실시간 커뮤니케이션, 인간과 컴퓨터의 상호작용, 지능형 협업을 지원할 수 있도록 설계되었습니다. The ...
일반 소개 Llasa-3B는 홍콩과학기술대학교 오디오 랩(HKUST Audio)에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 여러 언어를 지원할 뿐만 아니라 고품질 음성 생성을 제공하도록 세심하게 튜닝된 Llama 3.2B 아키텍처를 기반으로 합니다.
일반 설명 SynthLight는 확산 모델에 기반한 인물 사진 재조명 도구입니다. 합성 얼굴 이미지를 다시 렌더링하여 실제 인물 사진에 조명 효과를 조정하는 방법을 학습합니다. 이 도구는 물리적 렌더링 엔진을 사용하여 다양한 조명 조건에서 조명 변환을 시뮬레이션하는 데이터 세트를 생성합니다....
포괄적 인 소개 PDF-Extract-Kit은 복잡하고 다양한 PDF 문서에서 고품질 콘텐츠를 효율적으로 추출하는 데 중점을두고 OpenDataLab 팀에서 개발 한 오픈 소스 프로젝트입니다. 고급 문서 구문 분석 기술을 통합하여 레이아웃 감지, 수식 인식을 지원합니다 ...
개요 AiPPT는 인공지능 기술을 기반으로 한 PPT 생성 도구로, 사용자가 전문적인 프레젠테이션을 빠르게 만들 수 있도록 설계되었습니다. 테마 입력, 파일 업로드 또는 URL 제공 등을 통해 콘텐츠가 풍부하고 아름답게 디자인된 슬라이드를 자동으로 생성합니다. 기본 차트, 애니메이션 및 3D 특수 효과를 지원합니다.
일반 소개 NarratoAI는 영화 및 비디오 내레이션, 자동 편집, 더빙 및 자막 생성을 통합하는 완전 자동화된 도구입니다. 대규모 언어 모델링(LLM) 기술을 사용하여 자동으로 카피를 생성하고 해당 음성 해설 및 자막이 포함된 비디오를 자동으로 편집하여 사용자에게 원스톱 서비스를 제공합니다.
일반 소개 YuE는 가사를 전체 곡으로 변환하는 데 중점을 둔 오픈 소스 전체 곡 생성 기본 모델입니다. 비보컬 음악의 짧은 스니펫만 생성하는 다른 모델과 달리 YuE는 최대 몇 분 길이의 리드 보컬과 백 보컬이 포함된 전체 곡을 생성할 수 있습니다. 이 모델은 음악 생성을 ...
개요 PromptWizard는 Microsoft에서 개발한 오픈 소스 프레임워크로, 모델이 스스로 프롬프트 단어를 생성, 평가 및 개선하고 예제를 생성하여 지속적인 피드백을 통해 출력 품질을 개선할 수 있는 자체 진화 메커니즘을 사용합니다. 프롬프트 단어를 자율적으로 최적화하고 적절한 예제를 생성 및 선택할 수 있으며, ...
일반 소개 NocoDB는 강력하고 사용하기 쉬운 온라인 데이터베이스 관리 도구를 제공하도록 설계된 오픈 소스 Airtable의 대안입니다. NocoDB를 사용하면 코드를 작성하지 않고도 데이터베이스에서 데이터를 쉽게 생성, 읽기, 업데이트 및 삭제할 수 있습니다. 이 플랫폼은 다음을 지원합니다.
종합 소개 Marco-o1은 복잡한 현실 세계의 문제를 해결하기 위해 알리바바 국제 디지털 커머스 그룹(AIDC-AI)에서 개발한 개방형 추론 모델입니다. 이 모델은 생각의 사슬(CoT) 미세 조정, 몬테카를로 트리 검색(MCTS), 혁신적인 추론 전략을 결합합니다...
종합 소개 Easegen은 AI 기술을 통해 교육 콘텐츠 제작 및 관리의 효율성을 높이는 것을 목표로 하는 오픈 소스 디지털 휴먼 코스 제작 플랫폼입니다. 이 플랫폼은 코스 제작, 비디오 관리, 지능형 질문까지 원스톱 솔루션을 제공하여 사용자가 디지털 휴먼 설명 비디오 코스를 제작할 수 있도록 지원합니다.
포괄적 인 소개 ChatOllama는 대규모 언어 모델 (LLM)을 기반으로하는 오픈 소스 온라인 채팅 응용 프로그램 프로젝트로 수많은 언어 모델과 지식 기반 관리를 지원합니다. 사용자는 모델 관리(목록 표시, 다운로드, 삭제), 모델과의 채팅 및 기타 기능을 위해 플랫폼을 사용할 수 있습니다. 이 프로젝트는 ...
일반 소개 Pocket AI(PocketPal AI 중국어 버전)는 사용자가 언제 어디서나 AI와 대화할 수 있도록 설계된 강력한 오프라인 AI 어시스턴트입니다. 소언어 모델(SLM)을 기반으로 하며 인터넷 연결 없이 휴대폰에서 실행되며 특히 중국 사용자 경험에 맞게 조정되었습니다. 입...
일반 소개 MJML(메일 정션 마크업 언어)은 반응형 이메일 템플릿 생성을 간소화하기 위해 Mailjet 팀에서 개발한 오픈 소스 프레임워크입니다. 시맨틱 마크업 언어와 풍부한 구성 요소 라이브러리를 통해 개발자는 더 적은 코드를 사용하여 아름답고 강력한 이메일을 효율적으로 만들 수 있습니다.
종합 소개 Ant Design X는 개발자가 AI 기반 대화 인터페이스를 빠르게 구축할 수 있도록 설계된 Ant Group에서 오픈소스화한 툴킷입니다. 풍부한 구성 요소와 템플릿 세트를 제공하고 OpenAI 표준과 호환되는 모델 통합을 지원하며 지능형 고객 서비스, AI 어시스턴트 등 다양한 애플리케이션에 적합합니다.
일반 소개 UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호 작용을 할 수 있습니다.UI-TAR...
종합 소개 Goku는 업계 최고 수준의 성능을 달성하도록 설계된 스트림 변환 기술을 기반으로 한 연합 이미지 및 동영상 생성 모델입니다. 세분화된 데이터 대조, 모델 디자인, 스트림 변환 공식화 등 고급 고품질 시각적 생성 기술을 통합하고 있으며, Goku의 주요 기능으로는 고품질의 세분화된...
일반 소개 OpenWebUI-Monitor는 OpenWebUI 사용자 활동을 모니터링하고 사용량 할당량을 관리하기 위한 대시보드입니다. 사용자 할당량을 효율적으로 설정하고, 사용자 데이터와 시각적 정보를 실시간으로 볼 수 있으며, 원클릭 배포를 지원하고, 사용자 관리 및 모니터링을 용이하게 합니다.
드림톡 종합 소개 드림톡은 칭화대학교, 알리바바 그룹, 화중과학기술대학교가 공동으로 개발한 확산 모델 기반 표정 토킹 헤드 생성 프레임워크입니다. 주로 노이즈 감소 네트워크, 스타일 인식 립 전문가, 스타일 예측기의 세 부분으로 구성되어 있으며, 다음을 기반으로 할 수 있습니다.
일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...
일반 소개 AI 팟캐스트 생성기는 고급 AI 기술을 사용하여 웹 소스에서 매력적인 오디오 콘텐츠를 자동으로 생성하는 지능형 팟캐스트 생성 도구입니다. 이 시스템은 뉴스 콘텐츠를 캡처하여 오디오 팟캐스트로 변환함으로써 자연스럽게 흐르는 내러티브를 생성합니다. 이 프로젝트는 다음...
일반 소개 AutoAgent는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 인텔리전스 프레임워크로, 사용자가 프로그래밍 기반 없이 순수 자연어로 요구 사항을 설명하여 맞춤형 AI 인텔리전스를 빠르게 생성하고 배포할 수 있습니다....
일반 소개 WrenAI는 데이터 팀, 제품 팀, 비즈니스 팀이 자연어 대화를 통해 데이터 인사이트를 얻을 수 있도록 특별히 설계된 오픈 소스 SQL AI 어시스턴트입니다. 자연어를 SQL 쿼리로 변환하고, 차트, 스프레드시트 및 보고서를 생성하고, 다국어를 지원할 수 있습니다.
종합 소개 Linly-Dubbing은 고급 AI 기술을 통합하여 사용자에게 고품질의 다국어 동영상 더빙 및 자막 번역 서비스를 제공하도록 설계된 지능형 다국어 AI 더빙 및 번역 도구입니다. 이 도구는 특히 국제 교육, 글로벌 콘텐츠 로컬라이제이션 및 기타 시나리오에 적합하며 다음을 지원합니다.
표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).
포괄적인 소개 PhiData는 지능형 AI 어시스턴트 개발을 위해 설계된 프레임워크입니다. 향상된 메모리, 지식 통합 및 도구 호출 기능을 통해 AI 어시스턴트가 장기적인 대화에 참여하고, 정확한 비즈니스 컨텍스트를 제공하며, 다양한 작업을 수행할 수 있도록 지원합니다.PhiData는 AI 어시스턴트의 기능을 향상시킬 뿐만 아니라...
일반 소개 마이크로 에이전트는 Builder.io에서 개발한 오픈 소스 AI 코딩 도우미로, 개발자에게 코드를 자동으로 생성하고 테스트할 수 있는 기능을 제공하도록 설계되었습니다. 자연어 설명을 이해하여 테스트 케이스를 생성하고 모든 테스트가 통과할 때까지 코드를 반복하여 오픈 ...