AI 오픈 소스 프로젝트

총 1020개 문서

순서대로 정렬

훑어보기 북마크(인터넷)

커서를 사용하여 Figma 디자인을 읽고 수정할 수 있는 MCP 서비스입니다.

일반 소개 커서 토크 투 피그마 MCP는 AI 프로그래밍 도구 커서와 디자인 소프트웨어 피그마를 연결하는 오픈 소스 프로젝트입니다....

1 년 전

095.1K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP 서버: MCP 프로토콜을 기반으로 다양한 콘텐츠를 마크다운 형식으로 변환합니다.

일반 소개 마크다운파이 MCP 서버는 모델 컨텍스트 프로토콜을 기반으로 하는 오픈 소스 도구로, 개발자 Zach Caceres가 GitHub에서 호스팅합니다 ...

1 년 전

095.1K

핀로봇: 금융 데이터 분석 효율성과 투자 리서치를 개선하는 지능형 기관

종합 소개 FinRobot은 AI4Finance Foundation에서 개발한 오픈 소스 AI 인텔리전스 플랫폼으로, 금융 분석을 위해 설계되었습니다. 전통적인 언어 모델뿐만 아니라 다양한 AI 기술을 통합하여 금융 산업을 위한 포괄적인 솔루션을 제공하는 것을 목표로 합니다.F....

1 년 전

095K

RoomGPT: 객실 사진을 업로드하고 AI를 사용하여 다시 디자인하세요!

일반 소개 RoomGPT는 사용자가 방 사진을 업로드하고 인공지능 기술을 사용하여 새롭게 디자인된 버전을 생성할 수 있는 GitHub 사용자 Nutlope가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자가 비싼 디자이너 비용 없이 전문가 수준의 인테리어 디자인을 이용할 수 있도록 하는 것을 목표로 합니다....

2 년 전

095K

LangBot：开源大模型即时通信机器人，支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: 오픈 소스 대형 모델 인스턴트 메시징 로봇, 여러 WeChat, QQ, Flybook 및 기타 멀티 플랫폼 배포를 지원하는 AI 로봇.

LangBot은 여러 메시징 플랫폼과 대형 모델을 지원하는 대형 모델 기반 인스턴트 메시징 봇 플랫폼입니다. 이 플랫폼은 QQ, 위챗(기업용 위챗, 개인용 위챗), 플라이북, 디스코드, 원봇 및 기타 메시징 플랫폼에 맞게 조정되며, 오픈...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

095K

Kotaemon: 배포가 간편한 오픈 소스 멀티모달 문서 퀴즈 도구

일반 소개 코타에몬은 최종 사용자와 개발자에게 검색 증강 생성(RAG) 기반의 Q&A 기능을 제공하기 위해 설계된 오픈 소스 문서 Q&A 도구입니다. 이 프로젝트는 Cinnamon에서 개발했으며 다양한 LLM API 제공업체(예: OpenA...

2 년 전

094.7K

Aide: VSCode 개발 환경, 원클릭 주석, 변환 및 코드의 UI 생성을 향상시키는 AI 도우미 확장 프로그램입니다.

일반 소개 AIDE(AI 지원 개발 확장 프로그램)는 독특하고 유용한 AI 프로그래밍 지원을 제공하는 데 중점을 둔 VSCode용 강력한 AI 지원 개발 확장 프로그램입니다. GitHu와는 다릅니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

2 년 전

094.6K

AnyText: 다국어 이미지 텍스트를 생성하고 편집할 수 있으며, 이미지에 여러 줄의 중국어를 생성하도록 고도로 제어할 수 있습니다.

종합 소개 AnyText는 확산 모델을 기반으로 개발된 혁신적인 다국어 시각 텍스트 생성 및 편집 도구입니다. 이미지에서 자연스러운 고품질 다국어 텍스트를 생성하고 유연한 텍스트 편집 기능을 지원합니다. 연구팀이 개발하여 ICLR 2024에서 발표했습니다...

2 년 전

094.6K

TxAgent: 의사가 약물 효과와 치료 옵션을 분석하는 데 도움을 주는 AI 도구

종합 소개 TxAgent는 의사가 약물 상호작용을 분석하고 맞춤형 치료 계획을 개발할 수 있도록 하버드 대학교의 의료 및 과학 인공 지능 팀(MIMS)에서 개발한 오픈 소스 AI 도구입니다. 다단계 추론과 생의학 지식의 실시간 검색을 통해 환자별 상황을 결합하여...

1 년 전

094.6K

플라잉 패들 PP-TableMagic: 복잡한 테이블을 위한 구조화된 정보 추출

표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).

1 년 전

094.6K

PandasAI: 자연어로 데이터 쿼리 및 차트 생성을 위한 데이터 분석 대화 플랫폼

일반 소개 PandasAI는 자연어 처리 기술을 통해 데이터 분석 프로세스를 간소화하도록 설계된 Python 기반 오픈 소스 플랫폼입니다. 사용자가 데이터베이스(예: SQL, CSV, 판다, 폴라, 몽고DB, ...)와의 대화를 통해 작업할 수 있도록 지원합니다.

2 년 전

094.5K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Fish Agent: 엔드투엔드 AI 음성 복제 어시스턴트, 실시간 음성 대화 어시스턴트, Fish Speech 스핀오프 프로젝트

종합 소개 물고기 음성 파생 프로젝트 물고기 에이전트는 V0.1 3B 모델 아키텍처를 기반으로 개발된 혁신적인 엔드투엔드 AI 음성 복제 시스템입니다. 완전한 엔드투엔드 음성 복제 처리 시스템으로서, 가장 중요한 특징은 혁신적인 말없는 ...

2 년 전

094.4K

Eko: 데스크톱 및 브라우저 자동화를 위한 지능형 바디 워크플로 구축 자연어

일반 소개 Eko는 자연어 설명을 통해 효율적인 지능형 에이전트 워크플로우를 구축하도록 설계된 프로덕션급 자바스크립트 프레임워크입니다. 개발자가 심층적인 프로그래밍 없이도 AI 기술을 사용하여 일상적인 작업을 자동화할 수 있도록 설계되었으며, Eko는 단일 ...

1 년 전

094.2K

R1-V: 시각 언어 모델의 일반화 기능을 위한 저비용 강화 학습

종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

094.2K

HyperChat: MCP 인텔리전스를 사용하여 복잡한 작업을 수행하는 AI 대화 클라이언트

일반 소개 HyperChat은 BigSweetPotatoStudio에서 개발하고 GitHub에서 호스팅하는 오픈 소스 채팅 클라이언트로, OpenAI, Cla... 등 여러 대형 언어 모델(LLM)의 API를 통합하여 BigSweetPotatoStudio 언어 모델에 대한 포괄적인 개요를 제공하도록 설계되었습니다.

1 년 전

094.1K

자동 에이전트: 자연어를 통해 AI 인텔리전스를 신속하게 생성 및 배포하기 위한 프레임워크

일반 소개 AutoAgent는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 인텔리전스 프레임워크로, 사용자가 프로그래밍 기반 없이 순수 자연어로 요구 사항을 설명하여 맞춤형 AI 인텔리전스를 빠르게 생성하고 배포할 수 있습니다....

1 년 전

094.1K

uni-api：轻量大模型API转换为OpenAI接口，YAML文件配置API渠道

uni-api: OpenAI 인터페이스로 변환된 경량 빅 모델 API, API 채널을 구성하기 위한 YAML 파일

포괄적인 소개 프런트엔드, 순수 구성 파일 구성 API 채널이 없습니다. 파일을 작성하기 만하면 자체 API 스테이션을 실행할 수 있으며 문서에는 흰색 친화적 인 자세한 구성 가이드가 있습니다. uni-api는 대규모 모델 API 프로젝트의 통합 관리로, 통합 된 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

094.1K

openapi-mcp-server: AI가 오픈 API로 MCP 서비스를 직접 호출할 수 있도록 지원

일반 소개 openapi-mcp-server는 OpenAPI v3.1 호환 API를 AI에서 사용 가능한 리소스로 변환하도록 설계된 오픈 소스 도구입니다. 이 도구는 janwilmake에 의해 유지 관리되며 Model Contex...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # MCP 서비스

1 년 전

094K

VideoRAG: 멀티모달 검색 및 지식 그래프 구성을 지원하여 매우 긴 동영상을 이해하기 위한 RAG 프레임워크입니다.

포괄적인 소개 VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하도록 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 효율적으로 처리합니다....

1 년 전

094K

Perplexica：1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

퍼플렉시카: 퍼플렉시 AI의 기능과 인터페이스를 1:1로 복제하는 오픈 소스 AI 검색 엔진

일반 소개 퍼플렉시카는 인터넷을 깊이 파고드는 답변을 제공하도록 설계된 오픈 소스 AI 기반 검색 엔진입니다. 유사성 검색 및 임베딩 기술과 같은 고급 머신 러닝 알고리즘을 사용하여 검색 결과를 최적화하고 인용된 출처와 함께 명확한 답변을 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

2 년 전

093.9K

제네시스: 실제 물리 기반의 4D 동적 월드 시뮬레이션을 위한 오픈 소스 제너레이티브 물리 엔진

일반 소개 Genesis는 범용 로봇 공학 및 구현형 AI 학습을 위해 설계된 제너레이티브 물리 세계입니다. 다양한 재료와 물리 현상의 시뮬레이션을 지원하는 통합 시뮬레이션 플랫폼을 제공하며, 제네시스는 제너레이티브 AI와 물리 시뮬레이션을 결합하여...

2 년 전

093.8K

InfiniteYou: 얼굴 특징을 보존하는 사진 생성 및 편집 도구

일반 소개 인피니트유는 바이트댄스 인텔리전트 크리에이션 팀에서 개발한 오픈소스 프로젝트입니다. FLUX.1-dev 모델을 사용하는 확산 트랜스포머(DiT) 기술을 기반으로 하며, 핵심 기능은 사용자가 사진을 업로드하고 텍스트 설명을 입력하여 생성할 수 있도록 하는 것입니다.

1 년 전

093.8K

실시간 음성 텍스트 변환을 위한 오픈 소스 도구

일반 소개 실시간 트랜스크립션-fastrtc는 음성을 실시간으로 텍스트로 변환하는 데 중점을 둔 오픈 소스 프로젝트입니다. FastRTC 기술을 사용하여 지연 시간이 짧은 오디오 스트림을 처리하고 로컬 Whisper 모델과 결합하여 효율적인 ...

1 년 전

093.6K

LM 속도: 대규모 모델 API 성능의 신속한 테스트

일반 소개 LM Speed는 AI 개발자를 위해 특별히 설계된 도구로, lmspeed.net에서 온라인 서비스로도 제공됩니다. 핵심 기능은 언어 모델 API의 성능을 테스트하고 분석하여 사용자가 속도 병목 현상을 빠르게 식별하고 호출 전략을 최적화할 수 있도록 돕는 것입니다. 이...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

093.6K

Morphik Core: 멀티모달 데이터 처리를 위한 오픈소스 RAG 플랫폼

일반 소개 모픽 코어는 morphik-org 팀에서 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트입니다. 예전에는 DataBridge Core라고 불렸지만 지금은 Morphik Core로 이름이 변경되었습니다.

1 년 전

093.5K

OpenAOE: 대규모 모델 그룹 채팅 프레임워크: 여러 개의 대규모 언어 모델과 동시에 채팅하기

종합 소개 OpenAOE는 오픈 소스 대규모 모델 그룹 채팅 프레임워크로, 현재 시장에 여러 모델이 병렬로 응답하는 채팅 프레임워크가 부족한 문제를 해결하기 위해 개발되었습니다. OpenAOE를 사용하면 사용자는 여러 LLM(대규모 언어 모델)과 동시에 대화하고 병렬 출력을 얻을 수 있습니다. 이 프레임워크는 다음을 지원합니다.

1 년 전

093.5K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.

일반 소개 MegaParse는 대규모 언어 모델(LLM)의 데이터 처리를 최적화하도록 설계된 강력하고 다재다능한 문서 구문 분석 도구입니다. 텍스트, PDF, PowerPoint 프레젠테이션, Word 문서 등 어떤 작업을 하든 MegaParse...

2 년 전

093.3K

AI Chatbot Supabase：开源的Next.js和Supabase构建的AI聊天机器人，快速部署到Vercel。

AI 챗봇 Supabase: 오픈 소스 Next.js와 Supabase는 Vercel에 신속하게 배포할 수 있도록 AI 챗봇을 구축했습니다.

일반 소개 AI 챗봇 수파베이스는 Next.js와 수파베이스를 기반으로 구축된 오픈 소스 AI 챗봇 템플릿입니다. Vercel에서 개발한 이 프로젝트는 완전한 기능을 갖춘 사용자 지정 가능한 챗봇 솔루션을 제공하는 것을 목표로 합니다. 작성자 ...

2 년 전

093.3K

LlamaCoder: 프롬프트 단어를 사용하여 작은 웹 애플리케이션을 빠르게 생성 및 게시하기

일반 소개 라마코더는 라마 3.1과 Together AI를 기반으로 하는 오픈 소스 코드 생성 도구입니다. 간단한 프롬프트로 작은 애플리케이션을 생성할 수 있어 개발자가 아이디어를 빠르게 실현하는 데 적합합니다.LlamaCoder는 ...

2 년 전

093.2K

올리바: 음성 제어 다중 지능 제품 검색 도우미

일반 소개 Oliva는 GitHub의 Deluxer에서 개발한 오픈 소스 다중 지능 지원 도구입니다. 여러 AI 지능의 협업을 통해 사용자가 Qdrant 데이터베이스에서 제품 정보를 검색할 수 있도록 도와줍니다. 주요 특징은 음성 조작을 지원한다는 것입니다...

1 년 전

093.2K

WeClone: WeChat 채팅 로그와 음성으로 디지털 도플갱어 훈련하기

종합 소개 WeClone은 대규모 언어 모델 및 음성 합성 기술과 결합된 WeChat 채팅 로그와 음성 메시지를 사용하여 사용자가 개인화된 디지털 도플갱어를 만들 수 있는 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자의 채팅 습관을 분석하여 모델을 훈련시킬 뿐만 아니라 소수의 음성 샘플로 사실적인 소리를 생성할 수 있습니다....

1 년 전

093.2K

修复无效JSON字符串，解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

잘못된 JSON 문자열을 수정하고 LLM에서 생성된 JSON 데이터에서 발생할 수 있는 서식 지정 오류를 해결합니다.

일반 설명 잘못된 JSON 파일을 수정하는 모듈로, 특히 LLM(대규모 언어 모델)에서 출력되는 잘못된 JSON 데이터를 구문 분석하기 위한 모듈입니다. 이 모듈은 따옴표 누락, 잘못된 쉼표, 이스케이프되지 않은 문자 및 불완전한 키-값과 같은 일반적인 JSON 구문 오류를 수정합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

093.2K

X-Kit: X 사용자 데이터 및 트윗을 위한 트위터 데이터 크롤링 및 애널리틱스

일반 소개 X-Kit은 X(이전의 트위터) 사용자 데이터와 트윗을 크롤링하고 분석하기 위해 설계된 오픈 소스 도구입니다. GitHub 사용자 xiaoxiunique가 개발한 이 도구는 사용자가 특정 X 사용자에 대한 기본 정보와 트윗을 얻는 프로세스를 자동화할 수 있도록 설계되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

093.2K

MyCoder: 코드를 자동으로 수정하고 테스트 케이스를 생성하는 명령줄 AI 도구

일반 소개 MyCoder는 드라이브코어 팀이 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트로, 개발자에게 명령줄 인터페이스를 통해 지능형 프로그래밍 지원을 제공하는 것을 목표로 합니다. Anthropic의 Claude AP를 기반으로 합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

093.2K

CapsWriter-Offline: PC용 음성 입력 및 자막 전사 도구

일반 소개 CapsWriter-Offline은 GitHub에서 호스팅되고 개발자 HaujetZhao가 만든 PC용 음성 입력 및 자막 전사 도구입니다. 완전히 오프라인으로 실행되며 음성-텍스트 및 시청각 텍스트 변환을 위해 인터넷 연결이 필요하지 않습니다.

1 년 전

093.1K

Vercel AI SDK: 널리 사용되는 프런트엔드 프레임워크로 AI 기반 애플리케이션 구축

일반 소개 Vercel AI SDK는 개발자가 React, Svelte, Vue 및 Solid와 같은 프레임워크를 사용하여 AI 애플리케이션을 구축할 수 있도록 Vercel 팀에서 개발한 오픈 소스 도구입니다. 여러 언어 모델 공급자를 지원합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

093.1K

타시어: 고품질 동영상 설명을 생성하기 위한 오픈 소스 동영상 이해 모델

종합 소개 Tarsier는 고품질 동영상 설명을 생성하기 위해 ByteDance에서 개발한 오픈 소스 동영상 언어 모델 제품군입니다. CLIP-ViT가 비디오 프레임을 처리하고 대규모 언어 모델(LLM)과 결합하여 분석하는 간단한 구조로 구성되어 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

093K

DeepClaude：融合DeepSeek R1链式推理与Claude创造力的聊天界面

딥클라우드: 딥시크 R1 체인 추론과 클로드 크리에이티브를 융합한 채팅 인터페이스

종합 소개 DeepClaude는 DeepSeek R1의 연쇄 추론(CoT) 기능과 Anthropic Claude 모델의 창의성 및 코드 생성을 통합한 고성능 LLM(대규모 언어 모델) 추론 API 및 채팅 인터페이스입니다....

2 년 전

093K

색상: 고품질 이미지 생성을 위한 텍스트-이미지 변환 모델, 중국어 포스터 생성 지원

종합 소개 컬러는 잠재적 확산 기법을 기반으로 Racer 팀에서 개발한 대규모 텍스트-이미지 생성 모델입니다. 이 모델은 수십억 개의 텍스트-이미지 데이터 쌍에 대해 학습되었으며 중국어와 영어 입력을 모두 지원하여 의미적으로 정확한 고품질의 복잡한 이미지를 생성할 수 있습니다.시각적 품질의 컬러...

2 년 전

092.9K

AgentGPT: 자동화된 AI 인텔리전스를 생성하고 실행하는 오픈 소스 프로젝트

일반 소개 AgentGPT는 사용자가 브라우저를 통해 자율적으로 AI 인텔리전스를 생성, 구성 및 배포할 수 있도록 설계된 오픈 소스 프로젝트로, Reworkd 팀에서 개발하여 GitHub에서 호스팅하고 있습니다. 사용자는 목표를 설정하기만 하면 AgentGPT는 다음을 수행할 수 있습니다.

1 년 전

092.9K

아마도: 데이터를 분석하고 차트를 생성하는 AI를 위한 오픈 소스 표 형식 도구

포괄적인 소개 아마도 PragmaticMachineLearning 팀에서 개발하여 GitHub에서 오픈소스로 제공되는 스프레드시트 도구로, 기존 스프레드시트의 기능과 강력한 AI 데이터 분석 기능을 결합한 것입니다. 그것은 사용을 지원할 뿐만 아니라 ...

1 년 전

092.9K

MegaTTS3: 중국어와 영어 음성 합성을 위한 경량 모델

종합 소개 MegaTTS3는 고품질 중국어 및 영어 음성 생성에 중점을 두고 절강대학교와 협력하여 바이트댄스가 개발한 오픈 소스 음성 합성 도구입니다. 핵심 모델은 가볍고 효율적인 0.45억 개의 파라미터로 중국어와 영어 혼합 음성 생성 및 음성 복제를 지원합니다. 프로젝트는 ...에서 호스팅됩니다.

1 년 전

092.8K

E2B 개방형 컴퓨터 사용: E2B 샌드박스에서 안전하게 AI 운영 체제 실행하기

일반 소개 E2B 개방형 컴퓨터 사용은 E2B 데스크톱 샌드박스를 통해 안전한 클라우드 기반 리눅스 컴퓨터 사용 경험을 제공하는 것을 목표로 하는 오픈 소스 프로젝트로, E2B 샌드박스는 사용자가 모든 대형 컴퓨터에 연결할 수 있는 데스크톱 그래픽 환경을 제공합니다.

2 년 전

092.8K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

모킹버드: 빠른 음성 복제 및 모델 학습, xtts v2 기반 텍스트 음성 변환

종합적인 소개 모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 모든 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows에서는 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

092.8K

AI2SRT: Gemini 모델을 사용하여 클릭 한 번으로 짧은 내레이션 동영상 또는 긴 동영상의 동영상 요약을 만듭니다.

개요 AI2SRT는 GeminiAI 빅 모델을 사용하여 한 번의 클릭으로 짧은 내레이션 동영상과 긴 동영상의 동영상 요약을 생성하는 동시에 오디오 및 동영상 전사 자막을 지원하는 오픈 소스 프로젝트입니다. 이 프로젝트는 동영상 콘텐츠 제작 과정을 간소화하고 효율적인 자막 생성 및 번역 기능을 제공하는 것을 목표로 합니다. 사용자는 통과할 수 있습니다...

2 년 전

092.8K

Orate: 잘 알려진 음성 생성, 음성 전사 및 음성 모델링을 통합하기 위한 통합 API

일반 소개 Orate는 음성 생성 및 트랜스크립션에 중점을 둔 AI 툴킷입니다. OpenAI, ElevenLabs, AssemblyAI와 같은 주요 AI 제공업체와 원활하게 통합되는 통합 API를 제공하여 사용자가 강제...

2 년 전

092.8K

LazyLLM: 다중 지능형 신체 애플리케이션을 구축하기 위한 상탕의 오픈 소스 로우코드 개발 도구

포괄적인 소개 LazyLLM은 LazyAGI 팀이 개발한 오픈 소스 도구로, 다중 지능 대규모 모델 애플리케이션의 개발 프로세스를 간소화하는 데 중점을 두고 있습니다. 개발자는 원클릭 배포와 가벼운 게이트웨이 메커니즘을 통해 복잡한 AI 애플리케이션을 빠르게 구축하여 지루한 엔지니어링 구성을 줄일 수 있습니다.

1 년 전

092.7K

인터페이스 포워딩을 지원하기 위해 Cloudflare에 허깅 페이스의 무료 API 배포하기

국내 배포는 허깅 페이스에 액세스할 수 없기 때문에 클라우드플레어 작업자에게 배포할 수 있도록 변환을 기반으로 한 빅 브라더 배포 프로그램에서 준비 1, 클라우드플레어 등록 2, 허깅 페이스 등록 ...

2 년 전

092.7K

OmniGen: 멀티모달 입력으로 캐릭터 일관성 있는 이미지를 생성하는 통합 이미지 생성 모델

일반 소개 OmniGen은 벡터스페이스랩에서 개발한 "범용" 이미지 생성 모델로, 간단한 텍스트 프롬프트 또는 멀티모달 입력으로 다양하고 맥락이 풍부한 비주얼을 생성할 수 있습니다. 특히 인식이 필요한 애플리케이션에 적합합니다...

2 년 전

092.7K

TheoremExplainAgent：利用 Manim 生成5分钟以上数学讲解动画视频

정리설명 에이전트: 마님으로 5분 이상의 애니메이션 수학 동영상을 제작하세요!

일반 소개 이론설명 에이전트는 복잡한 수학 및 과학 정리를 인공지능 기술을 사용하여 이해하기 쉬운 비디오 애니메이션으로 변환하기 위해 TIGER AI Lab에서 개발한 혁신적인 프로젝트입니다. 이 도구는 대규모 언어 모델(LLM...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

1 년 전

092.6K

PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

일반 소개 포토두들은 쇼랩에서 개발한 오픈 소스 이미지 편집 도구로, 인공지능 기술을 통한 사진의 예술적 편집에 중점을 두고 있습니다. 사용자는 간단한 텍스트 입력만으로 만화 스타일, 3D 효과, 빛을 실제 사진에 추가할 수 있습니다...

1 년 전

092.6K

Devika: 명령을 이해하고 하위 작업으로 분할하여 코드를 작성하는 오픈 소스 AI 소프트웨어 엔지니어 인텔리전스

일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....

1 년 전

092.5K

ell: 경량 기능적 큐 워드 엔지니어링 프레임워크

일반 소개 ell은 전 OpenAI 연구원 윌리엄 거스가 개발한 경량 함수형 언어 모델 프로그래밍 라이브러리입니다. 단순한 문자열이 아닌 프로그램으로 큐를 취급한다는 아이디어로 설계되었습니다. ell은 자동화된 버전 관리 및 직렬화 기능을 제공합니다.

1 년 전

092.5K

MarkItDown: 다양한 파일을 마크다운 형식으로 변환하는 Microsoft 문서 지능형 변환 도구

일반 소개 마크잇다운은 다양한 파일과 오피스 문서를 마크다운 형식으로 변환하기 위해 Microsoft에서 개발한 Python 도구입니다. 이 도구는 PDF, 파워포인트, 워드, 엑셀, 다이어그램 등 다양한 파일 형식을 지원합니다.

2 년 전

092.4K

QAnything: 고도로 통합된 RAG 프로세스를 갖춘 로컬 지식창고 Q&A 시스템

QAnything 종합 소개 QAnything(질문과 답변 기반)은 넷이즈에서 출시한 로컬 지식 기반 Q&A 시스템으로, 모든 종류의 파일 형식과 데이터베이스를 지원하며 오프라인에서 설치하여 사용할 수 있습니다.....

2 년 전

092.4K

위보: 자연어 대화 경험을 제공하는 실시간 음성 챗봇

일반 소개 위보는 오픈소스 실시간 음성 챗봇으로, 음성 인식을 위해 Whisper Small, 자연어 생성을 위해 Llama 3.2, 음성 합성을 위해 Kokoro-82M을 활용합니다. 이 프로젝트는 아만...

2 년 전

092.4K

PantoMatrix（EMAGE）：全身手势生成框架，从音频生成全身手势的3D动画框架

판토매트릭스(EMAGE): 전신 제스처 생성 프레임워크, 오디오에서 전신 제스처를 생성하는 3D 애니메이션 프레임워크

종합 소개 판토매트릭스는 얼굴, 신체 일부, 손, 전신 움직임을 포함한 오디오 및 부분 제스처로부터 사람의 완전한 움직임을 생성할 수 있는 고급 전신 제스처 생성 프레임워크입니다. 이 프레임워크는 최신 멀티모달 데이터 세트와 딥러닝 기술을 활용하여 고품질의 3D...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

092.4K

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

포괄적인 소개 NodeRAG는 GitHub에서 호스팅되고 Terry-Xu-666이 개발한 오픈 소스 검색 증강 생성(RAG) 시스템입니다. 이기종 그래프 구조를 통해 정보 검색 및 생성을 최적화하여 검색 정확도와 문맥 관련성을 크게 개선합니다.고개 끄덕임...

1 년 전

092.4K

Langui: AI 사용자 인터페이스 구성 요소의 오픈 소스 라이브러리

일반 소개 LangbaseInc의 Langui는 제너레이티브 AI 및 LLM(대규모 언어 모델링) 프로젝트를 위해 설계된 오픈 소스 사용자 인터페이스 컴포넌트 라이브러리입니다. 이 라이브러리는 Tailwind CSS를 기반으로 하며 개발자가 빠르게 구성할 수 있도록 미리 빌드된 UI 컴포넌트 모음을 제공합니다.

2 년 전

092.3K

Flow(Laminar): 작업을 간소화하고 유연하게 관리하는 빌딩 인텔리전스를 위한 경량 작업 엔진입니다.

포괄적인 소개 Flow는 단순성과 유연성에 중점을 두고 AI 에이전트 구축을 위해 설계된 경량 작업 엔진입니다. 기존의 노드 및 에지 기반 워크플로우와 달리 Flow는 병렬 실행, 동적 스케줄링 및 지능형 종속성 관리를 지원하는 동적 작업 대기열 시스템을 사용합니다. 핵심 개념은 ...

2 년 전

092.2K

Memary: 지식 그래프를 사용하여 에이전트의 장기 기억력을 향상시키는 오픈 소스 프로젝트

일반 소개 Memary는 자율 지능을 위한 장기 메모리 관리 솔루션을 제공하는 데 중점을 둔 혁신적인 오픈 소스 프로젝트입니다. 이 프로젝트는 지식 그래프와 특수 메모리 모듈을 통해 지능이 기존 컨텍스트 윈도우의 한계를 극복하고 더 스마트한 상호 작용 경험을 달성할 수 있도록 지원합니다.Memary는 ...

2 년 전

092.1K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini 커서: 보고, 듣고, 말할 수 있는 Gemini 기반의 AI 데스크톱 스마트 비서

일반 소개 Gemini Cursor는 Google의 Gemini 2.0 플래시(실험용) 모델을 기반으로 하는 데스크톱 지능형 어시스턴트입니다. 멀티모달 API를 통해 시각, 청각 및 음성 상호 작용을 지원하여 지연 시간이 짧은 실시간 사용...

1 년 전

092.1K

VoiceCraft: 오픈 소스 제로 샘플 음성 복제 및 텍스트 음성 변환 도구

개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

092K

FlashMLA：优化Hopper GPU的MLA解码内核（DeepSeek 开源周第一天）

FlashMLA: Hopper GPU를 위한 MLA 디코딩 커널 최적화(딥시크 오픈 소스 주간 1일차)

일반 소개 FlashMLA는 딥시크 AI에서 개발한 효율적인 MLA(멀티 헤드 잠재 주의) 디코딩 커널로, 엔비디아 호퍼 아키텍처 GPU에 최적화되었습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

091.9K

ANP: 지능형 에이전트 간의 안전하고 효율적인 통신을 위한 오픈 소스 프로토콜

일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

091.9K

빠른 에이전트: 다중 지능형 바디 워크플로를 빠르게 구축하기 위한 선언적 문법 및 MCP 통합

일반 소개 Fast-Agent는 개발자가 다중 지능 워크플로를 신속하게 정의, 테스트 및 구축할 수 있도록 설계된 GitHub의 평가 팀이 관리하는 오픈 소스 도구입니다. 이 도구는 간단한 선언적 구문을 기반으로 하며 MCP(모드...

1 년 전

091.8K

Idle Fish 판매자가 24시간 자동으로 유인하는 AI 고객 서비스 봇

종합 소개 XianyuAutoAgent는 개발자 shaxiu가 GitHub에서 오픈소스로 공개한 Idlefish 플랫폼용으로 설계된 지능형 고객 서비스 로봇 시스템입니다. AI 기술을 사용하여 7×24 시간 자동 근무를 수행하여 유휴 물고기 판매자가 응답할 수 있도록 지원합니다.

1 년 전

091.8K

드림톡: 하나의 아바타 이미지로 표현력 있는 토킹 동영상을 생성하세요!

드림톡 종합 소개 드림톡은 칭화대학교, 알리바바 그룹, 화중과학기술대학교가 공동으로 개발한 확산 모델 기반 표정 토킹 헤드 생성 프레임워크입니다. 주로 노이즈 감소 네트워크, 스타일 인식 립 전문가, 스타일 예측기의 세 부분으로 구성되어 있으며, 다음을 기반으로 할 수 있습니다.

2 년 전

091.7K

Zonos: 고품질 음성 합성 및 음성 복제 도구

일반 소개 Zonos는 Zyphra에서 개발한 오픈 소스 음성 합성 및 음성 복제 도구로, Zonos-v0.1 버전은 고급 트랜스포머 및 블렌딩 모델을 사용하여 고품질 음성 출력을 생성합니다. 이 도구는 여러 언어를 지원합니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

091.7K

간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

개요 Easy-Voice-Toolkit은 오픈 소스 음성 프로젝트에 기반한 다기능 툴킷으로 음성 인식, 음성 전사, 음성 변환, 데이터 세트 생성 및 모델 학습을 위한 다양한 자동화된 오디오 도구를 제공합니다. 사용자는 필요에 따라 이러한 도구를 선택적으로 사용할 수 있습니다...

2 년 전

091.6K

모델베스트: 세계 최고의 경량, 고성능 엔드사이드 빅 모델

일반 소개 ModelBest는 경량 고성능 대형 모델 개발에 주력하는 회사로, 첨단 AI 기술을 주류 가전제품 및 일상 생활의 모든 종류의 최종 장치에 적용하는 데 전념하고 있습니다. 극한의 연산 능력과 메모리 사용 효율을 갖춘 MiniCPM 시리즈 엔드 사이드 모델은 ...

2 년 전

091.6K

Parler-TTS: 입력 텍스트에서 화자별 텍스트 음성 변환 모델 생성

일반 소개 Parler-TTS는 고품질의 자연스러운 음성을 생성하도록 설계된 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)을 가진 입력 텍스트를 기반으로 음성을 생성할 수 있습니다.

1 년 전

091.6K

Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

일반 소개 Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 메타의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Ichigo의 목표는 다음과 같습니다.

2 년 전

091.6K

OWL: 현실적인 작업에서 다중 지능 협업을 위한 자동화된 도구

일반 소개 OWL(최적화된 인력 학습)은 실제 작업 자동화를 위한 다중 지능 협업 최적화에 중점을 두고 CAMEL-AI 팀이 개발한 오픈 소스 프레임워크입니다. CAMEL-AI 프레임워크에 기반한 ...

1 년 전

091.5K

Audiblez: 오디오북 생성, Kokoro로 전자책을 오디오북으로 변환하기

일반 소개 Audiblez는 전자책(예: .epub 형식)을 오디오북(예: .m4b 형식)으로 변환하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Kokoro의 고품질 음성 합성 기술을 활용하여 여러 언어와 여러 음성을 지원합니다. 사용자는 간단히...

2 년 전

091.5K

Research Rabbit：使用本地LLM进行网页研究和报告撰写，自动深入用户指定主题并生成总结。

Research Rabbit: 기본 LLM을 사용한 웹 조사 및 보고서 작성, 사용자가 지정한 주제로 자동 드릴다운하고 요약을 생성합니다.

일반 소개 리서치 래빗은 네이티브 LLM(대규모 언어 모델) 기반의 웹 리서치 및 요약 도우미입니다. 사용자가 연구 주제를 제공하면 Research Rabbit이 검색 쿼리를 생성하고 관련 웹 결과를 가져와서 이 결과를 요약해줍니다.

1 년 전

091.5K

Flock: 신속한 챗봇 구축을 위한 로우코드 워크플로 오케스트레이션

일반 소개 플록은 워크플로우를 위한 오픈 소스 로우코드 플랫폼으로, GitHub에서 호스팅되고 Onelevenvy 팀이 개발했습니다. LangChain과 LangGraph 기술을 기반으로 하며, 사용자가 채팅 머신을 빠르게 구축할 수 있도록 돕는 데 중점을 두고 있습니다.

1 년 전

091.5K

OASIS: 복잡한 사회 현상을 연구하기 위해 수백만 사용자의 소셜 미디어 상호 작용을 다중 지능으로 시뮬레이션합니다.

일반 소개 OASIS(오픈 에이전트 소셜 상호작용 시뮬레이션)는 최대 100만 명의 사용자의 행동을 시뮬레이션할 수 있는 오픈 소스 소셜 미디어 시뮬레이터입니다. 이 플랫폼은 대규모 언어 모델과 규칙 기반...

1 년 전

091.5K

Ant Design X：快速构建AI聊天界面的工具包，支持模型集成和数据流管理。

Ant Design X: 모델 통합 및 데이터 흐름 관리를 지원하여 AI 채팅 인터페이스를 빠르게 구축할 수 있는 툴킷입니다.

종합 소개 Ant Design X는 개발자가 AI 기반 대화 인터페이스를 빠르게 구축할 수 있도록 설계된 Ant Group에서 오픈소스화한 툴킷입니다. 풍부한 구성 요소와 템플릿 세트를 제공하고 OpenAI 표준과 호환되는 모델 통합을 지원하며 지능형 고객 서비스, AI 어시스턴트 등 다양한 애플리케이션에 적합합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

091.4K

데이터 포뮬레이터: AI 기반 데이터 시각화 도구

일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.

1 년 전

091.2K

G-Search-MCP: 무료 Google 검색을 위한 MCP 서버

일반 소개 G-Search-MCP는 GitHub에서 호스팅되는 오픈소스 Google 검색 도구로, 개발자 jae-jae가 구글 검색을 기반으로 수정한 것입니다. MCP(모델 컨텍스트...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # MCP 서비스

1 년 전

091.2K

Optexity: 사람의 시연을 통해 웹 작업을 수행하도록 AI를 훈련시키는 오픈 소스 프로젝트

일반 소개 옵텍스티는 옵텍스티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 다음과 같은 세 가지 코드 라이브러리가 포함되어 있습니다.

1 년 전

091.2K

MiniMind-V: 2600만 개의 파라메트릭 시각 언어 모델에 대한 1시간 교육

일반 소개 MiniMind-V는 사용자가 단 2600만 개의 파라미터로 1시간 이내에 경량 시각 언어 모델(VLM)을 학습할 수 있도록 설계된 오픈 소스 프로젝트로, GitHub에서 호스팅되고 있습니다. MiniMind 언어 모델을 기반으로 하며, 새로운 시각적 ...

1 년 전

091.2K

Leffa：高保真模特虚拟试穿与人物姿势调整，Meta开源的可控人物图像生成模型

레파: 고충실도 모델 가상 트라이얼 및 캐릭터 포즈 조정, 메타 오픈 소스 제어 캐릭터 이미지 생성 모델

개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.

2 년 전

091.2K

엄청나게 빠른 속삭임: 음성을 텍스트로 빠르고 효율적으로 전사하는 오픈 소스 프로젝트

종합 소개 엄청나게 빠른 속삭임은 OpenAI의 속삭임 모델과 다양한 최적화 기술(예: 트랜스포머, 옵티멈, 플래시 어텐션)을 결합한 오디오 전송...

2 년 전

091.1K

루이 모델: 렌즈 제어 및 모션 진폭 제어를 지원하는 이미지-투-비디오 오픈 소스 모델을 생성합니다.

일반 소개 Ruyi-Models는 이미지에서 고품질 동영상을 생성하도록 설계된 오픈 소스 프로젝트입니다. IamCreateAI 팀이 개발한 이 프로젝트는 768 해상도, 초당 24프레임, 5초에 120프레임의 시네마틱 비디오 생성을 지원합니다....

2 년 전

091K

OrionChat: 통합된 멀티 플랫폼 AI 모델을 갖춘 간단한 웹 채팅 인터페이스(배포 필요 없음)

일반 소개 오리온챗은 사용자에게 여러 주류 AI 모델과 상호 작용할 수 있는 통합 플랫폼을 제공하는 웹 기반 AI 채팅 인터페이스입니다. 이 프로젝트는 Ollama(로컬에서 실행), OpenAI GPT, Google Gemi... 등 다양한 AI 모델을 지원합니다.

2 년 전

091K

RapBank：根据歌词和伴奏直接生成说唱(Rap)人声的模型（目前开放了数据集）

랩뱅크: 가사와 백킹 트랙에서 랩(Rap) 보컬을 직접 생성하는 모델(현재 오픈 데이터 세트)

일반 소개 랩뱅크는 랩 가사 생성을 위해 설계된 데이터 세트 및 도구 세트입니다. 이 프로젝트는 연구자와 개발자에게 YouTube에서 랩 노래를 수집하고 처리하여 고품질의 랩 가사 데이터를 제공하기 위해 NZqian에서 만들었습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음악

2 년 전

090.9K

SegAnyMo: 동영상에서 임의의 움직이는 객체를 자동으로 분할하는 오픈 소스 도구

일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.

1 년 전

090.8K

보이스 체인저: 좋아하는 애니메이션 캐릭터가 노래하는 실시간 보이스 체인저!

일반 소개 보이스 체인저는 MMVC, so-vits-svc, RVC, DDSP-SVC 및 Beatrice와 같은 광범위한 AI 음성 모델을 지원하는 오픈 소스 실시간 음성 변환 도구입니다.이 도구는 여러 플랫폼과 호환됩니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

090.8K

Bilingual Book Maker：使用AI翻译制作双语电子书，全书自动化翻译工具

이중 언어 북 메이커: AI 번역을 사용하여 이중 언어 전자책, 전체 책 자동 번역 도구를 만들 수 있습니다.

일반 소개 이중 언어 북 메이커는 사용자가 AI 기술을 사용하여 다국어 버전의 전자책을 만들 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 주로 번역을 위해 ChatGPT를 사용하며 epub, txt 및 srt를 포함한 여러 파일 형식을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

090.7K

Fullmoon: 대규모 언어 모델 채팅을 위한 iOS 앱

일반 설명 풀문은 iOS 기기용으로 설계된 앱으로, 원어민 모델과 비공개로 대화할 수 있는 기능을 제공하는 것을 목표로 합니다. 이 앱은 Apple 실리콘에 최적화되어 있으며 iPhone, iPad 및 Mac에서 지원됩니다. 채팅 사용자...

2 년 전

090.7K

TripoSG: 단일 이미지에서 고해상도 3D 모델링 디지털 자산 생성

일반 소개 TripoSG는 단일 이미지에서 고품질 3D 모델을 생성하기 위해 VAST AI 연구팀에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 하이브리드 지도 학습 및 고품질 데이터 세트와 결합된 대규모 정류기-흐름 변환기 기술을 사용하여 생성된 3D 모델이 다음과 같은 기능을 갖출 수 있도록 합니다.

1 년 전

090.7K

NodeTool: 노드 오케스트레이션 기반의 AI 모델용 워크플로 시각화 클라이언트

일반 소개 노드툴은 AI 애호가, 개발자, 데이터 과학자, 크리에이터를 위한 간단하고 직관적인 인터페이스를 제공하도록 설계된 혁신적인 AI 저작 플랫폼입니다. 아티스트, 개발자, 초보자 모두 NodeTool을 사용하면 창의적인 프로토타입을 빠르게 제작할 수 있습니다.

2 년 전

090.6K

SVFR: 비디오 얼굴 복구, 흑백, 흐릿한 인물 오래된 비디오 복구를 구현하기 위한 통합 프레임워크

종합 소개 SVFR(안정적인 비디오 얼굴 복원)은 비디오 얼굴 복원을 위한 통합 프레임워크로, 기본 얼굴 복원(BFR), 컬러링, 복구 및 이들의 조합 작업을 지원합니다. 이 프레임워크는 제너레이티브 및 키네마틱 프리오어를 통합하여 활용합니다.

2 년 전

090.5K

MIDI-3D: 단일 이미지에서 멀티 오브젝트 3D 씬을 빠르게 생성하는 오픈 소스 툴입니다.

일반 소개 MIDI-3D는 개발자, 연구원 및 크리에이터를 위해 단일 이미지에서 여러 오브젝트가 포함된 3D 장면을 빠르게 생성하기 위해 VAST-AI-Research 팀에서 개발한 오픈 소스 프로젝트입니다. 이 도구는 다중 인스턴스 확산 모델링 기법을 기반으로 합니다...

1 년 전

090.5K

E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.

일반 소개 E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, u... 등의 형식을 지원합니다.

2 년 전

090.5K

AI 찾아보기: 코드 없이 구조화된 데이터 추출 및 모니터링

Browse Browse AI는 코딩 없이도 모든 웹사이트에서 데이터를 추출하고 모니터링할 수 있도록 설계된 클라우드 기반 웹 자동화 소프트웨어입니다. 마우스 클릭 한 번으로 데이터 추출, 모니터링 및 자동화 작업을 수행하도록 봇을 훈련시킬 수 있습니다....

2 년 전

090.5K

ALog: 음성-텍스트 변환을 지원하는 휴대용 AI 음성 일기장 앱입니다.

개요 ALog는 사용자가 음성으로 일상을 기록할 수 있도록 설계된 AI 기반 음성 일기장 애플리케이션입니다. duxins가 개발했으며 GitHub에서 오픈소스입니다. 사용자는 음성 입력을 통해 일기 항목을 녹음할 수 있으며, 앱은 음성을 자동으로 텍스트로 변환합니다....

2 년 전

090.4K