AI 오픈 소스 프로젝트

총 1020개 문서
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen: 일반 텍스트로부터 지식 그래프를 자동으로 생성하는 오픈 소스 도구

일반 소개 KGGen은 스탠포드 신뢰 인공 지능 연구소(STAIR Lab)에서 개발한 오픈 소스 도구로, GitHub에서 호스팅되며 임의의 텍스트로부터 지식 그래프를 자동으로 생성하도록 설계되었습니다. 고급 언어 모델링 및 클러스터링 알고리즘을 사용하여 구조화되지 않은 텍스트를 ...
8개월 전
028K
Agno:构建具备记忆、知识和工具的多模态智能体框架

Agno: 메모리, 지식 및 도구로 멀티모달 인텔리전스를 구축하기 위한 프레임워크

일반 소개 Agno는 개발자가 메모리, 지식 및 도구를 사용하여 AI 인텔리전스를 쉽게 구축할 수 있도록 지원하기 위해 agno-agi 팀이 개발하고 GitHub에서 호스팅하는 오픈 소스 Python 라이브러리입니다. 멀티모달 텍스트, 이미지, 오디오, 비디오를 지원합니다.
7개월 전
028K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

소닉: 오디오 기반 인물 이미지로 생생한 얼굴 표정이 담긴 디지털 데모 동영상 생성

일반 소개 Sonic은 글로벌 오디오 인식에 초점을 맞춘 혁신적인 플랫폼으로, 오디오를 기반으로 생생한 인물 애니메이션을 생성하는 것을 목표로 합니다. 텐센트와 저장대학교의 연구팀이 개발한 이 플랫폼은 오디오 정보를 사용하여 얼굴 표정과 머리 움직임을 제어하여 자연스럽고 부드러운 애니메이션 동영상을 생성합니다....
7개월 전
028K
Orion:小米开源的端到端自动驾驶推理与规划框架

Orion: Xiaomi의 오픈 소스 엔드투엔드 자율 주행 추론 및 계획 프레임워크

개요 오리온은 샤오미 연구소에서 개발한 오픈 소스 프로젝트로, 엔드투엔드(E2E) 자율주행 기술에 중점을 두고 있습니다. 시각적 언어 모델링(VLM)과 생성 플래너를 통해 기존 자율 주행 방식의 복잡한 시나리오에서 인과 추론이 불충분한 문제를 해결하며, 오리온은 긴 ...
6개월 전
027.9K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
9개월 전
027.8K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

스트리밍T2V: 텍스트에서 긴 동영상까지 동적이고 확장 가능한 생성

종합 소개 스트리밍T2V는 텍스트 설명을 기반으로 일관성 있고 동적이며 확장 가능한 긴 동영상을 생성하는 데 중점을 두고 픽사트 AI 연구팀에서 개발한 공개 프로젝트입니다. 이 기술은 고급 자동 회귀 접근 방식을 사용하여 비디오와 설명 텍스트의 시간적 일관성을 엄격하게 보장합니다.
11개월 전
027.8K
InstantIR:受损图像修复与图像高清放大开源项目,最低16G显存

InstantIR: 손상된 이미지 복구 및 이미지 고화질 줌 오픈 소스 프로젝트, 최소 16G 비디오 메모리

일반 설명 InstantIR은 손상된 이미지를 매우 높은 품질과 생생한 디테일로 복원할 수 있도록 설계된 InstantX 팀에서 개발한 혁신적인 단일 이미지 복원 모델로, 손상된 이미지를 고품질로 복원할 수 있습니다. 이 도구는 이미지의 세부 사항을 복원할 뿐만 아니라 ...
11개월 전
027.8K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: 100줄의 코드로 AI 애플리케이션 개발을 위한 미니멀리즘 프레임워크

포괄적인 소개 PocketFlow는 100줄의 코드만으로 구성된 경량 AI 애플리케이션 개발 프레임워크로, The-Pocket 팀에서 개발하여 GitHub에서 오픈 소스화했습니다. 100줄의 핵심 코드 제어, 외부 종속성 없는 미니멀리즘 디자인을 추구합니다.
7개월 전
027.8K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: 가사를 전체 노래의 기본 모델로 변환하여 다양한 음악 스타일을 지원합니다.

일반 소개 YuE는 가사를 전체 곡으로 변환하는 데 중점을 둔 오픈 소스 전체 곡 생성 기본 모델입니다. 비보컬 음악의 짧은 스니펫만 생성하는 다른 모델과 달리 YuE는 최대 몇 분 길이의 리드 보컬과 백 보컬이 포함된 전체 곡을 생성할 수 있습니다. 이 모델은 음악 생성을 ...
9개월 전
027.8K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: 프롬프트 단어를 입력하여 실시간 이미지 생성(Flux Schnell 모델 무료 이용)

일반 설명 BlinkShot은 오픈 소스 실시간 AI 이미지 생성기로, Together AI와 Flux Schnell 기술을 활용하여 사용자가 프롬프트에 입력하는 대로 고품질 이미지를 생성할 수 있습니다. 이 플랫폼은 완전 무료이며 사용자 커스터마이징과 2차 오픈을 지원합니다.
1 년 전
027.7K
MiniMind:2小时从零训练26M参数GPT的开源工具

미니마인드: 처음부터 2시간 동안 2600만 개의 매개변수를 교육하는 GPT 오픈 소스 도구

일반 소개 미니마인드는 개발자 징야오공이 만든 오픈 소스 프로젝트입니다. 미니마인드의 핵심 목표는 일반인들도 자신의 AI 모델을 빠르게 훈련할 수 있도록 하는 것입니다. 미니마인드의 주요 기능은 단일 NVIDIA에서 2시간을 사용하는 것입니다.
7개월 전
027.7K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n 자체 호스팅 AI 스타터 키트: 로컬 AI 환경을 빠르게 구축하기 위한 오픈 소스 템플릿

포괄적인 소개 n8n 셀프 호스팅 AI 스타터 키트는 포괄적인 로컬 AI 및 로우코드 개발 환경을 빠르게 초기화하도록 설계된 오픈 소스 Docker Compose 템플릿입니다. n8n 팀에서 제작한 이 제품군은 자체 호스팅 n8n 플랫폼과 다양한 호환 가능한 AI를 결합합니다.
8개월 전
027.7K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.
8개월 전
027.7K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: AI 어시스턴트 및 에이전트를 위한 지능형 메모리 계층을 제공하는 오픈 소스 프로젝트입니다.

일반 소개 Mem0("mem-zero"로 발음)는 AI 어시스턴트와 에이전트를 위한 지능형 메모리 계층을 제공하는 오픈 소스 프로젝트입니다. 사용자 선호도를 기억하고, 개인의 필요에 맞게 조정하며, 시간이 지남에 따라 개선되므로 고객 지원 챗봇, AI 비서 및 자율 시스템에 이상적입니다.
1 년 전
027.7K
wechat-article-exporter:一键部署微信公众号文章批量导出工具

위챗-기사-내보내기: 원클릭으로 배포되는 위챗 공개 번호 기사 일괄 내보내기 도구

포괄적 인 소개 위챗 기사 내보내기 도구는 사용자가 위챗 공개 번호 기사를 일괄 내보낼 수 있도록 설계된 오픈 소스 도구입니다. 이 도구는 환경을 구축하지 않고도 기사에 포함 된 오디오 및 비디오를 내보내고, 100%가 기사 스타일을 복원하고, 비공개 부분을 지원할 수 있습니다.
12개월 전
027.6K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: 도구 호출, 코드 인터프리터, RAG 및 Chrome 확장 프로그램을 포함한 지능형 에이전트 애플리케이션을 위한 Qwen 기반 프레임워크입니다.

종합 소개 Qwen-Agent는 명령 팔로잉, 도구 사용, 계획 및 메모리 등의 기능을 갖춘 Qwen 2.0 이상을 기반으로 개발된 지능형 에이전트 애플리케이션 프레임워크입니다. 이 프레임워크는 브라우저 어시스턴트, 코드 인터프리터 및 사용자 지정 어시스턴트와 같은 다양한 샘플 애플리케이션을 제공합니다....
10개월 전
027.6K
Open Deep Research:LangChain开源的深度研究智能助手

오픈 딥 리서치: 심층 연구를 위한 LangChain의 오픈 소스 지능형 비서

종합 소개 Open Deep Research는 모든 주제에 대한 종합적인 연구 보고서를 생성할 수 있는 웹 기반 연구 도우미입니다. 이 시스템은 사용자가 시간이 많이 걸리는 연구 단계로 넘어가기 전에 보고서 구조를 계획하고 검토할 수 있는 계획 및 실행 워크플로우를 사용합니다....
7개월 전
027.6K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)

미드여정 프록시: AI 매핑 API 호출을 위한 미드여정 디스코드 채널 프록시/반전(무료 테스트)

종합 소개 Midjourney Proxy는 AI 그리기 기능을 API 형태로 변환하기 위해 Midjourney의 Discord 채널에 프록시 서비스를 제공하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 완전 무료 오픈 소스이며, 원클릭 얼굴 교체, 이미지 블렌딩, 그래프 생성 등을 지원합니다.
10개월 전
027.6K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...
11개월 전
027.6K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: 지식 그래프를 사용하여 에이전트의 장기 기억력을 향상시키는 오픈 소스 프로젝트

일반 소개 Memary는 자율 지능을 위한 장기 메모리 관리 솔루션을 제공하는 데 중점을 둔 혁신적인 오픈 소스 프로젝트입니다. 이 프로젝트는 지식 그래프와 특수 메모리 모듈을 통해 지능이 기존 컨텍스트 윈도우의 한계를 극복하고 더 스마트한 상호 작용 경험을 달성할 수 있도록 지원합니다.Memary는 ...
10개월 전
027.5K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

일반 소개 ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 이를 수행합니다.
8개월 전
027.5K
RMBG-2-Studio:批量移除图像和视频背景的开源程序,基于RMBG 2.0优化

RMBG-2-Studio: 이미지 및 동영상 배경 일괄 제거를 위한 오픈 소스 프로그램으로, RMBG 2.0에 최적화되어 있습니다.

일반 소개 RMBG-2-Studio는 BRIA-RMBG-2.0 모델을 기반으로 개발된 향상된 배경 제거 및 교체 애플리케이션입니다. 이 애플리케이션은 사용자에게 전자상거래, 게임 등 다양한 이미지 유형에 대한 효율적이고 정확한 이미지 배경 처리 기능을 제공하도록 설계되었습니다.
10개월 전
027.5K
ChatGPT-on-WeChat:基于大模型构建的智能对话机器人,支持微信等多对话平台接入

ChatGPT-on-WeChat: 대형 모델에 구축된 지능형 대화 로봇으로, WeChat 및 기타 다중 대화 플랫폼 액세스를 지원합니다.

종합 소개 ChatGPT-on-WeChat 프로젝트는 대형 모델 기반의 지능형 대화 로봇으로, 개인 WeChat, WeChat 공개 번호, 기업 WeChat 애플리케이션, 플라이북, 네일 등에 대한 다중 플랫폼 액세스를 지원합니다. 사용자는 GPT3.5, GPT-4, Claude, Man ...
10개월 전
027.5K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

자동 심층 연구: 문헌 쿼리 수행 및 연구 보고서 생성을 위한 다중 에이전트 협업

일반 소개 자동 심층 연구는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발한 오픈 소스 AI 도구로, 사용자가 심층 연구 작업을 자동화할 수 있도록 지원하는 것을 목표로 합니다. 자동 에이전트 프레임워크를 기반으로 구축되었으며 여러 대규모 언어 모델을 지원합니다...
7개월 전
027.4K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

AI가 책을 읽습니다: AI가 PDF 책을 한 페이지씩 읽고 지식의 요점을 자동으로 추출하여 요약을 생성합니다.

종합 소개 AI-reads-books-page-by-page는 PDF 책의 페이지별 분석을 자동화하고 핵심 지식 포인트를 추출하며 지정된 페이지 간격 후 단계를 생성하는 Python 기반 지능형 PDF 책 분석 도구입니다....
10개월 전
027.4K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: 오픈 소스 대형 모델 인스턴트 메시징 로봇, 여러 WeChat, QQ, Flybook 및 기타 멀티 플랫폼 배포를 지원하는 AI 로봇.

LangBot은 여러 메시징 플랫폼과 대형 모델을 지원하는 대형 모델 기반 인스턴트 메시징 봇 플랫폼입니다. 이 플랫폼은 QQ, 위챗(기업용 위챗, 개인용 위챗), 플라이북, 디스코드, 원봇 및 기타 메시징 플랫폼에 맞게 조정되며, 오픈...
8개월 전
027.4K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

일반 소개 허깅페이스의 Open R1 프로젝트는 R1 파이프라인에서 누락된 부분을 구축하여 누구나 이를 복제하고 구축할 수 있도록 하는 것을 목표로 하는 완전 오픈 소스 DeepSeek-R1 복제 프로젝트입니다. 이 프로젝트는 단순하게 설계되었으며 주로 교육과 평가로 구성됩니다.
9개월 전
027.4K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: 고품질 음성 생성 및 복제를 위한 오픈 소스 텍스트 음성 변환 모델

일반 소개 Llasa-3B는 홍콩과학기술대학교 오디오 랩(HKUST Audio)에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 여러 언어를 지원할 뿐만 아니라 고품질 음성 생성을 제공하도록 세심하게 튜닝된 Llama 3.2B 아키텍처를 기반으로 합니다.
8개월 전
027.3K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: 혁신적인 음성 생성 및 음성 복제 도구

종합적인 소개 GPT-SoVITS는 오픈 소스 음성 변환 및 합성 도구로, GPT 모델과 SoVITS 보이스 체인저 기술을 결합한 것입니다. 이 도구는 샘플이 전혀 없거나 적은 상태에서 즉석에서 텍스트를 음성으로 변환하고 5초의 오디오 샘플만으로 음성 스타일 마이그레이션을 지원합니다. 그 기능에는 교차 언어가 포함됩니다 ...
1 년 전
027.3K
AutoGen:微软开发的多智能体对话框架

AutoGen: Microsoft에서 개발한 다중 인텔리전트 바디 대화 프레임워크

일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...
9개월 전
027.3K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

자동 에이전트: 자연어를 통해 AI 인텔리전스를 신속하게 생성 및 배포하기 위한 프레임워크

일반 소개 AutoAgent는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 인텔리전스 프레임워크로, 사용자가 프로그래밍 기반 없이 순수 자연어로 요구 사항을 설명하여 맞춤형 AI 인텔리전스를 빠르게 생성하고 배포할 수 있습니다....
4개월 전
027.3K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: 음성-자막 변환 도구, 컷씬, 레이서 및 머스트 컷에 대한 인터페이스가 내장된 경량 클라이언트

포괄적인 소개 AsrTools는 Cutscene, QuickScope, MustCut 등과 같은 대형 업체의 인터페이스가 내장된 지능형 음성 텍스트 변환 도구입니다. GPU나 번거로운 구성이 필요하지 않으며 효율적인 멀티스레드 일괄 처리를 지원합니다. 파이큐트5 개발, 아름답고 사용자 친화적인 인터페이스를 기반으로 하며, SRT 및 TXT 형식의 단어를 출력할 수 있습니다....
1 년 전
027.2K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: 지능형 웹 정보 처리 도구, 웹 콘텐츠 캡처를 위한 무료 API

웹파일럿 일반 소개 웹파일럿은 모든 웹 페이지와 자유롭게 소통하거나 자동화된 작업을 수행할 수 있는 무료 오픈 소스 '웹 어시스턴트'입니다. 페이지를 전환하거나 복사하여 붙여넣을 필요 없이 텍스트를 선택하거나 명령을 입력하기만 하면 웹파일럿을 사용할 수 있습니다.
1 년 전
027.2K
Dia:生成超现实多人对话的文本转语音模型

Dia: 초현실적인 멀티플레이어 대화 생성을 위한 텍스트 음성 변환 모델

일반 소개 Dia는 초현실적인 대화 오디오를 생성하는 데 중점을 두고 나리 랩스에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 텍스트 스크립트를 한 번의 프로세스로 사실적인 다중 문자 대화로 변환하고 감정과 억양 제어를 지원하며 비언어적 표현까지 생성합니다....
6개월 전
027.1K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor: OpenWebUI 사용자 활동을 모니터링하고, 사용 제한을 관리하고, 원클릭 배포를 지원합니다.

일반 소개 OpenWebUI-Monitor는 OpenWebUI 사용자 활동을 모니터링하고 사용량 할당량을 관리하기 위한 대시보드입니다. 사용자 할당량을 효율적으로 설정하고, 사용자 데이터와 시각적 정보를 실시간으로 볼 수 있으며, 원클릭 배포를 지원하고, 사용자 관리 및 모니터링을 용이하게 합니다.
11개월 전
027.1K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话

ChatFree(ChatAnywhere-2): 모든 창에서 대화를 완료할 수 있도록 지원하는 GPT API를 사용하여 만든 네이티브 코파일럿입니다.

일반 소개 ChatFree는 사용자의 AI 앱을 브라우저의 제약에서 벗어나 로컬에서 실행할 수 있도록 하는 것을 목표로 하는 오픈 소스 프로젝트입니다. GPT API를 사용하여 만들어진 Copilot은 Office, Word, WPS 등과 같은 다양한 오피스 소프트웨어를 지원하도록 설계되었습니다. 이 프로젝트의 개발자는 ...
10개월 전
027.1K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror: 원클릭으로 수익성 있는 Grok 미러 사이트 배포

종합 소개 Grok-Mirror는 서버가 필요 없는 빠른 배포가 가능한 Grok3 기반의 국내 미러 스테이션입니다.Grok 미러 스테이션은 운영 가능한 Grok 미러 스테이션으로 구축되었습니다. 이를 통해 사용자는 Docker를 통해 클릭 한 번으로 로컬 Grok 키오스크를 배포할 수 있습니다.Grok은 xAI의 인공 지능입니다.
7개월 전
027K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe: AI가 컴퓨터를 직접 제어할 수 있도록 하는 클라우드의 제어 컴퓨터를 오픈 소스로 구현한 기능입니다.

일반 설명 Agent.exe는 사용자가 AI를 통해 로컬 컴퓨터를 직접 제어할 수 있도록 Anthropic의 클로드 3.5 소네트 API를 활용하는 오픈 소스 일렉트론 애플리케이션입니다. 이 프로젝트는 K...에 의해 개발되었습니다.
10개월 전
027K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: AI 기술을 사용하여 흑백 사진과 동영상에 컬러를 입히는 클래식 오픈 소스 도구

종합 소개 DeOldify는 흑백 사진과 비디오의 지능형 컬러링 및 복원을 위한 딥러닝 기술을 기반으로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 혁신적인 NoGAN 훈련 방법을 사용하여 이미지 컬러링 과정에서 기존 GAN 네트워크의 일반적인 결함을 성공적으로 해결합니다...
10개월 전
027K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: 비디오 영상에 동기화된 음향 효과 및 사운드 트랙 생성, 비디오-오디오 멀티모달 코트레이닝 도구

일반 소개 MMAudio는 공동 멀티모달 훈련을 통해 고품질의 동기화된 오디오를 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 홍콩 중문대학교의 호케이 쳉 등이 개발한 이 프로젝트의 주요 기능은 비디오 및/또는 텍스트 입력을 기반으로 동기화된 오디오를 생성하는 것입니다.MM...
10개월 전
026.9K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

비정형: 비정형 문서 전처리 오픈 소스, 비정형 데이터 처리 도구

포괄적인 소개 Unstructured-IO는 PDF, HTML, Word 문서 등과 같은 이미지 및 텍스트 문서를 처리하고 전처리하기 위한 오픈 소스 구성 요소 세트를 제공합니다. 주요 목표는 데이터 처리 워크플로우를 단순화하고 최적화하는 것으로, 특히 대규모 언어 모델(LL...
1 년 전
026.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 시각 언어 모델의 일반화 기능을 위한 저비용 강화 학습

종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...
8개월 전
026.9K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

RD-Agent: AI 기술을 통해 데이터 기반 R&D 프로세스를 촉진하는 자동화된 데이터 기반 R&D 도구

일반 소개 RD-Agent는 연구 개발(R&D) 프로세스를 자동화하고 최적화하도록 설계된 Microsoft의 오픈 소스 도구입니다. 이 도구는 인공 지능 기술을 통해 모델 및 데이터 개발의 효율성을 개선하기 위해 데이터 기반 시나리오에 초점을 맞추고 있으며, RD-Agent는 연구...
7개월 전
026.9K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

딥 라이브 캠: 오픈 소스 실시간 AI 얼굴 스와핑 도구, 실시간 라이브 얼굴 스와핑을 위한 사진 제공

일반 소개 딥 라이브 캠은 한 장의 사진으로 실시간 얼굴 교체 및 딥 페이크 비디오 생성을 가능하게 하는 오픈 소스 인공 지능 도구입니다. 이 도구는 고급 딥러닝 알고리즘을 사용하여 라이브 스트리밍 또는 영상 통화 중에 실시간으로 얼굴을 교체하여 사용자의 개인 정보를 보호하고 재미를 더할 수 있습니다.
11개월 전
026.9K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: 오픈 소스 무제한 캔버스 화이트보드 SDK, 미니멀한 와이어프레임과 UML 다이어그램을 생성하는 AI

일반 설명 tldraw는 사용자가 그래픽을 빠르게 그리고, 텍스트를 작성하고, 즉시 협업할 수 있는 무제한 캔버스를 제공하는 무료 즉각적인 협업 그리기 도구입니다. 직관적인 인터페이스와 뛰어난 성능을 갖추고 있어 팀 협업과 원격 작업에 적합합니다. 오픈 소스 커뮤니티를 통해 지원되는 tldr...
11개월 전
026.9K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS 생성기: AI를 통해 웹 콘텐츠를 RSS 피드로 변환하는 도구

일반 소개 AI RSS는 AI 기술을 통해 웹 콘텐츠를 RSS 피드로 변환하는 혁신적인 도구입니다. 브라우저 플러그인과 서버 측의 두 가지 주요 부분으로 구성됩니다. 브라우저 플러그인을 통해 사용자는 웹 페이지에서 목록을 선택하고 구조화된 데이터 설명(SDD) 파일을 생성할 수 있습니다.
9개월 전
026.9K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: 실시간 상호 작용을 위한 지능형 디지털 인력, 멀티 플랫폼 원클릭 배포 지원

일반 소개 DUIX(대화 사용자 인터페이스 시스템)는 실리콘 인텔리전스에서 만든 AI 기반 디지털 인간 상호작용 플랫폼입니다. 오픈 소스 디지털 인간 상호 작용 기능을 통해 개발자는 대규모 모델, 자동 음성 인식(ASR)을 쉽게 통합할 수 있습니다.
9개월 전
026.9K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章

Refly: 자동화된 기사 생성을 위한 무료 캔버스에서 프로세스 오케스트레이션을 기반으로 하는 AI 글쓰기 플랫폼

종합 소개 Refly는 멀티 스레드 대화, 지식 베이스 통합, 문맥 메모리 및 지능형 검색 기술을 통해 사용자가 아이디어를 고품질 콘텐츠로 전환할 수 있도록 설계된 무료 캔버스 기반 AI 네이티브 저작 엔진입니다. 이 플랫폼은 학습을 포함한 20개 이상의 전문 시나리오 템플릿을 지원합니다.
8개월 전
026.9K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: AI가 컴퓨터의 원격 작동을 대신하고 자연어를 사용하여 컴퓨터를 제어할 수 있는 오픈 소스 프로젝트

일반 소개 NeoAI는 사용자가 자연어 대화를 통해 컴퓨터를 쉽게 제어하고 관리할 수 있는 혁신적인 오픈 소스 AI 비서 도구입니다. 사용자는 코드를 작성하지 않고도 일상적인 대화만으로 파일 찾기, 작업 자동화, 장치 관리 등을 수행할 수 있습니다.NeoAI...
9개월 전
026.8K
文多多 AiPPT:AI生成PPT,演讲稿生成

웬두오두오 AiPPT: AI 생성 PPT, 프레젠테이션 생성

개요 AiPPT는 인공지능 기술을 기반으로 한 PPT 생성 도구로, 사용자가 전문적인 프레젠테이션을 빠르게 만들 수 있도록 설계되었습니다. 테마 입력, 파일 업로드 또는 URL 제공 등을 통해 콘텐츠가 풍부하고 아름답게 디자인된 슬라이드를 자동으로 생성합니다. 기본 차트, 애니메이션 및 3D 특수 효과를 지원합니다.
8개월 전
026.7K
HippoRAG:基于长时记忆的多跳知识检索框架

HippoRAG: 장기기억을 기반으로 하는 멀티홉 지식 검색 프레임워크

일반 소개 HippoRAG는 인간의 장기기억 메커니즘에서 영감을 받아 오하이오 주립대학의 OSU-NLP 그룹에서 개발한 오픈 소스 프레임워크입니다. 검색 증강 생성(RAG), 지식 그래프, 개인화된 페이지랭크 기술을 결합하여 대규모 언어 모델에 도움이 되는...
7개월 전
026.7K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

일반 소개 PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 깃허브에서 호스팅됩니다. 이 도구는 이것을 통해 작동합니다 ...
7개월 전
026.7K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Gemini 모델을 사용하여 클릭 한 번으로 짧은 내레이션 동영상 또는 긴 동영상의 동영상 요약을 만듭니다.

개요 AI2SRT는 GeminiAI 빅 모델을 사용하여 한 번의 클릭으로 짧은 내레이션 동영상과 긴 동영상의 동영상 요약을 생성하는 동시에 오디오 및 동영상 전사 자막을 지원하는 오픈 소스 프로젝트입니다. 이 프로젝트는 동영상 콘텐츠 제작 과정을 간소화하고 효율적인 자막 생성 및 번역 기능을 제공하는 것을 목표로 합니다. 사용자는 통과할 수 있습니다...
10개월 전
026.6K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

베일링: 자연스러운 대화와 커뮤니케이션을 위한 저지연 오픈 소스 음성 대화 도우미

개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.
9개월 전
026.6K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI 헤지 펀드: 여러 지능을 사용하여 복잡한 헤지 펀드 거래 결정을 내리는 오픈 소스 자동 거래 시스템입니다.

일반 소개 AI 헤지 펀드는 멀티 에이전트 시스템을 활용하여 매매 결정을 내리는 인공지능 헤지 펀드입니다. 이 시스템은 시장 데이터 에이전트, 퀀트 에이전트, 리스크 관리 에이전트, 포트폴리오 관리 에이전트 등 여러 전문 에이전트와 함께 작동하여 복잡한 트레이딩을 수행합니다....
9개월 전
026.6K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: 오디오북 생성, Kokoro로 전자책을 오디오북으로 변환하기

일반 소개 Audiblez는 전자책(예: .epub 형식)을 오디오북(예: .m4b 형식)으로 변환하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Kokoro의 고품질 음성 합성 기술을 활용하여 여러 언어와 여러 음성을 지원합니다. 사용자는 간단히...
9개월 전
026.6K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3: 중국어와 영어 음성 합성을 위한 경량 모델

종합 소개 MegaTTS3는 고품질 중국어 및 영어 음성 생성에 중점을 두고 절강대학교와 협력하여 바이트댄스가 개발한 오픈 소스 음성 합성 도구입니다. 핵심 모델은 가볍고 효율적인 0.45억 개의 파라미터로 중국어와 영어 혼합 음성 생성 및 음성 복제를 지원합니다. 프로젝트는 ...에서 호스팅됩니다.
7개월 전
026.5K
Agent Inbox:与AI智能体进行人机交互的管理界面

상담원 수신함: 인간과 컴퓨터의 AI 인텔리전스 상호작용을 위한 관리 인터페이스

일반 소개 에이전트 인박스는 AI 지능과 상호 작용할 수 있는 새로운 사용자 경험을 제공하기 위해 LangChain 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 중앙 집중식 인터페이스를 통해 여러 AI 인텔리전스와의 상호 작용을 관리하고 최적화할 수 있습니다.
9개월 전
026.5K
sensitive-word:敏感词过滤工具,高效DFA算法实现

민감한 단어: 민감한 단어 필터링 도구, 효율적인 DFA 알고리즘 구현

포괄적인 소개 민감한 단어 필터링 도구(민감한 단어)는 DFA 알고리즘 프레임워크 구현을 기반으로 하는 고성능 Java 민감한 단어 필터링 도구입니다. 이 도구는 민감한 단어를 효율적으로 감지하고 필터링할 수 있으며 다양한 형식 변환 및 사용자 지정 대체 전략을 지원합니다. 설계 목표는 제공하는 것입니다 ...
1 년 전
026.5K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

브라우저 사용: AI 인텔리전트가 브라우저를 쉽게 운영할 수 있는 지능형 웹 자동화 도구 구축

종합 소개 브라우저 사용은 언어 모델(LLM)이 웹사이트와 자연스럽게 상호 작용할 수 있도록 특별히 설계된 혁신적인 오픈 소스 웹 자동화 도구입니다. 이 도구는 강력하고 유연한 프레임워크를 제공하여 GPT-4, Claud... 등 다양한 주류 언어 모델을 지원합니다.
10개월 전
026.5K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: 실시간 비디오 감지 및 객체 세분화를 위한 오픈 소스 도구

YOLOE는 칭화대학교 소프트웨어학부의 멀티미디어 인텔리전스 그룹(THU-MIG)에서 개발한 오픈 소스 프로젝트로, 정식 명칭은 "You Only Look Once Eye"입니다. YOLO 시리즈 확장에 속하는 PyTorch 프레임워크를 기반으로 합니다.
6개월 전
026.5K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: 텍스트 설명 생성을 위한 AI 어시스턴트 ComfyUI 워크플로

포괄적인 소개 ComfyUI-Copilot은 자연어 상호 작용을 통해 AI 알고리즘 디버깅 및 배포의 효율성을 개선하는 것을 목표로 ComfyUI 프레임워크용으로 설계된 AI 기반 사용자 지정 노드입니다. AIDC-AI 팀(알리바바)이 개발했으며 GitHu에서 파생되었습니다.
8개월 전
026.4K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: 전체 프로세스 프로그래밍 작업을 자동화하는 확장 가능한 오픈 소스 프로그래밍 인텔리전스

일반 소개 Goose는 개발자가 일상적인 개발 작업을 자동화할 수 있도록 설계된 블록에서 개발한 오픈 소스 AI 에이전트 도구입니다. 광범위한 LLM(대규모 언어 모델)을 지원하며 명령줄 또는 데스크톱 애플리케이션 인터페이스를 통해 사용자와 상호 작용하며, 에이전트에서 다양한 작업을 수행할 수 있습니다.
9개월 전
026.4K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

위챗 비디오 번호 다운로더: 위챗 비디오 번호 비디오를 빠르게 다운로드하고, 여러 형식과 플랫폼을 지원합니다.

종합 소개 WeChat 비디오 번호 다운로더는 사용자가 WeChat 비디오 번호에서 비디오 콘텐츠를 빠르게 다운로드할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 다양한 동영상 형식과 플랫폼을 지원하며, 사용자는 Windows 및 macOS 시스템에서 쉽게 사용할 수 있습니다. 이 프로젝트는 ltaoo에 의해 개발되었으며 다음에서 호스팅됩니다.
9개월 전
026.4K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker: 새로운 대화형 경험을 위해 빅 언어 모델과 시각 모델을 결합한 디지털 사용자를 위한 지능형 대화 시스템

일반 소개 린리토커는 대규모 언어 모델(LLM)과 시각 모델을 결합하여 인간과 컴퓨터의 상호작용에 대한 새로운 접근 방식을 만들어내는 혁신적인 디지털 인간 대화 시스템입니다. 이 시스템은 위스퍼, 린리, 마이크로와 같은 다양한 기술을 통합합니다.
8개월 전
026.4K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: 엔드투엔드 AI 음성 복제 어시스턴트, 실시간 음성 대화 어시스턴트, Fish Speech 스핀오프 프로젝트

종합 소개 물고기 음성 파생 프로젝트 물고기 에이전트는 V0.1 3B 모델 아키텍처를 기반으로 개발된 혁신적인 엔드투엔드 AI 음성 복제 시스템입니다. 완전한 엔드투엔드 음성 복제 처리 시스템으로서, 가장 중요한 특징은 혁신적인 말없는 ...
9개월 전
026.4K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita: 모듈식 RAG 애플리케이션을 구축하고 다양한 RAG 전략을 신속하게 테스트하기 위한 오픈 소스 프레임워크

포괄적인 소개 Cognita는 RAG(검색 증강 세대) 기반 애플리케이션의 개발을 간소화하기 위해 TrueFoundry에서 개발한 오픈 소스 프레임워크입니다. 이 프레임워크는 구조화되고 수정 가능한 ...
9개월 전
026.3K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH 라이브: 30/40 시리즈 그래픽 카드에서 원활한 실시간 상호작용을 위한 AI 디지털 휴먼

일반 소개 DH_live는 샘플리스 학습을 기반으로 하는 실시간 라이브 디지털 휴먼 프로젝트로, 사용자에게 원활하고 인터랙티브한 라이브 스트리밍 경험을 제공하는 것을 목표로 합니다. 이 프로젝트는 NVIDIA 30 및 40 시리즈 그래픽 카드를 지원하며 25fps 이상에서 실시간으로 실행할 수 있습니다. 사용자는...
11개월 전
026.3K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

일반 소개 새드토커는 하나의 정지 인물 사진과 오디오 파일을 결합하여 개인화된 메시지, 교육용 콘텐츠 등 다양한 시나리오에 맞는 사실적인 말하는 아바타 동영상을 만드는 오픈 소스 툴입니다. ExpNet 및 PoseVA와 같은 3D 모델링 기술의 혁신적인 사용...
8개월 전
026.3K