AI 오픈 소스 프로젝트

총 1020개 문서
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: AI를 통해 마우스 동작을 셀레늄 파이썬 스크립트로 변환하는 브라우저 자동화 코드 생성

일반 소개 AutoMouser는 사용자 상호작용을 지능적으로 추적하고 OpenAI의 GPT 모델을 사용하여 셀레늄 테스트 코드를 자동으로 생성하는 Chrome 확장 프로그램입니다. 사용자 브라우저 동작을 기록하고 이를 변환하여 이를 수행합니다.
1 년 전
059K
AutoFlow:基于GraphRAG的对话式知识库/网页深度搜索工具,对话框可集成到其他网站

AutoFlow: 다른 웹사이트에 통합할 수 있는 대화형 GraphRAG 기반 대화형 지식창고/심층 웹 검색 도구

일반 소개 AutoFlow는 TiDB 서버리스 벡터 스토리지로 그래프 기반 지식 베이스를 구축하기 위해 PingCAP에서 개발한 오픈 소스 도구입니다. 복잡한 대화 검색과 지식 그래프를 지원하기 위해 LlamaIndex와 DSPy 프레임워크를 통합합니다.
1 년 전
059K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: Gemini 멀티모달 모델을 기반으로 중국어에서 영어로 번역하는 실시간 오디오 변환 도구

TransRouter는 영어와 중국어 간의 실시간 음성 번역을 위해 특별히 설계된 Google의 Gemini 모델을 기반으로 하는 실시간 음성 번역 도구입니다. 이 도구는 Zoom과 같은 화상 회의 소프트웨어에 원활하게 통합되어 언어 간 번역을 위한 강력한 도구를 제공합니다.
1 년 전
058.9K
Gemini Next Chat:一键免费部署您的私人多模态Gemini应用

제미니 넥스트 채팅: 클릭 한 번으로 비공개 멀티모달 제미니 앱을 무료로 배포하세요!

일반 소개 Gemini Next Chat은 사용자가 비공개 Gemini 애플리케이션을 쉽게 배포할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Gemini 1.5 및 Gemini 2.0 멀티모달 모델을 지원하며, 사용자는 클릭 한 번으로 배포할 수 있습니다.
1 년 전
058.9K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: 임의의 3D 및 4D 장면의 동영상을 생성하기 위한 오픈 소스 프레임워크

일반 소개 GenXD는 싱가포르 국립대학교(NUS)와 마이크로소프트 팀이 개발한 오픈 소스 프로젝트입니다. 불충분한 데이터와 모델 설계 복잡성으로 인한 실제 3D 및 4D 생성 문제를 해결하기 위해 임의의 3D 및 4D 장면을 생성하는 데 중점을 둡니다. 이 프로젝트는 ...
1 년 전
058.9K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI: 고부가가치 AI 모델 전달 인터페이스 관리 시스템, 공식 웹사이트에서 매일 무료 API 할당량을 제공합니다.

종합 소개 VoAPI는 주로 개인 또는 기업 내부 관리 및 배포 채널에 사용되는 새로운 고도의 고성능 AI 모델 인터페이스 관리 및 배포 시스템입니다. NewAPI를 기반으로 개발된 이 시스템은 풍부한 기능 모듈과 최적화된 사용자 인터페이스를 제공하여 다음을 향상시키는 것을 목표로 합니다.
1 년 전
058.9K
Ovis:视觉与文本对齐模型,精准反推图像提示词

Ovis: 이미지 단서 단어의 정확한 역전파를 위한 시각적 및 텍스트 정렬 모델

일반 소개 Ovis(오픈 비전)는 알리바바 국제 디지털 커머스 그룹의 AIDC-AI 팀이 개발하고 깃허브에서 호스팅하는 오픈 소스 멀티모달 대규모 언어 모델(MLLM)로, 이 모델은 혁신적인 구조 임베딩 정렬 기술을 사용하여 시각화합니다....
1 년 전
058.9K
Atomic Agents:构建轻量级模块化AI智能体框架

원자 에이전트: 경량 모듈식 AI 인텔리전스를 구축하기 위한 프레임워크

일반 소개 원자 에이전트는 에이전트 AI 파이프라인 및 애플리케이션 구축을 위해 원자 개념을 중심으로 설계된 매우 가벼운 모듈식 프레임워크입니다. 이 프레임워크는 강력한 애플리케이션을 만들기 위해 결합할 수 있는 일련의 도구와 에이전트를 제공합니다. 이 프레임워크는 Instruc ...
1 년 전
058.9K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: 거의 모든 비디오 플랫폼을 지원하는 명령줄 비디오 다운로더

일반 소개 Lux는 Go로 작성된 빠르고 간단한 동영상 다운로드 라이브러리이자 명령줄 도구입니다. 유튜브, 빌리빌리, 유쿠 등 여러 웹사이트에서 동영상을 다운로드할 수 있습니다. Lux는 멀티 스레드 다운로드와 같은 다양한 다운로드 옵션과 기능을 제공합니다.
1 년 전
058.8K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

마이크로 에이전트: 자동으로 코드를 생성하고 테스트 및 수정하는 AI 프로그래밍 인텔리전스입니다.

일반 소개 마이크로 에이전트는 Builder.io에서 개발한 오픈 소스 AI 코딩 도우미로, 개발자에게 코드를 자동으로 생성하고 테스트할 수 있는 기능을 제공하도록 설계되었습니다. 자연어 설명을 이해하여 테스트 케이스를 생성하고 모든 테스트가 통과할 때까지 코드를 반복하여 오픈 ...
1 년 전
058.8K
集成多种先进语音合成服务的开源运营项目

여러 고급 음성 합성 서비스를 통합하는 오픈 소스 운영 프로젝트

일반 소개 오픈 보이스 캔버스는 ItusiAI 팀에서 개발한 오픈 소스 음성 합성 플랫폼입니다. 50개 이상의 언어를 지원하며, 텍스트를 자연스러운 음성으로 변환하고 오디오를 업로드하여 개인화된 음성을 복제할 수 있습니다. 이 프로젝트는 Ope...
1 년 전
058.8K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: 의료 영상 분석 및 진단 Q&A를 지원하는 의료용 빅 모델

종합 소개 HealthGPT는 이기종 지식 적응을 통해 통합된 의료 시각적 이해 및 생성 기능을 달성하는 것을 목표로 하는 고급 의료 그랜드 비주얼 언어 모델입니다. 이 프로젝트의 목표는 의료 시각적 이해 및 생성 기능을 통합된 자동 회귀 프레임워크에 통합하여 의료 그래프를 크게 개선하는 것입니다.
1 년 전
058.8K
Social Media Agent:社交媒体智能助手,自动生成和管理社交媒体内容

소셜 미디어 에이전트: 소셜 미디어 콘텐츠를 자동으로 생성하고 관리하는 소셜 미디어용 지능형 어시스턴트

일반 소개 소셜 미디어 에이전트는 사용자가 소셜 미디어 콘텐츠의 생성 및 관리를 자동화할 수 있도록 설계된 새로운 에이전트 인박스로 상호 작용 정보를 관리하는 오픈 소스 프로젝트입니다. 이 프로젝트는 LangChain 팀에 의해 개발되었습니다...
1 년 전
058.7K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: 정지 이미지와 동영상에서 역동적인 인물 사진을 생성하는 애니메이션 도구

일반 소개 라이브포트트레이트는 레이서 테크놀로지에서 개발한 고급 AI 동적 인물 애니메이션 툴입니다. 혁신적인 AI 기술을 활용하여 정지 이미지를 생생한 비디오 애니메이션으로 변환합니다. 실제 사진, 애니메이션 스타일 또는 예술적 초상화를 사용하든 LivePo...
1 년 전
058.6K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

훈위안비디오GP: 저사양 GPU 작동을 지원하는 하이브리드 동영상 생성 모델입니다.

일반 소개 훈위안비디오GP는 딥비프밉에서 개발한 대규모 비디오 생성 모델로, 저사양 GPU 사용자를 위해 설계되었습니다. 이 모델은 원래 Hunyuan Video 모델의 개선 버전으로 메모리 및 그래픽 메모리 요구 사항을 크게 줄였습니다.
1 년 전
058.6K
元界AI:开源版AI数字人克隆与短视频生成工具

메타버스 AI: AI 디지털 인간 복제 및 짧은 동영상 생성 도구의 오픈 소스 버전

종합 소개 메타버스 AI(오픈소스 버전)는 libn-net 팀에서 개발한 GitHub에서 호스팅되는 프로젝트입니다. AI 기술을 통해 디지털 사람의 이미지와 음성을 복제하여 짧은 동영상을 생성할 수 있으며, 더빙과 자막도 지원합니다. 이 도구는 Windo...
1 년 전
058.5K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

일반 소개 Yek은 저장소나 디렉터리에서 텍스트 파일을 읽고, 청크화하여 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용하여 불필요한 파일을 건너뛰고, ...
1 년 전
058.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

지식 테이블: 구조화된 데이터의 효율적인 추출과 탐색을 위한 오픈 소스 도구

종합 소개 지식 테이블(Knowledge Table)은 비정형 문서에서 정형 데이터를 추출하고 탐색하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 사용자는 자연어 쿼리 인터페이스를 통해 표와 그래프와 같은 구조화된 지식 표현을 만들 수 있습니다. 이 도구는 추출 사용자 지정을 지원합니다 ...
1 년 전
058.5K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 외부 실시간 지식 그래프 데이터에 기반한 LLM 추론 서비스

종합 소개 Diffbot LLM Reasoning Server는 LLama 모델 아키텍처를 기반으로 특별한 최적화와 개선이 이루어진 혁신적인 대규모 언어 모델링 시스템입니다. 이 프로젝트의 가장 중요한 특징은 실시간 지식 그래프와 검색 기능이 강화된 생성 기능을 통합한 것입니다.
1 년 전
058.5K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

미니 LLM 흐름: 100줄의 코드로 '지시형 그래프 구조'로 LLM 미니 인텔리전트 구축하기

일반 소개 miniLLMFlow는 100줄의 핵심 코드만 포함된 미니멀한 대규모 언어 모델(LLM) 개발 프레임워크로, '단순함 유지'라는 디자인 철학을 보여줍니다. 이 프레임워크는 AI 어시스턴트(예: ChatGPT, Claude 등)가 다음을 수행할 수 있도록 특별히 설계되었습니다.
1 년 전
058.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: 기술 문서를 빠르게 크롤링하고 정리할 수 있는 MCP 서비스

일반 소개 DevDocs는 CyberAGI 팀에서 개발하고 GitHub에서 호스팅하는 완전 무료 오픈 소스 도구입니다. 프로그래머와 소프트웨어 개발자를 위해 설계된 이 도구는 기술 문서의 URL로 시작하여 관련 페이지를 자동으로 크롤링하고 이를 간결한 마...
1 년 전
058.4K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

스트리밍T2V: 텍스트에서 긴 동영상까지 동적이고 확장 가능한 생성

종합 소개 스트리밍T2V는 텍스트 설명을 기반으로 일관성 있고 동적이며 확장 가능한 긴 동영상을 생성하는 데 중점을 두고 픽사트 AI 연구팀에서 개발한 공개 프로젝트입니다. 이 기술은 고급 자동 회귀 접근 방식을 사용하여 비디오와 설명 텍스트의 시간적 일관성을 엄격하게 보장합니다.
1 년 전
058.4K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: 타임스탬프별 동영상 포지셔닝 콘텐츠 및 Q&A 오픈 소스 프로젝트

일반 소개 비디오마인드는 긴 동영상을 위한 추론, Q&A 및 요약 생성에 중점을 둔 오픈 소스 멀티모달 AI 도구입니다. 홍콩 폴리테크닉 대학교의 예 리우와 싱가포르 국립대학교의 쇼 랩 팀이 개발했습니다. 이 도구는 비디오에 대한 인간의 이해를 모방합니다...
10개월 전
058.3K
R1-Omni:通过视频和音频分析情感的开源模型

R1-Omni: 비디오와 오디오를 통해 감정을 분석하는 오픈 소스 모델

일반 소개 R1-Omni는 HumanMLLM 팀이 GitHub에서 시작한 오픈 소스 프로젝트입니다. 이는 감정 인식에 초점을 맞춘 멀티모달 대규모 언어 모델에 검증 가능한 보상이 포함된 강화 학습(RLVR) 기법을 최초로 적용한 프로젝트입니다. 이 프로젝트는 비디오 및 오디오 데이터를 다음과 같이 분석합니다.
1 년 전
058.3K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI: 자동화된 대규모 언어 모델 평가를 위한 프레임워크로, 다양한 대규모 모델 단서 단어의 출력 품질을 비교합니다.

종합 소개 DeepEval은 대규모 언어 모델링 시스템을 평가하고 테스트하기 위한 사용하기 쉬운 오픈 소스 LLM 평가 프레임워크입니다. Pytest와 유사하지만 LLM 출력의 단위 테스트에 중점을 두며, DeepEval은 G-Eval, 팬텀을 통한 최신 연구 결과를 결합합니다.
1 년 전
058.3K
SuperCoder:命令行终端运行的智能代码助手

슈퍼코더: 명령줄 터미널 실행을 위한 지능형 코드 도우미

일반 소개 슈퍼코더는 터미널에서 실행되는 지능형 도구로 프로그래머를 위해 설계되었습니다. AI 기술을 사용하여 사용자가 코드를 검색하고, 프로젝트 구조를 보고, 파일을 편집하고, 버그를 수정할 수 있도록 도와주며, 이 프로젝트는 GitHub의 huytd에서 오픈 소스이며 다음을 지원합니다.
1 년 전
058.3K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

스크랩그래프AI: 웹 크롤링을 위한 한 마디로, 규칙을 작성할 필요가 없는 지능형 웹 콘텐츠 추출 도구

포괄적인 소개 ScrapeGraphAI는 대규모 언어 모델링(LLM)과 직접 그래프 로직을 영리하게 결합하여 웹사이트와 로컬 문서를 위한 스크래핑 파이프라인을 생성하는 혁신적인 Python 웹 스크래핑 라이브러리입니다. 이 도구를 독특하게 만드는 것은 완벽한 수준의 단순성과 강력함입니다...
1 년 전
058.3K
AI Podcast Generator:自动抓取新闻生成音频播客

AI 팟캐스트 생성기: 뉴스를 자동으로 캡처하여 오디오 팟캐스트 생성하기

일반 소개 AI 팟캐스트 생성기는 고급 AI 기술을 사용하여 웹 소스에서 매력적인 오디오 콘텐츠를 자동으로 생성하는 지능형 팟캐스트 생성 도구입니다. 이 시스템은 뉴스 콘텐츠를 캡처하여 오디오 팟캐스트로 변환함으로써 자연스럽게 흐르는 내러티브를 생성합니다. 이 프로젝트는 다음...
1 년 전
058.3K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

클라우드 문서 변환기: 플라잉북 문서 다운로드 플러그인, 플라잉북 클라우드 문서를 로컬 마크다운 형식 문서로 변환합니다.

일반 소개 클라우드 문서 변환기는 플라잉북 클라우드 문서를 마크다운 형식으로 변환하기 위해 설계된 Chrome 확장 프로그램입니다. 사용자는 플라잉북 클라우드 문서를 마크다운으로 쉽게 다운로드하거나 복사할 수 있습니다.
1 년 전
058.2K
JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

JoyGen: 오디오 기반 3D 깊이 인식 인물 토킹 비디오 편집 도구

종합 소개 JoyGen은 말하는 얼굴을 위한 혁신적인 2단계 비디오 생성 프레임워크로, 오디오 기반 표정 생성 문제를 해결하는 데 중점을 두고 있습니다. 징동 테크놀로지 팀이 개발한 이 프레임워크는 고급 3D 재구성 기술과 오디오 특징 추출 방법을 사용하여 화자의 신원 특성과 표정을 정확하게 포착합니다.
1 년 전
058.1K
AIEvo:创建多智能体协作应用的高效框架

AIEvo: 다중 지능형 협업 애플리케이션을 만들기 위한 효율적인 프레임워크

일반 소개 AIEvo는 멀티 에이전트 애플리케이션을 효율적으로 생성하기 위해 설계된 Ant Group의 오픈 소스 멀티 에이전트 프레임워크입니다. 이 프레임워크는 복잡한 작업의 실행 성공률을 높이기 위해 SOP 작업 그래프를 엄격하게 따르며, 피드백 및 모니터링 메커니즘을 통해 높은 유연성과 확장성을 보장합니다.AIEvo는 Ant Group 내에서 제작되었습니다...
1 년 전
058.1K
LAMBDA:本地化AI邮件自动化系统,快速生成邮件(Gmail)回复草稿

LAMBDA: 초안 이메일(Gmail) 응답의 신속한 생성을 위한 현지화된 AI 이메일 자동화 시스템

일반 소개 LAMBDA(로컬 자동 받은 편지함 초안 작성 도우미)는 사용자의 이메일 스타일을 학습하여 Gmail 받은 편지함의 읽지 않은 모든 이메일에 대해 초안을 생성하도록 설계된 현지화된 AI 이메일 자동화 시스템입니다....
1 년 전
058.1K
AI-Infra-Guard:检测AI系统潜在安全风险的开源工具

AI-Infra-Guard: AI 시스템의 잠재적 보안 위험을 탐지하기 위한 오픈 소스 도구

종합 소개 AI-Infra-Guard는 Tencent의 하이브리드 보안 팀인 Zhuqiao Labs에서 개발한 오픈 소스 AI 인프라 보안 평가 도구로, 사용자가 AI 시스템에서 잠재적인 보안 위험을 신속하게 발견하고 탐지할 수 있도록 설계되었습니다. 이 도구는 30개 이상의 AI 프레임워크와 구성 요소를 지원합니다.
1 년 전
058K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: 지식 베이스 + LLM 기반 지능형 코드 검토 멘토(GitHub용)

종합 소개 CR-Mentor는 전문 지식 베이스와 LLM(대규모 언어 모델링)의 강력한 기능을 결합한 지능형 코드 리뷰 도구입니다. 모든 프로그래밍 언어에 대한 코드 리뷰를 지원할 뿐만 아니라 지식 기반에 축적된 모범 사례를 기반으로 팀을 위한 전용 검토 기준과 집중 영역을 사용자 지정할 수 있습니다. 다음을 통해...
1 년 전
058K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: 음성과 텍스트를 통해 컴퓨터를 작동하고 실시간 음성 피드백을 제공하는 지능형 신체

일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
1 년 전
058K
Mini-Cover:在线封面制作,专为博客、短视频、社交媒体等生成个性化封面

미니 커버: 블로그, 짧은 동영상, 소셜 미디어 등을 위한 맞춤형 커버를 제작할 수 있는 온라인 커버 메이커!

일반 소개 미니 커버는 블로그, 짧은 동영상, 소셜 미디어 등의 플랫폼을 위한 맞춤형 커버를 생성하도록 설계된 오픈 소스 온라인 커버 생성 도구입니다. JLinMr에서 개발한 이 도구는 사용자가 자신의 필요에 맞는 표지를 빠르게 생성할 수 있는 간단하고 효율적인 솔루션을 제공하는 것을 목표로 합니다.
1 년 전
058K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

스웜: 경량 다중 지능 신체 시스템을 학습하기 위한 실험적 교육 프로젝트(OpenAI 예시)

일반 소개 스웜은 다중 에이전트 시스템을 위한 가볍고 제어 가능하며 테스트하기 쉬운 인터페이스를 탐색하기 위해 OpenAI에서 개발한 실험적인 교육용 프레임워크입니다. 이 프레임워크는 주로 에이전트 간의 핸드오프와 일상적인 패턴을 시연하는 데 사용되며, 개발자가 멀티 에이전트 시스템의 조정 및 실행을 이해하고 구현하는 데 도움이 됩니다.
1 년 전
058K
Browse AI:无代码提取和监控结构化数据

AI 찾아보기: 코드 없이 구조화된 데이터 추출 및 모니터링

Browse Browse AI는 코딩 없이도 모든 웹사이트에서 데이터를 추출하고 모니터링할 수 있도록 설계된 클라우드 기반 웹 자동화 소프트웨어입니다. 마우스 클릭 한 번으로 데이터 추출, 모니터링 및 자동화 작업을 수행하도록 봇을 훈련시킬 수 있습니다....
2 년 전
058K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme: 로컬 고 충실도 표현 액션 일관된 이미지 또는 비디오 생성, 런웨이 액트 원 오픈 소스 탁구!

포괄적 인 소개 HelloMeme은 HelloVision에서 개발 한 오픈 소스 프로젝트로, 공간 뜨개질주의를 통합하여 확산 모델에 고수준 및 고 충실도 스트립을 포함하는 것을 목표로합니다 ...
1 년 전
057.9K
TryOffAnyone:从人物身上提取服装为平铺服装展示图的AI工具

TryOffAnyone: 사람에서 의류를 타일형 의류 디스플레이 이미지로 추출하는 AI 도구

종합 소개 TryOffAnyone은 이커머스 분야의 의류 디스플레이 문제를 해결하기 위해 특별히 설계된 획기적인 AI 이미지 처리 툴입니다. 실제 사람이 옷을 입은 사진을 평평한 디스플레이 효과 이미지로 지능적으로 변환할 수 있으며, 이 기술은 최신 잠재 차이 기술을 기반으로 합니다.
1 년 전
057.9K
Autiobooks:将epub电子书转换为m4b有声书

오디오북: epub 전자책을 m4b 오디오북으로 변환하기

일반 소개 오토북은 사용자가 .epub 형식의 전자책을 .m4b 형식의 오디오북으로 빠르게 변환할 수 있도록 설계된 오픈 소스 도구입니다. Kokoro에서 제공하는 고품질 음성 합성 기술을 사용하여 자연스럽고 부드러운 오디오를 생성합니다. 이 도구는 ...에 의해 구동됩니다.
1 년 전
057.8K
MM-EUREKA:探索视觉推理的多模态强化学习工具

MM-EUREKA: 시각적 추론 탐구를 위한 다중 모드 강화 학습 도구

종합 소개 MM-EUREKA는 상하이 인공 지능 연구소, 상하이 자오통 대학교 및 기타 관계자들이 개발한 오픈 소스 프로젝트입니다. 이 도구는 규칙 기반 강화 학습 기법을 통해 텍스트 추론 기능을 멀티모달 시나리오로 확장하여 모델이 이미지와 텍스트 정보를 처리할 수 있도록 지원합니다. 이 도구의 핵심은...
1 년 전
057.8K
PrivateGPT:完全本地化RAG处理流程的文档问答系统

PrivateGPT: 완전히 현지화된 RAG 처리 흐름을 갖춘 문서 Q&A 시스템

일반 소개 PrivateGPT는 프로덕션 환경에서 사용할 수 있는 AI 프로젝트로, 사용자가 인터넷 연결 없이도 대규모 언어 모델(LLM)을 사용하여 문서를 퀴즈할 수 있습니다. 이 프로젝트는 모든 데이터를 사용자의 실행 환경에 배치하여 100%의 데이터 프라이버시를 보장합니다...
1 년 전
057.7K
Bambo:轻量灵活的智能体框架,简单配置角色和工具,处理多种负载任务

Bambo: 지능형 기관을 위한 가볍고 유연한 프레임워크로, 역할과 도구를 간단하게 구성하여 여러 작업을 처리할 수 있습니다.

일반 소개 Bambo는 새로운 유형의 프록시 프레임워크로, 주류 프레임워크보다 가볍고 유연하며 다양한 로드 작업을 처리할 수 있으며, 도구 카탈로그의 모든 도구를 정의하고 비동기 사용자 정의 함수를 사용하여 효율적인 프록시 기능을 구현합니다. 사용자는 llm_c...
1 년 전
057.7K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: 명령줄 터미널에서 실행되는 지능형 프로그래밍 도우미, ChatGPT 코드 인터프리터의 현지화된 대안

종합 소개 GPTMe는 개발자의 업무 효율성을 높이기 위해 설계된 혁신적인 터미널 AI 어시스턴트 도구입니다. 강력한 AI 기능과 터미널 환경을 완벽하게 결합하여 코드 실행, 파일 편집, 웹 브라우징, 시각적 인식 등 다양한 기능을 지원합니다. ChatGPT 코드 풀이...
1 년 전
057.6K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT 박스: 다른 웹 페이지에서 ChatGPT를 작동시키는 브라우저 플러그인

일반 소개 ChatGPT Box는 ChatGPT를 사용자의 브라우저에 긴밀하게 통합하도록 설계된 오픈 소스 브라우저 확장 프로그램입니다. josStorer에서 개발한 이 도구는 여러 언어를 지원하며 모든 페이지에서 채팅 쌍을 호출하는 등 다양한 기능을 제공합니다.
1 년 전
057.6K
Thin-Plate-Spline-Motion-Model:静态人像图参考视频人像动作生成视频

박판-스플라인-모션 모델: 정적 인물 맵 레퍼런스 비디오 인물 모션 생성 비디오

일반 소개 박판 스플라인 모션 모델은 CVPR 2022에서 발표된 획기적인 이미지 애니메이션 생성 프로젝트입니다. 이 프로젝트는 박판 스플라인 변환 이론을 기반으로 하며, 주행 영상을 기반으로 정지 이미지에서 고품질의 모션을 구현할 수 있습니다.
1 년 전
057.6K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

팟캐스트파이: 멀티소스 콘텐츠를 다국어 오디오 대화로 변환하는 도구, NotebookLM의 팟캐스팅 기능을 대체하는 오픈 소스 대안

일반 소개 Podcastfy는 생성 인공 지능(GenAI) 기술을 사용하여 웹 콘텐츠, PDF 파일, 텍스트, 이미지, 유튜브 동영상 및 기타 여러 소스를 매력적인 다국어 소스로 변환하는 오픈 소스 Python 패키지입니다.
1 년 전
057.5K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

에이전트 실험실: 연구자를 위한 자동화된 코드 및 연구 작성 도우미

종합 소개 에이전트 실험실은 연구자가 연구 아이디어를 실현할 수 있도록 설계된 엔드투엔드 자율 연구 워크플로우입니다. 이 시스템은 문헌 검토 및 계획 개발부터 실행까지 전체 연구 워크플로우를 지원하는 대규모 언어 모델에 기반한 전용 에이전트로 구성되어 있습니다.
1 년 전
057.5K
HivisionIDPhotos:开源智能AI证件照制作工具

하이비전ID사진: 오픈 소스 지능형 AI 사진 신분증 생성 도구

종합 소개 HivisionIDPhotos는 오픈 소스 경량 AI 문서 사진 제작 도구로, 사용자 사진 장면과 키잉을 지능적으로 식별하여 다양한 사양에 맞는 표준 문서 사진을 생성할 수 있습니다. 이 도구는 사용자 정의 배경 색상과 크기를 지원하며 향후 뷰티 및 ...
2 년 전
057.5K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: 빠르고 제어 가능한 다국어(7000개 이상의 언어 지원) 텍스트 음성 변환 도구

일반 소개 IMS Toucan은 독일 슈투트가르트 대학교의 자연어 처리 연구소(IMS)에서 개발한 최첨단 텍스트 음성 변환(TTS) 툴킷입니다. 이 툴킷은 7000개 이상의 언어를 지원하며 빠르고 제어 가능하며 컴퓨팅 리소스 요구 사항이 낮습니다.IMS...
1 년 전
057.5K
Open Operator:通过AI智能体在云浏览器中执行自动化操作

오픈 오퍼레이터: AI 인텔리전스를 통해 클라우드 브라우저에서 자동화된 작업 수행하기

일반 소개 오픈 오퍼레이터는 인공지능을 통해 브라우저에서 작업을 자동화하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 브라우저베이스에서 개발했으며 스테이지핸드와 브라우저베이스의 기술이 결합되어 있습니다.
1 년 전
057.4K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: 멀티모달 스마트 디바이스 구축을 위한 인텔리전트 바디 프레임워크

종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
1 년 전
057.3K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: LLM 사전 교육을 위한 효율적인 웹 크롤링 도구

종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...
1 년 전
057.3K
GaiaNet node:安装和运行自己的本地模型在线代理服务

GaiaNet 노드: 자체 로컬 모델 온라인 프록시 서비스 설치 및 실행

일반 소개 GaiaNet-AI/gaianet-node는 사용자가 단일 명령으로 Mac, Linux 또는 Windows WSL에 기본 노드 소프트웨어 스택을 빠르게 설치할 수 있는 오픈 소스 프로젝트입니다. 사용자는 노드를 초기화하고, 구성을 사용자 지정하고, 다운로드할 수 있습니다.
2 년 전
057.3K
3FS:提升数据访问效率的并行文件系统(DeepSeek 开源周第五天)

3FS: 데이터 액세스 효율성을 향상시키는 병렬 파일 시스템(딥서치 오픈 소스 주간 5일차)

일반 소개 3FS(파이어-플라이어 파일 시스템)는 최신 SSD 및 RDMA 네트워크용으로 설계된 DeepSeek 팀이 개발한 오픈 소스 병렬 파일 시스템으로, 데이터 액세스 효율성을 획기적으로 개선하는 것을 목표로 합니다. 180개 노드 클러스터에서 구현됩니다...
1 년 전
057.2K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: 마이크로서비스 관리를 간소화하고 보안을 강화하는 효율적인 AI 게이트웨이 솔루션 제공

포괄적인 소개 Higress는 효율적인 트래픽 스케줄링, 서비스 거버넌스 및 보안 솔루션을 제공하도록 설계된 Istio 및 Envoy를 기반으로 Alibaba에서 개발한 클라우드 네이티브 API 게이트웨이입니다. AI 비즈니스를 위한 여러 프로그래밍 언어용 Wasm 플러그인 확장을 지원합니다.
1 년 전
057.2K
RAIN:实时捕捉真人表情生成动漫形象视频流

RAIN: 실제 사람의 표정을 실시간으로 캡처하여 애니메이션 이미지의 비디오 스트림을 생성합니다.

일반 소개 RAIN(Real-time Animation Of Infinite Video Stream)은 무한 비디오 스트림에 대한 애니메이션 효과를 실시간으로 생성하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Pscgylotti에 의해 개발되었습니다.
1 년 전
057.2K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: .NET 기반 다중 인텔리전스 AI 개발 및 관리 플랫폼

개요 BotSharp는 포괄적인 AI 챗봇 플랫폼 구축 도구를 제공하기 위한 .NET Core 기반의 오픈 소스 프로젝트입니다. C# 프로그래밍을 사용하고 크로스 플랫폼 운영을 지원하며 머신러닝 알고리즘의 적용을 단순화하여 엔터프라이즈급 개발자가 효율적으로 사용할 수 있도록 하는 것을 목표로 합니다.
1 년 전
057.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

개인 건강 데이터 관리를 위한 AI 비서, 맞춤형 건강 플랜을 위한 검사 보고서 업로드: OpenHealthForAll

일반 소개 오픈헬스포올은 사용자가 자신의 개인 건강 데이터를 관리하고 이해할 수 있도록 설계된 오픈소스 프로젝트입니다. 인공 지능 기술을 활용하여 사용자가 더 잘 관리할 수 있도록 로컬에서 실행되는 건강 도우미를 제공합니다.
1 년 전
057.1K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: 대화형 이미지 편집 도구, 포인트 앤 클릭 및 드래그 앤 드롭으로 이미지 위치를 제어할 수 있습니다.

일반 소개 DragGAN은 생성적 적대 신경망(GAN)을 기반으로 하는 대화형 이미지 편집 도구입니다. 시그라프 2023에서 Xingang Pan 등이 발표한 이 도구는 간단한 포인트 앤 클릭과 드래그 앤 드롭 조작을 통해 사용자가 직관적으로 조작할 수 있도록 하는 것을 목표로 합니다.
1 년 전
057.1K
LangManus:支持多智能体协作的开源AI自动化框架

LangManus: 다중 지능 협업을 지원하는 오픈 소스 AI 자동화 프레임워크

일반 소개 LangManus는 GitHub에서 호스팅되는 오픈 소스 AI 자동화 프레임워크입니다. 전직 동료들이 여가 시간에 개발한 이 프레임워크는 웹 검색, 데이터 크롤링 및 코드 실행을 위한 언어 모델과 전문 도구를 결합하는 것을 목표로 하는 학술 중심 프로젝트입니다....
1 년 전
057.1K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice: 실리콘 기반 플로우 API를 기반으로 하는 텍스트 음성 변환 그래픽 인터페이스

일반 소개 Text2Voice는 실리콘 기반 모빌리티 API를 기반으로 텍스트 음성 변환 기능을 제공하는 오픈 소스 도구로, 깔끔한 그래픽 사용자 인터페이스(GUI)가 가장 큰 특징입니다. 개발자 쉘든 리가 깃허브에서 만든 이 도구는 다음과 같은 기능을 제공합니다.
1 년 전
057.1K
Vibe Draw:将手绘草图转化为3D模型的创意工具

Vibe Draw: 손으로 그린 스케치를 3D 모델로 변환하는 창의적인 도구

일반 소개 Vibe Draw는 Martin Sit이 개발한 오픈 소스 프로젝트로, 사용자가 손으로 그린 스케치를 아름다운 3D 모델로 변환할 수 있게 해줍니다. 이 도구의 목표는 간단합니다. 뛰어난 예술적 기술이나 재주가 없어도 누구나 쉽게 3D 모델링을 할 수 있도록 하는 것입니다.
1 년 전
057.1K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: 실시간 음성 대화 및 이미지 이해를 위한 오픈 소스 모델

일반 소개 모시비스는 규타이 연구소에서 개발하여 깃허브에서 호스팅하는 오픈 소스 프로젝트입니다. 약 2억 6천 6백만 개의 새로운 적응 매개변수와 고정된 Pal...을 갖춘 Moshi 음성-텍스트 모델(7B 매개변수)을 기반으로 합니다.
1 년 전
057K
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 오디오 및 비디오 콘텐츠를 빠르게 추출하고 구조화된 노트를 생성하세요.

종합 소개 AudioNotes는 FunASR과 Qwen2를 기반으로 구축된 오디오/비디오-구조화된 노트 시스템입니다. 오디오/비디오 콘텐츠를 빠르게 추출하고 빅 모델을 호출하여 구조화된 마크다운 노트를 생성할 수 있어 다음과 같은 경우에 편리합니다.
1 년 전
057K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

반응형 이력서: 다국어 및 다중 템플릿을 지원하는 오픈 소스 무료 이력서 작성기

일반 설명 반응형 이력서는 이력서 작성, 업데이트 및 공유 프로세스를 간소화하도록 설계된 무료 오픈 소스 이력서 작성기입니다. 이 플랫폼은 사용자 추적이나 광고 없이 사용자 개인정보 보호에 중점을 두고 있습니다. 사용자는 30초 이내에 앱을 셀프 호스팅할 수 있으며, 앱을 완전히 제어할 수 있습니다.
1 년 전
057K
Lecca:无代码构建AI智能体与AI工作流构建平台

레카: 코드 없이 AI 인텔리전스 및 AI 워크플로 구축 플랫폼 구축하기

포괄적인 소개 Lecca는 사용자가 여러 도구와 워크플로우를 사용하여 대규모 언어 모델(LLM)을 구성하고 배포할 수 있는 강력한 AI 플랫폼입니다. 사용자는 AI 에이전트를 쉽게 구축, 사용자 지정 및 자동화할 수 있으며, 다양한 AI 제공업체와 모델을 선택할 수 있습니다.
1 년 전
056.9K
BrownChat:开源实时语音聊天的AI助手

브라운챗: 오픈 소스 실시간 음성 채팅 AI 비서

일반 소개 브라운챗은 대규모 언어 모델링(LLM) 기술을 기반으로 한 실시간 오디오 채팅 애플리케이션입니다. 깃허브 사용자 sugarforever가 개발한 이 프로젝트는 고급 자연어 처리 기술을 통해 사용자의 커뮤니케이션 경험을 향상시키는 것을 목표로 합니다....
1 년 전
056.8K
WikiChat:使用维基百科数据检索知识的聊天工具

WikiChat: Wikipedia 데이터를 사용하여 지식을 검색할 수 있는 채팅 도구

일반 소개 위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 처리하는 경향이 있습니다.
1 년 전
056.8K
FantasyTalking:生成真实感说话肖像的开源工具

판타지토킹: 사실적으로 말하는 인물 사진을 생성하는 오픈 소스 툴

일반 소개 판타지토킹은 판타지-AMAP 팀이 개발한 오픈 소스 프로젝트로, 오디오 드라이브를 통해 사실적으로 말하는 인물 비디오를 생성하는 데 중점을 두고 있습니다. 이 프로젝트는 오디오 인코더 Wa와 결합된 고급 비디오 확산 모델 Wan2.1을 기반으로 합니다.
11개월 전
056.7K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: 대형 모델을 쉽게 이해하고 조작할 수 있도록 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱합니다.

일반 소개 OmniParser는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 구문 분석하기 위해 Microsoft에서 개발한 도구입니다. 이 도구는 해당 인터페이스 영역에서 정확한 동작을 생성하는 GPT-4V의 기능을 크게 향상시킵니다.OmniParser는 다음을 지원할 뿐만 아니라...
1 년 전
056.7K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: AI 기반 오픈소스 검색 엔진으로 스마트 Q&A, 동영상 검색, UI 코드 생성 기능을 제공합니다.

일반 소개 모픽은 지능형 Q&A와 효율적인 검색 환경을 제공하기 위해 설계된 생성형 사용자 인터페이스를 갖춘 AI 기술 기반의 검색 엔진입니다. 사용자는 모픽으로 텍스트, 동영상 등 다양한 검색을 수행할 수 있으며, 검색 기록을 저장하고 검색 결과를 공유할 수 있습니다.모픽은...
1 년 전
056.7K