AI 오픈 소스 프로젝트

총 1020개 문서
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

쿨클라인: 클라인루 클라인과 바오 클라인의 장점을 결합한 클라인의 지능형 코딩 어시스턴트의 또 다른 향상된 버전입니다.

일반 설명 쿨클라인은 클라인, 루클라인, 바오클라인의 최고의 기능을 결합한 강력한 코딩 어시스턴트입니다. 명령줄 인터페이스(CLI) 및 편집기와 원활하게 작동하여 가장 강력한 기능을 제공합니다.
1 년 전
069.6K
PandasAI:数据分析对话平台,用自然语言完成数据查询与图表生成

PandasAI: 자연어로 데이터 쿼리 및 차트 생성을 위한 데이터 분석 대화 플랫폼

일반 소개 PandasAI는 자연어 처리 기술을 통해 데이터 분석 프로세스를 간소화하도록 설계된 Python 기반 오픈 소스 플랫폼입니다. 사용자가 데이터베이스(예: SQL, CSV, 판다, 폴라, 몽고DB, ...)와의 대화를 통해 작업할 수 있도록 지원합니다.
2 년 전
069.5K
Deep Recall:为大模型提供企业级记忆框架的开源工具

딥 리콜: 대규모 모델을 위한 엔터프라이즈급 메모리 프레임워크를 제공하는 오픈 소스 도구

포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
1 년 전
069.5K
ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

개요 ConsisID는 북경대학교의 Yuan Rong 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 달성하는 것을 목표로 합니다. 이 프로젝트의 핵심은 DiT(Diffusion Transfor ...
2 년 전
069.5K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT 에이전트: 복잡한 표 형식의 데이터를 분석하도록 설계된 지능형 도구

종합 소개 TableGPT 에이전트는 표 형식의 데이터를 처리하고 분석하기 위해 설계된 GitHub 오픈 소스 프로젝트에 기반한 지능형 도구입니다. TableGPT2 빅 언어 모델에 의존하며 자연어 상호 작용을 사용하여 사용자가 쉽게 쿼리하고 조작할 수 있도록 합니다.
1 년 전
069.4K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: 기술 PDF 문서에 자동으로 주석을 달고 관련 인용을 제공합니다.

종합 소개 SmartRead는 기술 문서용으로 설계된 AI 기반 오픈 소스 도구입니다. PDF 파일을 자동으로 분석하고 중요한 용어, 제목 또는 핵심 아이디어와 같은 주요 내용을 표시하여 사용자가 복잡한 문서를 빠르게 이해할 수 있도록 도와줍니다. 동시에 주요 내용을 제공하고 문서화할 수도 있습니다.
1 년 전
069.4K
StarVector:从图像和文字生成SVG矢量图的基础模型

StarVector: 이미지와 텍스트에서 SVG 벡터 그래픽을 생성하기 위한 기본 모델입니다.

일반 소개 스타벡터는 이미지와 텍스트를 확장 가능한 벡터 그래픽(SVG)으로 변환하기 위해 후안 로드리게스와 같은 개발자가 만든 오픈 소스 프로젝트입니다. 이 도구는 시각적 언어 모델을 사용하여 이미지 콘텐츠와 텍스트를 이해할 수 있습니다.
1 년 전
069.4K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: 나만의 퍼플렉서티 검색 엔진을 배포할 수 있는 오픈 소스 AI 검색 엔진 프레임워크!

종합 소개 MindSearch는 상하이 인공 지능 연구소(SAL)에서 출시한 오픈 소스 AI 검색 엔진 프레임워크로, 복잡한 정보 수집 및 통합을 위한 인간의 사고 과정을 시뮬레이션하는 것을 목표로 합니다. 이 도구는 다중 지능을 통해 대규모 언어 모델링(LLM)과 검색 엔진의 고급 기술을 결합합니다....
1 년 전
069.3K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 언어 명령으로 애니메이션 동영상 및 캐릭터 상호작용을 생성하는 오픈 소스 도구

AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.
1 년 전
069.3K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: 머신 러닝 논문을 실행 가능한 코드로 자동 변환하기

일반 소개 Paper2Code는 머신러닝 논문에 대한 코드 구현 부족 문제를 해결하기 위한 오픈 소스 프로젝트입니다. 이 프로젝트는 다중 에이전트 LLM(대규모 언어 모델링) 시스템인 PaperCoder를 통해 과학 논문을 실행 가능한 코드 리포지토리로 자동 변환합니다. 이 시스템은 계획을 사용합니다 ...
1 년 전
069.2K
Langui:开源的AI用户界面组件库

Langui: AI 사용자 인터페이스 구성 요소의 오픈 소스 라이브러리

일반 소개 LangbaseInc의 Langui는 제너레이티브 AI 및 LLM(대규모 언어 모델링) 프로젝트를 위해 설계된 오픈 소스 사용자 인터페이스 컴포넌트 라이브러리입니다. 이 라이브러리는 Tailwind CSS를 기반으로 하며 개발자가 빠르게 구성할 수 있도록 미리 빌드된 UI 컴포넌트 모음을 제공합니다.
1 년 전
069.2K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
1 년 전
069.1K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: 검색 향상 생성 시스템 최적화를 위한 시각적 평가 도구

종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.
1 년 전
069.1K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAI 에이전트 SDK: 협업형 멀티 인텔리전스 워크플로우 구축을 위한 파이썬 프레임워크

일반 소개 OpenAI 에이전트 SDK는 다중 지능 워크플로우를 구축하기 위해 설계된 OpenAI의 경량 개발 도구입니다. 파이썬을 기반으로 하며 사용하기 쉬워 개발자가 에이전트를 구성하고 작업을 단축할 수 있습니다.
1 년 전
069.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

개요 Easy-Voice-Toolkit은 오픈 소스 음성 프로젝트에 기반한 다기능 툴킷으로 음성 인식, 음성 전사, 음성 변환, 데이터 세트 생성 및 모델 학습을 위한 다양한 자동화된 오디오 도구를 제공합니다. 사용자는 필요에 따라 이러한 도구를 선택적으로 사용할 수 있습니다...
2 년 전
069.1K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.

일반 소개 MegaParse는 대규모 언어 모델(LLM)의 데이터 처리를 최적화하도록 설계된 강력하고 다재다능한 문서 구문 분석 도구입니다. 텍스트, PDF, PowerPoint 프레젠테이션, Word 문서 등 어떤 작업을 하든 MegaParse...
2 년 전
069K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3 및 PlayHT TTS를 기반으로 하는 NotebookLM의 오픈 소스 구현

일반 소개 오픈 소스 노트북LM은 딥시크-V3의 언어 이해 기능과 PlayHT의 음성 합성 기술을 결합한 혁신적인 인공지능 프로젝트로, 지능형 노트 필기 대화 시스템을 만드는 것을 목표로 합니다. 이 프로젝트는 Build Fast w에서 개발했습니다.
1 년 전
068.9K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: 지능형 웹 정보 처리 도구, 웹 콘텐츠 캡처를 위한 무료 API

웹파일럿 일반 소개 웹파일럿은 모든 웹 페이지와 자유롭게 소통하거나 자동화된 작업을 수행할 수 있는 무료 오픈 소스 '웹 어시스턴트'입니다. 페이지를 전환하거나 복사하여 붙여넣을 필요 없이 텍스트를 선택하거나 명령을 입력하기만 하면 웹파일럿을 사용할 수 있습니다.
2 년 전
068.9K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: 명령줄에서 작동하는 로컬 문서의 지능형 퀴즈를 위한 RAG 시스템

일반 소개 RLAMA는 돈티지 오픈소스로 개발되어 깃허브에서 호스팅되는 문서 지능 퀴즈 RAG(검색 증강 생성) 시스템으로, 명령줄 작업을 통한 기능이 핵심 특징입니다. 사용자는 간단한 터미널 명령을 사용하여 로컬에 연결할 수 있습니다.
1 년 전
068.9K
AIBot PRO:集成多种AI产品的商业化聚合平台

AIBot PRO: 여러 AI 제품을 통합하는 상용화 통합 플랫폼

종합 소개 AIBot PRO는 사용자에게 여러 AI 제품을 통합할 수 있는 편리한 플랫폼을 제공하도록 설계된 .NET 6 기반 AI 통합 클라이언트입니다. 이 클라이언트는 무의미한 전환 대화를 지원하며 ChatGPT, Gemini, Claude, Wenxin Yiyin을 통합합니다.
1 년 전
068.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: 오프라인에서 실행되는 OLMoE 모델 기반의 오픈 소스 iOS AI 앱

일반 소개 Ai2 OLMoE는 앨런 인공지능 연구소(Ai2, Allen Institute for AI)에서 기기에서만 실행되는 인공지능 모델을 제공하기 위해 개발한 오픈 소스 iOS 앱입니다. 이 앱은 Ai2의 오픈 소스 OLMoE를 활용합니다.
1 년 전
068.8K
ANP:实现智能代理间安全高效通信的开源协议

ANP: 지능형 에이전트 간의 안전하고 효율적인 통신을 위한 오픈 소스 프로토콜

일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
1 년 전
068.8K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: 명령을 이해하고 하위 작업으로 분할하여 코드를 작성하는 오픈 소스 AI 소프트웨어 엔지니어 인텔리전스

일반 소개 Devika는 인간의 높은 수준의 지시를 이해하고, 이를 단계별로 세분화하여 관련 정보를 연구하고, 주어진 목표를 달성하기 위해 코드를 작성하는 고급 AI 소프트웨어 엔지니어입니다. 대규모 언어 모델, 계획 및 추론 알고리즘, 웹 브라우징 기능을 사용하여 소프트웨어를 지능적으로 개발합니다....
1 년 전
068.7K
Sketch-Gen:生成高质量线稿和草图,反推图像提示词,一键安装包

Sketch-Gen: 고품질 선화 및 스케치 생성, 이미지 단서 단어 역전파, 원클릭 패키지 설치

일반 소개 Sketch-Gen은 아티스트와 디자이너가 고품질의 선화와 스케치를 빠르게 생성할 수 있도록 설계된 AI 기술 기반의 선화 및 스케치 생성 도구입니다. 페인츠-언두 프로젝트에서 파생된 이 도구는 고급 머신 러닝 모델을 사용해 다음을 수행할 수 있습니다.
2 년 전
068.7K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

레이캐스트-G4F: 레이캐스트를 통해 GPT-4, 라마-3 및 기타 여러 AI 모델에 무료로 액세스하세요!

일반 소개 레이캐스트-G4F(GPT4Free)는 사용자가 GPT-4, 라마-3을 포함한 다양한 고급 AI 모델에 무료로 액세스할 수 있는 강력한 레이캐스트 확장 프로그램입니다. 이 확장 프로그램은 실시간 대화 스트리밍을 제공할 뿐만 아니라...
1 년 전
068.6K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT: 시각 콘텐츠 분석을 개선하기 위한 이미지 및 비디오 영역 수준 이해를 위한 멀티모달 그랜드 모델

종합 소개 Omni-RGPT는 이미지와 동영상에 대한 영역 수준의 이해를 가능하게 하도록 설계된 멀티모달 대규모 언어 모델입니다. 토큰 마크 기술을 도입함으로써 Omni-RGPT는 시각적 특징 공간에서 영역 단서(예: 상자 또는...)로 대상 영역을 강조 표시할 수 있습니다.
1 년 전
068.6K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

모킹버드: 빠른 음성 복제 및 모델 학습, xtts v2 기반 텍스트 음성 변환

종합적인 소개 모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 모든 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows에서는 ...
2 년 전
068.5K
Paper Reviewer:自动生成arXiv论文的综合评审并转化为博客文章

논문 검토기: arXiv 논문에 대한 종합적인 리뷰를 자동으로 생성하고 블로그 게시물로 변환합니다.

일반 소개 논문 리뷰어는 arXiv 논문에서 종합적인 리뷰를 생성하고 이를 블로그 게시물로 전환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Hugging Face의 데일리 페이퍼 웹사이트를 구동하며, 자동으로 ...
2 년 전
068.5K
sensitive-word:敏感词过滤工具,高效DFA算法实现

민감한 단어: 민감한 단어 필터링 도구, 효율적인 DFA 알고리즘 구현

포괄적인 소개 민감한 단어 필터링 도구(민감한 단어)는 DFA 알고리즘 프레임워크 구현을 기반으로 하는 고성능 Java 민감한 단어 필터링 도구입니다. 이 도구는 민감한 단어를 효율적으로 감지하고 필터링할 수 있으며 다양한 형식 변환 및 사용자 지정 대체 전략을 지원합니다. 설계 목표는 제공하는 것입니다 ...
2 년 전
068.4K
深度搜索器:利用本地知识进行深度推理搜索的开源项目

딥 파인더: 로컬 지식을 이용한 심층 추론 검색을 위한 오픈 소스 프로젝트

종합 소개 Deep Searcher는 개인 데이터를 기반으로 검색, 평가 및 추론하도록 설계된 LLM(대규모 언어 모델)과 벡터 데이터베이스를 결합하여 매우 정확한 답변과 포괄적인 보고서를 제공하는 강력한 도구입니다. 엔터프라이즈 지식 관리에 적합합니다...
1 년 전
068.4K
Deep Research Web UI:支持多语言深度研究的AI助手

딥 리서치 웹 UI: 다국어 딥 리서치를 지원하는 AI 비서

종합 소개 심층 연구 웹 UI는 사용자가 모든 주제에 대해 심층적인 반복 연구를 수행할 수 있도록 설계된 AI 기술 기반의 오픈 소스 연구 보조 도구입니다. 직관적인 웹 인터페이스를 통해 검색 엔진, 웹 크롤링 및 대규모 언어 모델링의 힘을 결합합니다...
1 년 전
068.3K
Agent Inbox:与AI智能体进行人机交互的管理界面

상담원 수신함: 인간과 컴퓨터의 AI 인텔리전스 상호작용을 위한 관리 인터페이스

일반 소개 에이전트 인박스는 AI 지능과 상호 작용할 수 있는 새로운 사용자 경험을 제공하기 위해 LangChain 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 중앙 집중식 인터페이스를 통해 여러 AI 인텔리전스와의 상호 작용을 관리하고 최적화할 수 있습니다.
1 년 전
068.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: 멀티모달 입력으로 캐릭터 일관성 있는 이미지를 생성하는 통합 이미지 생성 모델

일반 소개 OmniGen은 벡터스페이스랩에서 개발한 "범용" 이미지 생성 모델로, 간단한 텍스트 프롬프트 또는 멀티모달 입력으로 다양하고 맥락이 풍부한 비주얼을 생성할 수 있습니다. 특히 인식이 필요한 애플리케이션에 적합합니다...
2 년 전
068.2K
Feeds.Fun:自动标记和筛选新闻的RSS订阅工具

Feeds.Fun: 뉴스에 대한 자동 태그 지정 및 필터링 기능이 있는 RSS 피드

일반 소개 Feeds.Fun은 뉴스에 자동으로 태그를 지정하고 사용자 선호도에 따라 콘텐츠를 필터링하는 등의 핵심 기능을 통해 사용자가 효율적으로 뉴스를 읽을 수 있도록 도와주는 도구입니다. 개발자 알리악세이 얄레츠키(화면명 티엔딜)가 만들었으며 다음에서 호스팅됩니다.
1 년 전
068.2K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR: 비디오 얼굴 복구, 흑백, 흐릿한 인물 오래된 비디오 복구를 구현하기 위한 통합 프레임워크

종합 소개 SVFR(안정적인 비디오 얼굴 복원)은 비디오 얼굴 복원을 위한 통합 프레임워크로, 기본 얼굴 복원(BFR), 컬러링, 복구 및 이들의 조합 작업을 지원합니다. 이 프레임워크는 제너레이티브 및 키네마틱 프리오어를 통합하여 활용합니다.
1 년 전
068.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

레파: 고충실도 모델 가상 트라이얼 및 캐릭터 포즈 조정, 메타 오픈 소스 제어 캐릭터 이미지 생성 모델

개요 레파는 제어 가능한 캐릭터 이미지를 생성하기 위한 통합 프레임워크로, 캐릭터의 외형(예: 가상 피팅)과 포즈(예: 포즈 전송)를 정밀하게 조작할 수 있습니다. 이 프레임워크는 대상 쿼리가 주의 레이어에서 올바른 참조 키에 집중하도록 지시하여 세밀한 디테일의 왜곡을 크게 줄입니다.
1 년 전
068K
Quick Prompt:快速管理和使用提示词的浏览器扩展

빠른 프롬프트: 프롬프트를 빠르게 관리하고 사용하기 위한 브라우저 확장 프로그램

일반 빠른 프롬프트는 프롬프트 단어(프롬프트) 관리와 빠른 입력에 중점을 둔 오픈 소스 브라우저 확장 프로그램입니다. 사용자는 프롬프트 라이브러리를 생성, 구성 및 저장하고 미리 설정된 프롬프트 콘텐츠를 웹 페이지의 입력 상자에 빠르게 삽입할 수 있습니다. 이 도구는 특히 ...
1 년 전
067.8K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity: 사람의 시연을 통해 웹 작업을 수행하도록 AI를 훈련시키는 오픈 소스 프로젝트

일반 소개 옵텍스티는 옵텍스티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 다음과 같은 세 가지 코드 라이브러리가 포함되어 있습니다.
1 년 전
067.8K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

에이전틱 보안: 포괄적인 퍼즈 테스트 및 공격 기법을 제공하는 오픈 소스 LLM 취약점 스캔 도구

일반 소개 에이전트 보안은 개발자와 보안 전문가에게 포괄적인 퍼즈 테스트 및 공격 기술을 제공하도록 설계된 오픈 소스 LLM(대규모 언어 모델) 취약점 스캔 도구입니다. 이 도구는 사용자 지정 규칙 세트 또는 에이전트 기반 공격을 지원하며 LLM AP를 통합할 수 있습니다.
1 년 전
067.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.

종합 소개 Maxun은 오픈 소스 노코드 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 이를 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고, 웹사이트 레이아웃 변경에 적응하며, 강력한 데이터 크롤링 기능을 제공합니다.
1 년 전
067.7K
PicMenu:文字菜单转换为美观的图文菜单

PicMenu: 텍스트 메뉴를 멋진 그래픽 메뉴로 변환하기

개요 PicMenu는 간단한 사진 조작을 통해 기존의 종이 메뉴판을 생생하고 직관적인 그림 메뉴판으로 바꿔주는 혁신적인 AI 도구입니다. 이 도구는 각 요리의 고품질 이미지를 자동으로 생성할 뿐만 아니라 요식업의 디지털 혁신을 위해 요리에 대한 풍부한 정보를 제공합니다...
2 년 전
067.6K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

애그리게이터: 원스톱 에이전트 크롤링 및 집계 플랫폼, 무료 에이전트 풀(규정을 준수하여 사용하세요)

포괄적 인 소개 애그리 게이터는 사용 가능한 다양한 프록시 노드를 크롤링 할 수있는 무료 프록시 풀을 만드는 것을 목표로하는 오픈 소스 프로젝트입니다. 플랫폼에는 유연한 플러그인 시스템이 있으며 사용자는 대상 사이트의 특별한 요구에 따라 플러그인을 통해 특정 기능을 달성 할 수 있습니다. 이 프로젝트는 주로 크롤링하는 법을 배우는 데 사용됩니다 ...
2 년 전
067.6K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

스토리 어댑터: 긴 스토리를 기반으로 연속적이고 일관된 그래픽 일러스트를 생성합니다.

일반 소개 스토리 어댑터는 텍스트 스토리를 일관된 이미지 시퀀스로 변환하는 혁신적인 스토리 시각화 프레임워크입니다. 연구원들이 개발한 이 프로젝트는 고품질 스토리 일러스트를 생성하기 위해 별도의 교육이 필요 없는 반복적인 접근 방식을 채택하고 있습니다. 이 프레임워크는 긴 스토리를 처리할 수 있는 기능이 특징입니다.
1 년 전
067.6K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

메모라: 인간과의 상호 작용에 대한 정보를 저장하고 업데이트하는 인간화된 AI 메모리 모듈 구축

일반 소개 Memora는 개인화된 각 AI를 위해 인간의 기억을 복제하도록 설계된 에이전트입니다. 타임스탬프 기억, 감정 마커, 다중 모드 기억과 같은 기능을 통해 AI가 인간처럼 과거의 상호 작용, 감정, 공유 경험의 세부 사항을 기억할 수 있도록 도와주며, 메모라는 멀티 테넌시를 지원하며 다음과 같은 작업을 처리할 수 있습니다.
1 년 전
067.6K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent: 멀티모달 인텔리전스를 사용한 자동화된 스마트폰 작동

포괄적인 소개 AppAgent는 스마트폰 애플리케이션을 조작하도록 설계된 LLM(대규모 언어 모델) 기반 멀티모달 에이전트 프레임워크입니다. 이 프레임워크는 단순화된 조작 공간을 통해 탭 및 스와이프와 같은 인간의 상호 작용을 모방하여 시스템 백엔드 액세스가 필요하지 않으므로 다양한 앱으로 범위를 확장할 수 있습니다.
1 년 전
067.5K
Coding Agent:基于Langgraph构建的简单编程助手

코딩 에이전트: 랭그래프 기반의 간단한 프로그래밍 도우미

일반 소개 코딩 에이전트는 개발자의 프로그래밍 효율성 향상을 돕기 위해 AbhinavTheDev에서 개발한 지능형 프로그래밍 어시스턴트입니다. 이 도구는 인공 지능 기술을 사용하여 자동으로 코드를 생성하고, 프로그래밍 제안을 제공하며, 개발자에게 다양한 코딩을 지원합니다.
1 년 전
067.4K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: 오픈소스 지능형 회의 녹음 및 요약 도구로 OpenAI Whisper에 의존합니다.

일반 소개 미팅마인드는 비즈니스 회의를 캡처하고 요약하는 효율성을 향상시키기 위해 설계된 고급 AI 애플리케이션입니다. 이 앱은 정확한 음성-텍스트 변환을 위해 OpenAI의 Whisper 기술을 통합하고 IBM Watso...
2 년 전
067.4K
AnimatedDrawings:儿童手绘涂鸦转换动画,自动化儿童绘画动画生成工具

AnimatedDrawings: 아이들이 손으로 그린 낙서를 애니메이션으로 변환하는 자동화된 어린이 그림 애니메이션 생성 도구

일반 소개 AnimatedDrawings는 자동화 기술을 통해 어린이들의 그림을 애니메이션 캐릭터로 변환하기 위해 Facebook Research에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 "A Method for A...
1 년 전
067.4K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V: 다국어 입력 및 긴 비디오 생성을 지원하는 Vincennes 비디오 모델

종합 소개 Step-Video-T2V는 StepFun AI(StepFun Star)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 고도로 압축된 가변 자동 인코더(VAE)를 통해 이 모델은 ...
1 년 전
067.4K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 오디오 기반 인물 사진으로 말하는 동영상 생성(EchoMimicV2 가속 설치 프로그램)

일반 소개 EchoMimic은 오디오로 사실적인 인물 애니메이션을 생성하도록 설계된 오픈 소스 프로젝트입니다. Ant Group의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트의 조합을 사용하여 역동적인 인물 비디오를 생성합니다.EchoMimic...
1 년 전
067.3K
Novel:模仿Notion AI的开源写作编辑器

Novel: Notion AI를 모방한 오픈 소스 글쓰기 편집기

포괄적 인 소개 이것은 Novel이라고 불리는 Steven Tey가 개발 한 오픈 소스 프로젝트로, 사용자가 텍스트 입력의 효율성을 향상시키는 데 도움이되는 통합 AI 자동 완성 기능인 Notion 스타일 WYSIWYG 텍스트 편집기입니다. 이 프로젝트는 자세한 문서 및 설치 지침을 제공합니다 ...
2 년 전
067.3K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: 동영상 저작권을 보호하는 고급 오픈 소스 동영상 히든 워터마크 삽입 및 추출 도구

일반 소개 VideoSeal은 Facebook Research에서 개발한 오픈 소스 동영상 워터마킹 도구로, 효율적인 동영상 워터마크 삽입 및 추출을 제공하기 위해 설계되었습니다. 이 도구는 최신 오픈 소스 모델을 지원하며 사전 학습된 모델, 학습 코드, 추론 코드 및 평가 도구가 포함되어 있습니다.
1 년 전
067.3K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

일반 소개 Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 메타의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Ichigo의 목표는 다음과 같습니다.
1 년 전
067.3K
Search o1:赋予推理模型主动搜索能力,让大模型边思考边搜索外部知识

검색 o1: 추론 모델이 능동적으로 검색할 수 있도록 지원하여 대규모 모델이 사고하면서 외부 지식을 검색할 수 있도록 합니다.

종합 소개 Search-o1은 고급 검색 메커니즘을 통합하여 대규모 추론 모델(LRM)의 성능을 향상시키는 것을 목표로 하는 오픈 소스 프로젝트입니다. 핵심 아이디어는 동적 검색과 지식 통합을 통해 추론 과정에서 발생하는 지식 결핍 문제를 해결하는 것입니다. 이 프로젝트는 sunn이 후원합니다...
1 년 전
067.2K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: 무음 동영상에 생생한 동기화 사운드 추가하기

일반 소개 FoleyCrafter는 무음 동영상에 생생하고 동기화된 음향 효과를 생성하기 위해 OpenMMLab에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 인공 지능 기술을 사용하여 비디오 콘텐츠를 분석하여 의미적으로 관련성이 높고 시간에 동기화된 음향 효과를 생성합니다....
1 년 전
067.2K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: 문서를 구조화된 데이터로 추출하고 분류하여 문서 처리 프로세스를 최적화합니다.

포괄적인 소개 ExtractThinker는 LLM(대규모 언어 모델)을 사용하여 문서에서 구조화된 데이터를 추출하고 분류하는 유연한 문서 인텔리전스 도구로, 원활한 ORM과 같은 문서 처리 워크플로우를 제공합니다. Tess를 비롯한 다양한 문서 로더를 지원합니다.
1 년 전
067.1K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

코스모스: 세계 기본 모델, 물리적 세계의 AI 기본 모델을 구축하기 위한 플랫폼

포괄적인 소개 NVIDIA Cosmos는 개발자를 위한 월드 기반 모델링 플랫폼으로, 물리 AI 개발자가 물리 AI 시스템을 더 빠르고 효율적으로 구축할 수 있도록 특별히 설계되었습니다. 이 플랫폼은 확산 및 자동 회귀 월드 기반 등 다양한 사전 훈련된 모델을 제공합니다.
1 년 전
067.1K
Plandex:支持超长上下文的开源AI编码助手

Plandex: 매우 긴 컨텍스트를 지원하는 오픈 소스 AI 코딩 도우미

일반 소개 Plandex는 대규모의 복잡한 소프트웨어 프로젝트를 위해 설계된 오픈 소스 엔드투엔드 AI 코딩 도우미입니다. 다단계 작업을 계획 및 실행하고 최대 2백만 토큰의 컨텍스트를 처리하며 30개 이상의 프로그래밍 언어를 지원할 수 있으며, Plandex는 ...
1 년 전
067.1K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: 사진으로 반신 디지털 인물 동영상을 생성하는 도구

일반 소개 채팅애니원은 HumanAIGC 팀이 개발한 혁신적인 프로젝트입니다. 인공 지능 기술을 사용하여 한 장의 사진과 오디오 입력으로 상체 움직임이 있는 디지털 인물 동영상을 생성합니다. 이 프로젝트는 머리 움직임을 생성하는 계층적 모션 확산 모델을 기반으로 합니다...
1 년 전
067.1K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr 컴퓨터: PyAutoGUI 라이브러리를 사용한 데스크톱 조작 인텔리전스 자동화

일반 소개 Clevrr Computer는 PyAutoGUI 라이브러리를 사용하여 시스템 운영을 자동화하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 다음을 사용하여 정확하고 효율적으로 작업을 수행할 수 있는 자동화 에이전트를 설계하기 위해 Anthropic에서 영감을 받았습니다.
1 년 전
067K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

비디오챗: 사용자 지정 이미지 및 톤 복제가 가능한 실시간 음성 대화형 디지털 사람, 엔드투엔드 음성 솔루션 및 캐스케이딩 솔루션 지원

일반 소개 비디오챗은 오픈 소스 기술을 기반으로 하는 실시간 음성 상호작용 디지털 사람 프로젝트로, 엔드투엔드 음성 체계(GLM-4-Voice - THG)와 캐스케이드 체계(ASR-LLM-TTS-THG)를 모두 지원합니다. 이 프로젝트를 통해 사용자는 디지털 ...
2 년 전
067K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: PDF를 HTML로 무손실 변환하여 텍스트 서식을 유지하며 학술 논문 및 잡지 조판에 적합합니다.

포괄적 인 소개 pdf2htmlEX는 PDF 파일의 내용을 분석하고 HTML + CSS를 사용하여 시각 효과를 정확하게 복원하여 PDF 파일을 HTML 형식으로 변환하도록 설계된 오픈 소스 도구로, PDF 문서가 브라우저로 변환됩니다 ...
2 년 전
066.9K
Agenta:集成到AI应用的提示词与模型效果评估工具

에이전타: AI 애플리케이션에 통합된 단서 단어 및 모델 효과를 평가하기 위한 도구

종합 소개 에이전타는 사용자가 쉽게 큐 워드를 실험하고, 모델 효과를 테스트하고, 실행을 모니터링할 수 있도록 설계된 오픈 소스 AI 모델 관리 도구입니다. 작동이 간편한 플랫폼을 제공하여 AI 애플리케이션을 빠르게 개발하고자 하는 사람들에게 적합합니다. 다양한 단서 단어의 효과를 테스트하는 데 사용할 수 있습니다...
1 년 전
066.9K