AI 오픈 소스 프로젝트

총 1020개 문서
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: Gradio를 기반으로 여러 AI 모델을 쉽게 통합하고 멀티모달 애플리케이션을 구축하세요.

일반 소개 ai-gradio는 개발자가 여러 AI 모델을 쉽게 통합하고 사용할 수 있도록 설계된 오픈 소스 Python 툴킷입니다. Gradio를 기반으로 구축된 이 프로젝트는 여러 AI 모델과 서비스를 지원하기 위한 통합 인터페이스를 제공합니다. 텍스트, 음성, 동영상 등 어떤 데이터든...
6개월 전
03K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

컴피유 디스티 플로우: 워크플로우를 간소화하는 컴피유 사용자 친화적 인터페이스

일반 소개 ComfyUI-disty-Flow는 ComfyUI에 사용자 친화적인 인터페이스를 제공하는 사용자 정의 노드입니다. 이 노드는 워크플로우 생성을 위한 대체 사용자 인터페이스를 제공하여 워크플로우 실행을 단순화하기 위한 것입니다.ComfyUI-disty...
7개월 전
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: Tencent ARC에서 출시한 이미지 복원 및 편집을 위한 올인원 도구

종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
8개월 전
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

소닉: 오디오 기반 인물 이미지로 생생한 얼굴 표정이 담긴 디지털 데모 동영상 생성

일반 소개 Sonic은 글로벌 오디오 인식에 초점을 맞춘 혁신적인 플랫폼으로, 오디오를 기반으로 생생한 인물 애니메이션을 생성하는 것을 목표로 합니다. 텐센트와 저장대학교의 연구팀이 개발한 이 플랫폼은 오디오 정보를 사용하여 얼굴 표정과 머리 움직임을 제어하여 자연스럽고 부드러운 애니메이션 동영상을 생성합니다....
4개월 전
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Gemini 모델을 사용하여 클릭 한 번으로 짧은 내레이션 동영상 또는 긴 동영상의 동영상 요약을 만듭니다.

개요 AI2SRT는 GeminiAI 빅 모델을 사용하여 한 번의 클릭으로 짧은 내레이션 동영상과 긴 동영상의 동영상 요약을 생성하는 동시에 오디오 및 동영상 전사 자막을 지원하는 오픈 소스 프로젝트입니다. 이 프로젝트는 동영상 콘텐츠 제작 과정을 간소화하고 효율적인 자막 생성 및 번역 기능을 제공하는 것을 목표로 합니다. 사용자는 통과할 수 있습니다...
8개월 전
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

딥시크 엔지니어: 딥시크 API를 기반으로 하는 실험적인 코딩 도우미로, 큐워드가 포함되어 있습니다.

일반 설명 DeepSeek Engineer는 직관적인 명령줄 인터페이스를 통해 사용자와 상호 작용하여 다양한 소프트웨어 개발 작업을 지원하는 DeepSeek API 기반의 강력한 프로그래밍 도우미 도구입니다. 이 도구는 대규모 언어 모델링의 강력한 기능과 실제 ...
6개월 전
02.9K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

마크다운을 포스터로: 온라인 편집 및 원클릭 배포 지원을 통해 마크다운을 소셜 미디어/작은 빨간색 포스터로 변환하세요.

일반 설명 마크다운 투 이미지는 마크다운 텍스트를 시각적으로 매력적인 소셜 미디어 이미지로 렌더링하기 위한 React 컴포넌트입니다. 이 프로젝트에는 온라인 마크다운 투 포스터 에디터로 사용할 수 있는 내장 웹 에디터도 포함되어 있습니다.
9개월 전
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: 검색 향상 생성 시스템 최적화를 위한 시각적 평가 도구

종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.
7개월 전
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: 실험적인 텍스트 음성 변환 모델, 순수 언어 모델링 접근 방식을 사용하여 구현된 TTS

종합 소개 OuteTTS는 순수 언어 모델링 접근 방식을 사용하여 고품질 음성을 생성하는 실험적인 텍스트 음성 변환(TTS) 모델입니다. 기존 TTS 시스템과 달리 OuteTTS는 외부 어댑터나 복잡한 아키텍처가 필요하지 않습니다. 이 모델은 LLaMa 아키텍처를 기반으로 합니다...
6개월 전
02.9K
Supermemory:导入书签和网页内容构建个人知识库

슈퍼메모리: 북마크 및 웹 콘텐츠를 가져와 개인 지식창고 구축하기

일반 소개 슈퍼메모리는 사용자가 '제2의 두뇌'를 구축할 수 있도록 설계된 오픈소스 프로젝트입니다. 강력한 Chrome 확장 프로그램과 AI 기술을 통해 사용자는 웹페이지, 트위터 북마크 등에서 데이터를 쉽게 저장, 정리, 검색할 수 있습니다.
6개월 전
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: 오픈 소스 제로 샘플 음성 복제 및 텍스트 음성 변환 도구

개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.
10개월 전
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: 안전한 오프라인을 위한 스마트 프로그래밍 지원, 네이티브 LLM 기반 Vim 프로그래밍 도우미

일반 소개 VimLM은 네이티브 LLM(대규모 언어 모델)으로 구동되는 코드 어시스턴트를 제공하는 Vim 플러그인입니다. Vim 명령을 통해 기본 LLM 모델과 상호 작용하여 코드 컨텍스트를 자동으로 가져와 사용자가 Vim에서 코드를 편집할 수 있도록 도와줍니다.VimLM은 다음에서 영감을 받았습니다.
6개월 전
02.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo(llama3-s): 로컬 실시간 음성 AI 비서, Siri의 오픈 소스 버전

일반 소개 Ichigo는 텍스트 기반 언어 모델을 네이티브 '듣기' 기능으로 확장하는 것을 목표로 하는 오픈 소스 실시간 음성 AI 프로젝트입니다. 이 프로젝트는 메타의 카멜레온 논문에서 영감을 얻은 초기 융합 기술을 사용하며, Ichigo의 목표는 다음과 같습니다.
7개월 전
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

스트리밍T2V: 텍스트에서 긴 동영상까지 동적이고 확장 가능한 생성

종합 소개 스트리밍T2V는 텍스트 설명을 기반으로 일관성 있고 동적이며 확장 가능한 긴 동영상을 생성하는 데 중점을 두고 픽사트 AI 연구팀에서 개발한 공개 프로젝트입니다. 이 기술은 고급 자동 회귀 접근 방식을 사용하여 비디오와 설명 텍스트의 시간적 일관성을 엄격하게 보장합니다.
9개월 전
02.9K
에이전타리움: 여러 AI 인텔리전스 간의 상호작용 관리 및 조정

에이전타리움: 여러 AI 인텔리전스 간의 상호작용 관리 및 조정

일반 소개 에이전타리움은 AI 지능형 에이전트(에이전트)를 관리하고 오케스트레이션하는 데 특화된 강력한 Python 프레임워크입니다. 이 프레임워크는 여러 AI 에이전트 간의 상호 작용을 생성, 관리 및 오케스트레이션하는 유연하고 직관적인 방법을 제공합니다. 이 프레임워크는 A...
7개월 전
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP: 지능형 에이전트 간의 안전하고 효율적인 통신을 위한 오픈 소스 프로토콜

일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
5개월 전
02.9K
RAIN:实时捕捉真人表情生成动漫形象视频流

RAIN: 실제 사람의 표정을 실시간으로 캡처하여 애니메이션 이미지의 비디오 스트림을 생성합니다.

일반 소개 RAIN(Real-time Animation Of Infinite Video Stream)은 무한 비디오 스트림에 대한 애니메이션 효과를 실시간으로 생성하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Pscgylotti에 의해 개발되었습니다.
7개월 전
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: 지식 베이스 + LLM 기반 지능형 코드 검토 멘토(GitHub용)

종합 소개 CR-Mentor는 전문 지식 베이스와 LLM(대규모 언어 모델링)의 강력한 기능을 결합한 지능형 코드 리뷰 도구입니다. 모든 프로그래밍 언어에 대한 코드 리뷰를 지원할 뿐만 아니라 지식 기반에 축적된 모범 사례를 기반으로 팀을 위한 전용 검토 기준과 집중 영역을 사용자 지정할 수 있습니다. 다음을 통해...
9개월 전
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

코그에이전트: 그래픽 인터페이스 자동화를 위한 스마트 스펙트럼의 오픈 소스 지능형 시각 언어 모델

종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
8개월 전
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: AI 지원 주식 분석 도구, 자체 선택한 주식 시세 실시간 모니터링 및 AI 기반 심층 분석

종합 소개 고스탁은 Wails와 NaiveUI를 기반으로 구축된 AI 기반 주식 분석 도구입니다. 이 도구는 주식 시세를 실시간으로 모니터링하고 비용 및 손익 표시와 상승/하락 알람 푸시 기능을 제공합니다. 모든 데이터는 로컬에 저장되어 사용자가 ...
6개월 전
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: Ollama 백엔드에 기본적으로 통합되는 미니멀한 엔드포인트 기반 AI 채팅 도구

일반 설명 Charla는 모국어 모델과 대화할 수 있도록 설계된 엔드포인트 기반 채팅 애플리케이션입니다. 이 애플리케이션은 Ollama 백엔드와 통합되어 문맥 인식 대화를 지원하며 채팅 세션을 마크다운 파일로 저장합니다. 사용자는 간단히...
7개월 전
02.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: X 사용자 데이터 및 트윗을 위한 트위터 데이터 크롤링 및 애널리틱스

일반 소개 X-Kit은 X(이전의 트위터) 사용자 데이터와 트윗을 크롤링하고 분석하기 위해 설계된 오픈 소스 도구입니다. GitHub 사용자 xiaoxiunique가 개발한 이 도구는 사용자가 특정 X 사용자에 대한 기본 정보와 트윗을 얻는 프로세스를 자동화할 수 있도록 설계되었습니다.
8개월 전
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 시각 언어 모델의 일반화 기능을 위한 저비용 강화 학습

종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...
6개월 전
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.
6개월 전
02.9K
XDOllama:适用于MacOS上快速调用Ollama\Dify\Xinference的AI模型界面。

XDOllama: MacOS에서 Ollama\Dify\Xinference를 빠르게 호출할 수 있는 AI 모델 인터페이스입니다.

일반 설명 XDOllama는 MacOS 사용자가 Ollama, Dify 및 Xinference와 같은 AI 모델을 빠르게 호출할 수 있도록 설계된 데스크톱 애플리케이션입니다. 간소화된 인터페이스와 워크플로우를 통해 사용자는 이 애플리케이션을 통해 다음을 수행할 수 있습니다.
9개월 전
02.9K
Laminar:开源AI产品工程化平台,轻松实现数据可视化追踪与评估

Laminar: 손쉬운 데이터 시각화 추적 및 평가를 위한 오픈 소스 AI 제품 엔지니어링 플랫폼

포괄적인 소개 Laminar는 첫 번째 원칙에서 AI 엔지니어링에 초점을 맞춘 오픈 소스 AI 엔지니어링 최적화 플랫폼입니다. 사용자가 데이터를 수집, 이해 및 사용하여 LLM(대규모 언어 모델링) 애플리케이션의 품질을 개선할 수 있도록 도와주며, Laminar는 포괄적인 관찰 가능성, 텍스트 ...
8개월 전
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

스웜: 경량 다중 지능 신체 시스템을 학습하기 위한 실험적 교육 프로젝트(OpenAI 예시)

일반 소개 스웜은 다중 에이전트 시스템을 위한 가볍고 제어 가능하며 테스트하기 쉬운 인터페이스를 탐색하기 위해 OpenAI에서 개발한 실험적인 교육용 프레임워크입니다. 이 프레임워크는 주로 에이전트 간의 핸드오프와 일상적인 패턴을 시연하는 데 사용되며, 개발자가 멀티 에이전트 시스템의 조정 및 실행을 이해하고 구현하는 데 도움이 됩니다.
7개월 전
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: 자체 감독 계층적 메이크업 전송 모델, 가상 메이크업, 새로운 인물 사진으로의 메이크업 마이그레이션

종합 소개 SHMT(자기 지도 계층적 메이크업 전송)는 잠재 확산 모델을 기반으로 한 자기 지도 계층적 메이크업 마이그레이션 프로젝트로, 비지도 학습 방법을 통해 고품질의 메이크업 효과를 달성하는 것을 목표로 합니다....
7개월 전
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

멀티포스트 확장: 한 번의 클릭으로 AI 생성 콘텐츠를 자체 퍼블리싱 플랫폼에 동기화하는 브라우저 확장 기능

일반 소개 멀티포스트 확장 프로그램은 사용자가 한 번의 클릭으로 여러 소셜 미디어 플랫폼에 콘텐츠를 게시할 수 있도록 설계된 강력한 브라우저 확장 프로그램입니다. 이 확장 프로그램은 지후, 웨이보, 샤오홍슈, 틱톡 등 10개 이상의 주요 플랫폼에 동시에 게시할 수 있도록 지원합니다.
6개월 전
02.9K
AI Video Starter Kit:在浏览器中全流程创作并编辑AI视频

AI 동영상 스타터 키트: 브라우저에서 전체 흐름의 AI 동영상 제작 및 편집

일반 소개 비디오 스타터 키트(비디오 스타터 키트)는 브라우저에서 동영상 제작에 AI 모델을 사용하는 방법을 보여주기 위해 fal-ai-community에서 공개한 오픈 소스 프로젝트입니다. 이미지를 동영상으로 변환하는 도구를 제공합니다...
7개월 전
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 외부 실시간 지식 그래프 데이터에 기반한 LLM 추론 서비스

종합 소개 Diffbot LLM Reasoning Server는 LLama 모델 아키텍처를 기반으로 특별한 최적화와 개선이 이루어진 혁신적인 대규모 언어 모델링 시스템입니다. 이 프로젝트의 가장 중요한 특징은 실시간 지식 그래프와 검색 기능이 강화된 생성 기능을 통합한 것입니다.
7개월 전
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 효율적인 수학적 추론과 코드 생성을 위한 소규모 오픈 소스 모델

일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
3 개월 전
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

모델베스트: 세계 최고의 경량, 고성능 엔드사이드 빅 모델

일반 소개 ModelBest는 경량 고성능 대형 모델 개발에 주력하는 회사로, 첨단 AI 기술을 주류 가전제품 및 일상 생활의 모든 종류의 최종 장치에 적용하는 데 전념하고 있습니다. 극한의 연산 능력과 메모리 사용 효율을 갖춘 MiniCPM 시리즈 엔드 사이드 모델은 ...
10개월 전
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

반응형 이력서: 다국어 및 다중 템플릿을 지원하는 오픈 소스 무료 이력서 작성기

일반 설명 반응형 이력서는 이력서 작성, 업데이트 및 공유 프로세스를 간소화하도록 설계된 무료 오픈 소스 이력서 작성기입니다. 이 플랫폼은 사용자 추적이나 광고 없이 사용자 개인정보 보호에 중점을 두고 있습니다. 사용자는 30초 이내에 앱을 셀프 호스팅할 수 있으며, 앱을 완전히 제어할 수 있습니다.
8개월 전
02.9K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

Quanta Quest: 개인 데이터를 위한 엔드사이드 빅데이터 모델 및 현지화된 AI 검색 플랫폼(미리 보기)

소개 퀀타 퀘스트는 세계 최초로 '엔드사이드 빅데이터 모델 + C사이드 데이터 현지화'를 핵심 진화 방향으로 삼은 제품입니다. 사용자가 Gmail, Notion, Dropbox 등의 모든 데이터를 로컬에 저장하고 벡터 데이터베이스를 통해 처리할 수 있도록 지원합니다.
10개월 전
02.9K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme: 로컬 고 충실도 표현 액션 일관된 이미지 또는 비디오 생성, 런웨이 액트 원 오픈 소스 탁구!

포괄적 인 소개 HelloMeme은 HelloVision에서 개발 한 오픈 소스 프로젝트로, 공간 뜨개질주의를 통합하여 확산 모델에 고수준 및 고 충실도 스트립을 포함하는 것을 목표로합니다 ...
8개월 전
02.9K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: AI를 통해 마우스 동작을 셀레늄 파이썬 스크립트로 변환하는 브라우저 자동화 코드 생성

일반 소개 AutoMouser는 사용자 상호작용을 지능적으로 추적하고 OpenAI의 GPT 모델을 사용하여 셀레늄 테스트 코드를 자동으로 생성하는 Chrome 확장 프로그램입니다. 사용자 브라우저 동작을 기록하고 이를 변환하여 이를 수행합니다.
7개월 전
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: AI 기반 오픈소스 검색 엔진으로 스마트 Q&A, 동영상 검색, UI 코드 생성 기능을 제공합니다.

일반 소개 모픽은 지능형 Q&A와 효율적인 검색 환경을 제공하기 위해 설계된 생성형 사용자 인터페이스를 갖춘 AI 기술 기반의 검색 엔진입니다. 사용자는 모픽으로 텍스트, 동영상 등 다양한 검색을 수행할 수 있으며, 검색 기록을 저장하고 검색 결과를 공유할 수 있습니다.모픽은...
9개월 전
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

애그리게이터: 원스톱 에이전트 크롤링 및 집계 플랫폼, 무료 에이전트 풀(규정을 준수하여 사용하세요)

포괄적 인 소개 애그리 게이터는 사용 가능한 다양한 프록시 노드를 크롤링 할 수있는 무료 프록시 풀을 만드는 것을 목표로하는 오픈 소스 프로젝트입니다. 플랫폼에는 유연한 플러그인 시스템이 있으며 사용자는 대상 사이트의 특별한 요구에 따라 플러그인을 통해 특정 기능을 달성 할 수 있습니다. 이 프로젝트는 주로 크롤링하는 법을 배우는 데 사용됩니다 ...
9개월 전
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: .NET 기반 다중 인텔리전스 AI 개발 및 관리 플랫폼

개요 BotSharp는 포괄적인 AI 챗봇 플랫폼 구축 도구를 제공하기 위한 .NET Core 기반의 오픈 소스 프로젝트입니다. C# 프로그래밍을 사용하고 크로스 플랫폼 운영을 지원하며 머신러닝 알고리즘의 적용을 단순화하여 엔터프라이즈급 개발자가 효율적으로 사용할 수 있도록 하는 것을 목표로 합니다.
7개월 전
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite: 통합 OpenAI 인터페이스 스타일의 여러 대규모 모델 호출, 빠른 모델 전환 및 비교 테스트

포괄적인 소개 aisuite는 개발자가 여러 생성 AI 제공업체의 서비스를 쉽게 호출할 수 있도록 설계된 간단하고 통합된 인터페이스입니다. OpenAI와 유사한 인터페이스를 통해 가장 널리 사용되는 LLM(대규모 언어 모델)과 쉽게 상호 작용할 수 있는 aisuite...
9개월 전
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: PPT 프레젠테이션, 문서를 PPT로 자동 생성 및 평가

일반 소개 PPTAgent는 문서에서 프레젠테이션을 자동으로 생성하도록 설계된 혁신적인 시스템입니다. 이 시스템은 콘텐츠 품질과 시각적 효과를 보장하기 위해 2단계 프로세스를 사용하여 프레젠테이션을 제작하는 인간의 접근 방식을 따릅니다. 또한 PPTAgent는 포괄적인 PPTEval을 소개합니다.
7개월 전
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: 텍스트 설명 생성을 위한 AI 어시스턴트 ComfyUI 워크플로

포괄적인 소개 ComfyUI-Copilot은 자연어 상호 작용을 통해 AI 알고리즘 디버깅 및 배포의 효율성을 개선하는 것을 목표로 ComfyUI 프레임워크용으로 설계된 AI 기반 사용자 지정 노드입니다. AIDC-AI 팀(알리바바)이 개발했으며 GitHu에서 파생되었습니다.
6개월 전
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: WeChat 채팅 로그 추출 및 쿼리를 위한 오픈 소스 도구

일반 소개 Chatlog는 WeChat의 로컬 데이터베이스에서 채팅 로그를 추출하고 쿼리하는 데 중점을 둔 오픈 소스 도구입니다. 이 도구는 WeChat 버전 3.x와 4.0을 지원하며, Windows와 macOS 시스템을 모두 포괄합니다. 사용자는 명령줄, 터미널 인터페이스 또는 H...
4개월 전
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: 지역 지식 기반과 검색 정보를 혼합하는 AI 검색 엔진

일반 소개 MemFree는 텍스트, 이미지, 문서 및 웹 페이지를 통해 검색하고 질문할 수 있는 고급 하이브리드 AI 검색 엔진입니다. 텍스트, 마인드맵, 이미지, 동영상에 대한 검색 결과에 한 번의 클릭으로 액세스할 수 있으며, MemFree는 사용자의 지식 기반에서 정보를 추출하고...
10개월 전
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: 100줄의 코드로 AI 애플리케이션 개발을 위한 미니멀리즘 프레임워크

포괄적인 소개 PocketFlow는 100줄의 코드만으로 구성된 경량 AI 애플리케이션 개발 프레임워크로, The-Pocket 팀에서 개발하여 GitHub에서 오픈 소스화했습니다. 100줄의 핵심 코드 제어, 외부 종속성 없는 미니멀리즘 디자인을 추구합니다.
5개월 전
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: 멀티모달 입력 및 실시간 음성 상호작용을 위한 최종 측정 모델

종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...
5개월 전
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: 음성과 텍스트를 통해 컴퓨터를 작동하고 실시간 음성 피드백을 제공하는 지능형 신체

일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
7개월 전
02.9K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI: 오픈 소스 경량 AI 도구 탐색 프로젝트

포괄적 인 소개 Tap4 AI WebUI는 사용자가 자신 만의 AI 도구 카탈로그를 쉽게 구축 할 수 있도록 설계된 오픈 소스 경량 AI 도구 탐색 웹 사이트 프로젝트입니다. 이 프로젝트는 Next.js 및 Supabase 기술 스택을 사용하고 다국어 SEO 최적화를 지원하여 AI ...
10개월 전
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice(MyShell): 더 적은 샘플로 여러 언어로 즉시 음성 복제하기

일반 소개 OpenVoice는 참조 화자의 음성을 복사하고 화자의 짧은 오디오 클립만을 사용하여 다국어 음성을 생성할 수 있는 다용도 인스턴트 음성 복제 방법입니다. OpenVoice는 톤을 복사하는 것 외에도 감정 표현을 포함한 음성 스타일을 세밀하게 제어할 수 있습니다.
10개월 전
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

비디오챗: 사용자 지정 이미지 및 톤 복제가 가능한 실시간 음성 대화형 디지털 사람, 엔드투엔드 음성 솔루션 및 캐스케이딩 솔루션 지원

일반 소개 비디오챗은 오픈 소스 기술을 기반으로 하는 실시간 음성 상호작용 디지털 사람 프로젝트로, 엔드투엔드 음성 체계(GLM-4-Voice - THG)와 캐스케이드 체계(ASR-LLM-TTS-THG)를 모두 지원합니다. 이 프로젝트를 통해 사용자는 디지털 ...
9개월 전
02.9K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine: 모든 주요 i18n 라이브러리와 호환되는 AI를 사용한 애플리케이션 번역

일반 소개 Languine은 개발자가 앱의 로컬라이제이션 프로세스를 간소화할 수 있도록 Midday에서 개발한 강력한 번역 도구입니다. Languine을 사용하면 개발자는 AI 기술을 활용하여 정확하고 문맥에 맞는 번역을 신속하게 생성할 수 있으며, 다음과 같은 기능을 지원합니다.
8개월 전
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

제미니 밸런스: 제미니 모델 API는 OpenAI 형식과 호환되며, 지역 제한을 해제하고 다중 API 키 폴링을 지원합니다.

종합 소개 Gemini Balance는 효율적인 멀티 API 키 관리 및 최적화 기능을 제공하는 것을 목표로 FastAPI 프레임워크를 기반으로 개발된 OpenAI API 프록시 서비스입니다. 이 프로젝트는 Gemini 모델 호출을 지원하며, 주요 기능으로는 멀티 API...
4개월 전
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: 고품질 결과를 생성하기 위해 출력을 검토, 검증 및 서식 지정하는 다중 역할 인텔리전스

종합 소개 Kheish는 구조화된 단계별 협업이 필요한 대규모 언어 모델링(LLM) 작업을 위해 설계된 오픈 소스 다중 역할 에이전트로, 단순한 코디네이터를 넘어 필요에 따라 모듈을 요청하고 사용자 반전 기능을 통합하는 그 자체로 지능적인 에이전트입니다.
7개월 전
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

Executive AI Assistant: AI 임원 비서, 이메일 읽기 및 업무 일정 계획 리마인더

일반 소개 EAIA(Executive AI Assistant)는 사용자가 일상 업무를 자동화하고 관리할 수 있도록 설계된 AI 기반 어시스턴트 도구입니다. 랭체인에서 개발한 이 도구는 이메일 처리, 일정 관리, 작업 관리 및 기타 작업을 처리할 수 있습니다.
7개월 전
02.8K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT 에이전트: 복잡한 표 형식의 데이터를 분석하도록 설계된 지능형 도구

종합 소개 TableGPT 에이전트는 표 형식의 데이터를 처리하고 분석하기 위해 설계된 GitHub 오픈 소스 프로젝트에 기반한 지능형 도구입니다. TableGPT2 빅 언어 모델에 의존하며 자연어 상호 작용을 사용하여 사용자가 쉽게 쿼리하고 조작할 수 있도록 합니다.
6개월 전
02.8K
AnkiAIUtils: 메모리 카드를 자동으로 최적화하는 지능형 어시스턴트인 Anki 플래시카드 학습 AI 툴셋

AnkiAIUtils: 메모리 카드를 자동으로 최적화하는 지능형 어시스턴트인 Anki 플래시카드 학습 AI 툴셋

일반 설명 AnkiAIUtils는 Anki 플래시카드 학습 시스템을 위해 설계된 AI 강화 도구 세트입니다. 의대생이 개발한 이 도구는 AI 기술을 통해 사용자가 학습 과정에서 어려움을 겪고 있는 카드를 자동으로 개선하도록 설계되었습니다. 이 도구는 사용자에게 지능적으로 개인화된 ...
7개월 전
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: 마이크로서비스 관리를 간소화하고 보안을 강화하는 효율적인 AI 게이트웨이 솔루션 제공

포괄적인 소개 Higress는 효율적인 트래픽 스케줄링, 서비스 거버넌스 및 보안 솔루션을 제공하도록 설계된 Istio 및 Envoy를 기반으로 Alibaba에서 개발한 클라우드 네이티브 API 게이트웨이입니다. AI 비즈니스를 위한 여러 프로그래밍 언어용 Wasm 플러그인 확장을 지원합니다.
9개월 전
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI: 자동화된 대규모 언어 모델 평가를 위한 프레임워크로, 다양한 대규모 모델 단서 단어의 출력 품질을 비교합니다.

종합 소개 DeepEval은 대규모 언어 모델링 시스템을 평가하고 테스트하기 위한 사용하기 쉬운 오픈 소스 LLM 평가 프레임워크입니다. Pytest와 유사하지만 LLM 출력의 단위 테스트에 중점을 두며, DeepEval은 G-Eval, 팬텀을 통한 최신 연구 결과를 결합합니다.
6개월 전
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

SpeechGPT 2.0-프리뷰는 수백만 시간의 음성 데이터를 기반으로 학습된 OpenMOSS의 첫 번째 의인화 실시간 대화 시스템입니다. 이 시스템은 의인화된 음성 표현과 100ms의 짧은 지연 응답으로 자연스럽고 부드러운 실시간 인터랙션을 지원합니다.
6개월 전
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

일반 소개 ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 이를 수행합니다.
6개월 전
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: B 스테이션을 위한 비감독 라이브 녹화 및 자동 슬라이싱, 업로드 도구

종합 소개 bilive는 B 방송국 라이브 녹화를 위해 설계된 도구로, 매우 빠른 라이브 녹화, 자동 슬라이싱, 팝업 렌더링 및 자막 생성을 제공합니다. 이 도구는 초저사양 머신과 호환되며, 7x24시간 무인 녹화를 지원하고, 팝업과 자막을 자동으로 식별하고 렌더링하며, 자동으로 슬라이싱하고...
6개월 전
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

종합 소개 Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며, 오디오를 고차원 공간으로 직접 변환할 수 있습니다.
8개월 전
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow: Racer에서 출시한 오픈 소스 버전의 "Kringle", SD3 기반이며 8GB 미만의 GPU에서 실행되는 버전(원클릭 배포 버전).

종합 소개 피라미드 플로우는 플로우 매칭 기법을 기반으로 하는 효율적인 자동 회귀 동영상 생성 방법입니다. 이 방법은 다양한 해상도와 노이즈 레벨 사이에서 보간하여 비디오 콘텐츠를 생성하고 압축 해제할 때 더 높은 계산 효율성을 달성합니다...
9개월 전
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI: 노드 워크플로우를 빠르게 생성하는 오픈 소스 엔진

종합 소개 Flowgram.ai는 ByteDance에서 개발한 오픈 소스 프로세스 구축 엔진입니다. 개발자가 워크플로를 빠르게 생성하고 고정 레이아웃을 지원하며 두 가지 모드를 자유롭게 연결할 수 있도록 노드 편집을 기반으로 합니다. 프로젝트는 타입스크립트로 작성되었습니다 ...
5개월 전
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision: 멀티모달 추론을 지원하는 오픈 소스 시각적 언어 모델

종합 소개 R1-Onevision은 Fancy-MLLM 팀이 개발한 오픈 소스 멀티모달 매크로 언어 모델로, 시각과 언어의 심층적인 결합에 중점을 두고 이미지와 텍스트 등의 멀티모달 입력을 처리할 수 있으며 시각 추론, 이미지 이해, 수학적 해결 등의 분야에서 수행할 수 있습니다.....
5개월 전
02.8K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

쿨클라인: 클라인루 클라인과 바오 클라인의 장점을 결합한 클라인의 지능형 코딩 어시스턴트의 또 다른 향상된 버전입니다.

일반 설명 쿨클라인은 클라인, 루클라인, 바오클라인의 최고의 기능을 결합한 강력한 코딩 어시스턴트입니다. 명령줄 인터페이스(CLI) 및 편집기와 원활하게 작동하여 가장 강력한 기능을 제공합니다.
7개월 전
02.8K
Kilo Code:具有简洁使用体验的Roo Code分支

킬로 코드: 깔끔한 사용자 경험을 제공하는 루 코드 브랜치

일반 소개 킬로 코드는 비주얼 스튜디오 코드(줄여서 VS 코드)를 위한 오픈 소스 확장 플러그인입니다. 인공 지능 기술을 사용하여 사용자가 보다 효율적으로 코드를 작성할 수 있도록 도와줍니다. 이 프로젝트는 Kilo-Org 팀에 의해 개발되었으며, 대부분 ...
5개월 전
02.8K