AI 오픈 소스 프로젝트

총 1020개 문서
Neural4D:生成高分辨率3D建模数字资产的AI平台

Neural4D: 고해상도 3D 모델링 디지털 에셋 생성을 위한 AI 플랫폼

일반 소개 Neural4D는 사용자가 간단한 텍스트 또는 이미지 입력으로 고품질 3D 모델과 애니메이션을 빠르게 생성할 수 있도록 지원하는 혁신적인 AI 기반 플랫폼입니다. 드림테크에서 개발한 이 플랫폼은 세계 최고의 엔드투엔드 3D 대형 모델 생성 기술을 기반으로 합니다....
1 년 전
070.8K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow: 카툰 음영, 흑백 이미지의 자동 음영으로 이미지 색상 일관성 및 품질 향상

종합 소개 ColorFlow는 흑백 이미지 시퀀스의 자동 채색 문제를 해결하기 위해 Tencent ARC 팀에서 개발한 이미지 시퀀스 자동 채색 도구입니다. 이 도구는 검색 기능이 강화된 셰이딩 파이프라인을 사용하여 캐릭터의 헤어 컬러와 서비스를 포함한 참조 이미지 풀을 통해 다양한 요소의 컬러를 정확하게 생성합니다.
1 년 전
070.5K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 복잡한 사회 현상을 연구하기 위해 수백만 사용자의 소셜 미디어 상호 작용을 다중 지능으로 시뮬레이션합니다.

일반 소개 OASIS(오픈 에이전트 소셜 상호작용 시뮬레이션)는 최대 100만 명의 사용자의 행동을 시뮬레이션할 수 있는 오픈 소스 소셜 미디어 시뮬레이터입니다. 이 플랫폼은 대규모 언어 모델과 규칙 기반...
1 년 전
070.5K
Data Formulator:AI驱动的数据可视化工具

데이터 포뮬레이터: AI 기반 데이터 시각화 도구

일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.
1 년 전
070.5K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

제네시스: 실제 물리 기반의 4D 동적 월드 시뮬레이션을 위한 오픈 소스 제너레이티브 물리 엔진

일반 소개 Genesis는 범용 로봇 공학 및 구현형 AI 학습을 위해 설계된 제너레이티브 물리 세계입니다. 다양한 재료와 물리 현상의 시뮬레이션을 지원하는 통합 시뮬레이션 플랫폼을 제공하며, 제네시스는 제너레이티브 AI와 물리 시뮬레이션을 결합하여...
1 년 전
070.4K
闲鱼卖家全天自动值守的AI客服机器人

Idle Fish 판매자가 24시간 자동으로 유인하는 AI 고객 서비스 봇

종합 소개 XianyuAutoAgent는 개발자 shaxiu가 GitHub에서 오픈소스로 공개한 Idlefish 플랫폼용으로 설계된 지능형 고객 서비스 로봇 시스템입니다. AI 기술을 사용하여 7×24 시간 자동 근무를 수행하여 유휴 물고기 판매자가 응답할 수 있도록 지원합니다.
1 년 전
070.4K
Austen:分析书籍角色关系并生成图表的AI工具

Austen: 책 속 인물 관계를 분석하고 그래프를 생성하는 AI 도구

일반 소개 Austen은 Angular 프레임워크와 Analogjs 초기화를 사용하는 오픈 소스 AI 도구로, Mermaidjs 기술과 결합하여 사용자가 책 속 인물 관계를 분석하는 데 도움이 되는 차트를 생성합니다. 사용자는 열기...를 입력할 수 있습니다.
1 년 전
070.3K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: 로컬에서 LLM을 실행하고 미세 조정하는 가장 빠른 방법!

일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.
1 년 전
070.3K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

페이 디지털 휴먼 프레임워크: 언어 모델과 3D 디지털 캐릭터를 통합하여 다양한 애플리케이션 시나리오 지원

종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...
1 년 전
070.3K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

자동 심층 연구: 문헌 쿼리 수행 및 연구 보고서 생성을 위한 다중 에이전트 협업

일반 소개 자동 심층 연구는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발한 오픈 소스 AI 도구로, 사용자가 심층 연구 작업을 자동화할 수 있도록 지원하는 것을 목표로 합니다. 자동 에이전트 프레임워크를 기반으로 구축되었으며 여러 대규모 언어 모델을 지원합니다...
1 년 전
070.3K
Perplexica:1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

퍼플렉시카: 퍼플렉시 AI의 기능과 인터페이스를 1:1로 복제하는 오픈 소스 AI 검색 엔진

일반 소개 퍼플렉시카는 인터넷을 깊이 파고드는 답변을 제공하도록 설계된 오픈 소스 AI 기반 검색 엔진입니다. 유사성 검색 및 임베딩 기술과 같은 고급 머신 러닝 알고리즘을 사용하여 검색 결과를 최적화하고 인용된 출처와 함께 명확한 답변을 제공합니다.
1 년 전
070.2K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 음성 대화 기본 모델을 위한 여러 언어와 악센트를 지원하는 실시간 음성 대화 프레임워크

일반 소개 모시 챗은 프랑스의 비영리 AI 연구소인 큐타이의 엔드투엔드 실시간 AI 음성 비서입니다. 실시간으로 들을 뿐만 아니라 자연스러운 대화에 참여하고 보고, 듣고, 말하는 기능을 포함한 다중 모드 상호 작용을 지원합니다.모시 챗 ...
2 년 전
070.2K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: 입력 텍스트에서 화자별 텍스트 음성 변환 모델 생성

일반 소개 Parler-TTS는 고품질의 자연스러운 음성을 생성하도록 설계된 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)을 가진 입력 텍스트를 기반으로 음성을 생성할 수 있습니다.
1 년 전
070.2K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: 오픈 소스 제로 샘플 음성 복제 및 텍스트 음성 변환 도구

개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.
2 년 전
070.2K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

플라잉 패들 PP-TableMagic: 복잡한 테이블을 위한 구조화된 정보 추출

표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).
1 년 전
070.2K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: 데이터 구축 및 모델 미세 조정을 간소화하는 원스톱 RAG 시스템 솔루션

종합 소개 UltraRAG는 칭화대학교의 THUNLP 그룹, 노스이스턴대학교의 NEUIR 그룹, Modelbest.Inc, 9#AISoft 팀이 공동으로 제안한 RAG(검색 증강 세대) 시스템 솔루션입니다. 이 프레임워크는 민첩한 배포와 모듈식 구축을 기반으로 합니다...
1 년 전
070.1K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: 멀티모달 매크로 모델을 사용한 흉부 방사선 사진 분석용 지능형 바디

포괄적인 소개 MedRAX는 흉부 엑스레이(CXR) 분석을 위해 설계된 최첨단 AI 인텔리전스입니다. 최첨단 CXR 분석 도구와 멀티모달 대규모 언어 모델을 통합하여 추가 교육 없이 복잡한 의료 쿼리를 동적으로 처리하며, 모듈식 설계를 통해 MedRAX는 ...
1 년 전
070.1K
uni-api:轻量大模型API转换为OpenAI接口,YAML文件配置API渠道

uni-api: OpenAI 인터페이스로 변환된 경량 빅 모델 API, API 채널을 구성하기 위한 YAML 파일

포괄적인 소개 프런트엔드, 순수 구성 파일 구성 API 채널이 없습니다. 파일을 작성하기 만하면 자체 API 스테이션을 실행할 수 있으며 문서에는 흰색 친화적 인 자세한 구성 가이드가 있습니다. uni-api는 대규모 모델 API 프로젝트의 통합 관리로, 통합 된 ...
1 년 전
070K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat: MCP 인텔리전스를 사용하여 복잡한 작업을 수행하는 AI 대화 클라이언트

일반 소개 HyperChat은 BigSweetPotatoStudio에서 개발하고 GitHub에서 호스팅하는 오픈 소스 채팅 클라이언트로, OpenAI, Cla... 등 여러 대형 언어 모델(LLM)의 API를 통합하여 BigSweetPotatoStudio 언어 모델에 대한 포괄적인 개요를 제공하도록 설계되었습니다.
1 년 전
069.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: 고해상도 이미지의 빠른 생성, 0.6B 초소형 모델, 로우 프로파일 노트북 GPU 작동

일반 소개 Sana는 NVIDIA 연구소에서 개발한 효율적인 고해상도 이미지 생성 프레임워크로, 최대 4096 × 4096 해상도의 이미지를 단 몇 초 만에 생성할 수 있으며, 선형 확산 트랜스포머와 딥 압축 셀프 인코더 기술을 사용하여 이미지를 크게...
1 년 전
069.7K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 효율적인 수학적 추론과 코드 생성을 위한 소규모 오픈 소스 모델

일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
12개월 전
069.7K
Flock:低代码工作流编排快速构建聊天机器人

Flock: 신속한 챗봇 구축을 위한 로우코드 워크플로 오케스트레이션

일반 소개 플록은 워크플로우를 위한 오픈 소스 로우코드 플랫폼으로, GitHub에서 호스팅되고 Onelevenvy 팀이 개발했습니다. LangChain과 LangGraph 기술을 기반으로 하며, 사용자가 채팅 머신을 빠르게 구축할 수 있도록 돕는 데 중점을 두고 있습니다.
1 년 전
069.7K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

조각: Anthropic의 클로드 아티팩트, Vercel v0 또는 GPT 엔지니어와 같은 애플리케이션의 오픈 소스 버전입니다.

일반 소개 E2B의 프래그먼트는 AI로만 생성된 애플리케이션을 구축하기 위한 Next.js 기반의 템플릿을 제공하는 오픈 소스 프로젝트입니다. E2B에서 개발한 이 프로젝트는 AI 애플리케이션의 개발 프로세스를 간소화하고 가속화하는 것을 목표로 합니다. 그것은 다양한 현재를 통합합니다 ...
1 년 전
069.6K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

Fast GraphRAG: 정확도가 높고 비용이 저렴한 그래픽 검색 향상 생성 도구

종합 소개 Fast GraphRAG는 지식 그래프와 페이지랭크 알고리즘을 통해 효율적이고 정확한 검색 증강 생성(RAG)을 가능하게 하기 위해 Circlemind AI에서 개발한 오픈 소스 도구입니다. 이 도구는 사용자의 용도에 맞게 지능적으로 적응합니다...
1 년 전
069.5K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: 모델 통합 및 데이터 흐름 관리를 지원하여 AI 채팅 인터페이스를 빠르게 구축할 수 있는 툴킷입니다.

종합 소개 Ant Design X는 개발자가 AI 기반 대화 인터페이스를 빠르게 구축할 수 있도록 설계된 Ant Group에서 오픈소스화한 툴킷입니다. 풍부한 구성 요소와 템플릿 세트를 제공하고 OpenAI 표준과 호환되는 모델 통합을 지원하며 지능형 고객 서비스, AI 어시스턴트 등 다양한 애플리케이션에 적합합니다.
1 년 전
069K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

히비키: 실시간 음성 번역 모델, 원 음성의 특성을 보존하는 스트리밍 번역

일반 소개 히비키는 규타이 랩에서 개발한 고충실도 실시간 음성 번역 모델입니다. 기존의 오프라인 번역기와 달리 Hibiki는 사용자가 말하는 동안 실시간으로 대상 언어로 자연스러운 음성 번역을 생성할 수 있을 뿐만 아니라 텍스트 번역도 제공합니다. 모델...
1 년 전
069K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH 라이브: 30/40 시리즈 그래픽 카드에서 원활한 실시간 상호작용을 위한 AI 디지털 휴먼

일반 소개 DH_live는 샘플리스 학습을 기반으로 하는 실시간 라이브 디지털 휴먼 프로젝트로, 사용자에게 원활하고 인터랙티브한 라이브 스트리밍 경험을 제공하는 것을 목표로 합니다. 이 프로젝트는 NVIDIA 30 및 40 시리즈 그래픽 카드를 지원하며 25fps 이상에서 실시간으로 실행할 수 있습니다. 사용자는...
1 년 전
068.9K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow(Laminar): 작업을 간소화하고 유연하게 관리하는 빌딩 인텔리전스를 위한 경량 작업 엔진입니다.

포괄적인 소개 Flow는 단순성과 유연성에 중점을 두고 AI 에이전트 구축을 위해 설계된 경량 작업 엔진입니다. 기존의 노드 및 에지 기반 워크플로우와 달리 Flow는 병렬 실행, 동적 스케줄링 및 지능형 종속성 관리를 지원하는 동적 작업 대기열 시스템을 사용합니다. 핵심 개념은 ...
1 년 전
068.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: X 사용자 데이터 및 트윗을 위한 트위터 데이터 크롤링 및 애널리틱스

일반 소개 X-Kit은 X(이전의 트위터) 사용자 데이터와 트윗을 크롤링하고 분석하기 위해 설계된 오픈 소스 도구입니다. GitHub 사용자 xiaoxiunique가 개발한 이 도구는 사용자가 특정 X 사용자에 대한 기본 정보와 트윗을 얻는 프로세스를 자동화할 수 있도록 설계되었습니다.
1 년 전
068.8K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2B 개방형 컴퓨터 사용: E2B 샌드박스에서 안전하게 AI 운영 체제 실행하기

일반 소개 E2B 개방형 컴퓨터 사용은 E2B 데스크톱 샌드박스를 통해 안전한 클라우드 기반 리눅스 컴퓨터 사용 경험을 제공하는 것을 목표로 하는 오픈 소스 프로젝트로, E2B 샌드박스는 사용자가 모든 대형 컴퓨터에 연결할 수 있는 데스크톱 그래픽 환경을 제공합니다.
1 년 전
068.8K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

빠른 에이전트: 다중 지능형 바디 워크플로를 빠르게 구축하기 위한 선언적 문법 및 MCP 통합

일반 소개 Fast-Agent는 개발자가 다중 지능 워크플로를 신속하게 정의, 테스트 및 구축할 수 있도록 설계된 GitHub의 평가 팀이 관리하는 오픈 소스 도구입니다. 이 도구는 간단한 선언적 구문을 기반으로 하며 MCP(모드...
1 년 전
068.8K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT: 객실 사진을 업로드하고 AI를 사용하여 다시 디자인하세요!

일반 소개 RoomGPT는 사용자가 방 사진을 업로드하고 인공지능 기술을 사용하여 새롭게 디자인된 버전을 생성할 수 있는 GitHub 사용자 Nutlope가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자가 비싼 디자이너 비용 없이 전문가 수준의 인테리어 디자인을 이용할 수 있도록 하는 것을 목표로 합니다....
1 년 전
068.8K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

포괄적인 소개 NodeRAG는 GitHub에서 호스팅되고 Terry-Xu-666이 개발한 오픈 소스 검색 증강 생성(RAG) 시스템입니다. 이기종 그래프 구조를 통해 정보 검색 및 생성을 최적화하여 검색 정확도와 문맥 관련성을 크게 개선합니다.고개 끄덕임...
1 년 전
068.7K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: AI 인텔리전스를 사용하여 전문적인 브랜드 로고를 생성하는 오픈 소스 로고 생성기입니다.

일반 소개 로고크리에이터는 기업과 개인을 위한 빠르고 전문적인 로고 디자인 서비스를 제공하는 데 중점을 둔 Together AI 및 Flux 모델 기반의 오픈 소스 로고 생성기입니다. 이 프로젝트는 개발자 Nutlope가 Git에서 개발 및 오픈 소스화했습니다.
1 년 전
068.7K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilot 백엔드 프록시 서비스: 다른 모델로 GitHub Copilot 플러그인 서버 인수하기

일반 소개 Copilot 백엔드 에이전트 서비스는 여러 사람이 공식 계정을 공유하는 것을 지원하면서 DeepSeek와 같은 다른 FIM 모델을 활용하여 GitHub Copilot 플러그인 서버를 관리하도록 설계된 오픈 소스 프로젝트입니다. 이 서비스는 V를 포함한 다양한 IDE를 지원합니다.
1 년 전
068.7K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...
1 년 전
068.7K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent: 의사가 약물 효과와 치료 옵션을 분석하는 데 도움을 주는 AI 도구

종합 소개 TxAgent는 의사가 약물 상호작용을 분석하고 맞춤형 치료 계획을 개발할 수 있도록 하버드 대학교의 의료 및 과학 인공 지능 팀(MIMS)에서 개발한 오픈 소스 AI 도구입니다. 다단계 추론과 생의학 지식의 실시간 검색을 통해 환자별 상황을 결합하여...
1 년 전
068.5K
修复无效JSON字符串,解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

잘못된 JSON 문자열을 수정하고 LLM에서 생성된 JSON 데이터에서 발생할 수 있는 서식 지정 오류를 해결합니다.

일반 설명 잘못된 JSON 파일을 수정하는 모듈로, 특히 LLM(대규모 언어 모델)에서 출력되는 잘못된 JSON 데이터를 구문 분석하기 위한 모듈입니다. 이 모듈은 따옴표 누락, 잘못된 쉼표, 이스케이프되지 않은 문자 및 불완전한 키-값과 같은 일반적인 JSON 구문 오류를 수정합니다.
2 년 전
068.5K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

종합 소개 Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며, 오디오를 고차원 공간으로 직접 변환할 수 있습니다.
1 년 전
068.4K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Gemini 모델을 사용하여 클릭 한 번으로 짧은 내레이션 동영상 또는 긴 동영상의 동영상 요약을 만듭니다.

개요 AI2SRT는 GeminiAI 빅 모델을 사용하여 한 번의 클릭으로 짧은 내레이션 동영상과 긴 동영상의 동영상 요약을 생성하는 동시에 오디오 및 동영상 전사 자막을 지원하는 오픈 소스 프로젝트입니다. 이 프로젝트는 동영상 콘텐츠 제작 과정을 간소화하고 효율적인 자막 생성 및 번역 기능을 제공하는 것을 목표로 합니다. 사용자는 통과할 수 있습니다...
1 년 전
068.3K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: 비디오 영상에 동기화된 음향 효과 및 사운드 트랙 생성, 비디오-오디오 멀티모달 코트레이닝 도구

일반 소개 MMAudio는 공동 멀티모달 훈련을 통해 고품질의 동기화된 오디오를 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 홍콩 중문대학교의 호케이 쳉 등이 개발한 이 프로젝트의 주요 기능은 비디오 및/또는 텍스트 입력을 기반으로 동기화된 오디오를 생성하는 것입니다.MM...
1 년 전
068.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

모델베스트: 세계 최고의 경량, 고성능 엔드사이드 빅 모델

일반 소개 ModelBest는 경량 고성능 대형 모델 개발에 주력하는 회사로, 첨단 AI 기술을 주류 가전제품 및 일상 생활의 모든 종류의 최종 장치에 적용하는 데 전념하고 있습니다. 극한의 연산 능력과 메모리 사용 효율을 갖춘 MiniCPM 시리즈 엔드 사이드 모델은 ...
2 년 전
068.3K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: 오프라인에서 실행되는 OLMoE 모델 기반의 오픈 소스 iOS AI 앱

일반 소개 Ai2 OLMoE는 앨런 인공지능 연구소(Ai2, Allen Institute for AI)에서 기기에서만 실행되는 인공지능 모델을 제공하기 위해 개발한 오픈 소스 iOS 앱입니다. 이 앱은 Ai2의 오픈 소스 OLMoE를 활용합니다.
1 년 전
068.1K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

코그에이전트: 그래픽 인터페이스 자동화를 위한 스마트 스펙트럼의 오픈 소스 지능형 시각 언어 모델

종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
1 년 전
068.1K
Gemini Playground:无服务器部署Gemini多模态对话网站

쌍둥이자리 놀이터: 쌍둥이자리 멀티모달 대화 사이트의 서버리스 배포

일반 소개 제미니 플레이그라운드는 사용자가 멀티모달 대화 사이트를 빠르게 배포할 수 있도록 설계된 오픈소스 프로젝트입니다. 이 프로젝트는 기술 크롤링 새우에 의해 개발되었으며 10 초 만에 Gemini API 키 사용을 지원하여 배포를 완료합니다. 사용자가 ...
1 년 전
068K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM: 다중 지능형 신체 애플리케이션을 구축하기 위한 상탕의 오픈 소스 로우코드 개발 도구

포괄적인 소개 LazyLLM은 LazyAGI 팀이 개발한 오픈 소스 도구로, 다중 지능 대규모 모델 애플리케이션의 개발 프로세스를 간소화하는 데 중점을 두고 있습니다. 개발자는 원클릭 배포와 가벼운 게이트웨이 메커니즘을 통해 복잡한 AI 애플리케이션을 빠르게 구축하여 지루한 엔지니어링 구성을 줄일 수 있습니다.
1 년 전
067.8K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制

루이 모델: 렌즈 제어 및 모션 진폭 제어를 지원하는 이미지-투-비디오 오픈 소스 모델을 생성합니다.

일반 소개 Ruyi-Models는 이미지에서 고품질 동영상을 생성하도록 설계된 오픈 소스 프로젝트입니다. IamCreateAI 팀이 개발한 이 프로젝트는 768 해상도, 초당 24프레임, 5초에 120프레임의 시네마틱 비디오 생성을 지원합니다....
1 년 전
067.7K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

무한대: 무제한 고해상도 이미지 생성을 위한 고해상도 이미지 생성의 비트 단위 자동 회귀 모델링

일반 소개 Infinity는 FoundationVision 팀에서 개발한 획기적인 고해상도 이미지 생성 프레임워크입니다. 이 프로젝트는 혁신적인 비트 레벨의 시각적 자동 회귀 모델링 접근 방식을 통해 기존 이미지 생성 모델의 한계를 극복합니다.Infinity의 핵심 기능은 다음과 같습니다.
1 년 전
067.7K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: 멀티모달 검색 및 지식 그래프 구성을 지원하여 매우 긴 동영상을 이해하기 위한 RAG 프레임워크입니다.

포괄적인 소개 VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하도록 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 효율적으로 처리합니다....
1 년 전
067.6K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: 동영상에서 임의의 움직이는 객체를 자동으로 분할하는 오픈 소스 도구

일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
1 년 전
067.5K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

이중 언어 북 메이커: AI 번역을 사용하여 이중 언어 전자책, 전체 책 자동 번역 도구를 만들 수 있습니다.

일반 소개 이중 언어 북 메이커는 사용자가 AI 기술을 사용하여 다국어 버전의 전자책을 만들 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 주로 번역을 위해 ChatGPT를 사용하며 epub, txt 및 srt를 포함한 여러 파일 형식을 지원합니다.
1 년 전
067.4K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: Tencent ARC에서 출시한 이미지 복원 및 편집을 위한 올인원 도구

종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
1 년 전
067.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: 가사를 전체 노래의 기본 모델로 변환하여 다양한 음악 스타일을 지원합니다.

일반 소개 YuE는 가사를 전체 곡으로 변환하는 데 중점을 둔 오픈 소스 전체 곡 생성 기본 모델입니다. 비보컬 음악의 짧은 스니펫만 생성하는 다른 모델과 달리 YuE는 최대 몇 분 길이의 리드 보컬과 백 보컬이 포함된 전체 곡을 생성할 수 있습니다. 이 모델은 음악 생성을 ...
1 년 전
067.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

XYKS: 소형 유인원 구두 계산 리버스 노트, 리버스 엔지니어링 및 복호화 알고리즘

포괄적인 소개 유인원 입 계산기 리버스 노트는 유인원 입 계산기 애플리케이션을 리버스 엔지니어링하는 과정과 방법을 문서화하고 공유하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트에는 사용자가 작은 유인원 구강 산술 추가를 이해하고 해독하는 데 도움이 되는 지침을 사용하기 위한 다양한 리버스 도구 및 기술(예: Frida, dexdump 등)이 포함되어 있습니다.
2 년 전
067.2K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex: 오픈 소스 AI 회의 녹음 도우미, 회의 내용을 자동으로 녹음하여 요약을 생성합니다.

일반 소개 Amurex는 지능형 기능을 통해 회의 효율성을 개선하도록 설계된 The Personal AI Company에서 개발한 오픈 소스 AI 회의 도우미로, 실시간 조언 제공, 지능형 요약 생성, 회의 내용 기록, 자동 팔로우 전송이 가능합니다.
1 년 전
067.2K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: 데스크톱 및 브라우저 자동화를 위한 지능형 바디 워크플로 구축 자연어

일반 소개 Eko는 자연어 설명을 통해 효율적인 지능형 에이전트 워크플로우를 구축하도록 설계된 프로덕션급 자바스크립트 프레임워크입니다. 개발자가 심층적인 프로그래밍 없이도 AI 기술을 사용하여 일상적인 작업을 자동화할 수 있도록 설계되었으며, Eko는 단일 ...
1 년 전
067.1K
Deep Recall:为大模型提供企业级记忆框架的开源工具

딥 리콜: 대규모 모델을 위한 엔터프라이즈급 메모리 프레임워크를 제공하는 오픈 소스 도구

포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
12개월 전
066.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 언어 명령으로 애니메이션 동영상 및 캐릭터 상호작용을 생성하는 오픈 소스 도구

AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.
1 년 전
066.8K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAI 에이전트 SDK: 협업형 멀티 인텔리전스 워크플로우 구축을 위한 파이썬 프레임워크

일반 소개 OpenAI 에이전트 SDK는 다중 지능 워크플로우를 구축하기 위해 설계된 OpenAI의 경량 개발 도구입니다. 파이썬을 기반으로 하며 사용하기 쉬워 개발자가 에이전트를 구성하고 작업을 단축할 수 있습니다.
1 년 전
066.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
1 년 전
066.8K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: 게임 채팅 콘텐츠의 실시간 번역을 위한 오픈 소스 클라이언트

일반 소개 DeepRant는 게이머를 위한 오픈 소스 번역 도구로, 국제 서버의 언어 장벽 문제를 해결하기 위해 설계되었습니다. 단축키를 통해 게임 내 텍스트를 즉시 번역할 수 있고, 여러 언어를 지원하여 서로 번역할 수 있으며, 플레이어가 게임을 종료하지 않고도 채팅 메시지를 빠르게 이해하고 답장할 수 있습니다....
1 년 전
066.7K
ANP:实现智能代理间安全高效通信的开源协议

ANP: 지능형 에이전트 간의 안전하고 효율적인 통신을 위한 오픈 소스 프로토콜

일반 소개 에이전트네트워크프로토콜(줄여서 ANP)은 지능형 에이전트(AI 에이전트)를 위한 안전하고 효율적인 커뮤니케이션 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로토콜 프로젝트로, GitHub에서 호스팅되고 있습니다. 이 프로젝트는 ID와 암호화의 3계층 아키텍처를 통해 작동합니다...
1 년 전
066.6K