AI 오픈 소스 프로젝트

총 1020개 문서

순서대로 정렬

Motia: 코드에서 인텔리전스를 빠르게 구축하기 위한 개발 프레임워크

일반 소개 Motia는 소프트웨어 엔지니어를 위한 오픈 소스 AI 에이전트 프레임워크로, GitHub에서 호스팅되고 MotiaDev 팀에서 개발했습니다. 개발자는 이 프레임워크를 통해 익숙한 프로그래밍 언어(예: Python, TypeScript, Rub...

1 년 전

0101.5K

하이브리드 빈센느 비디오: 고품질 비디오의 사실적인 영상 생성, 대형 모델의 텐센트 오픈 소스 비디오 생성

종합 소개 텐센트 혼합 위안화 텍스트 생성 동영상(위안바오 앱에서 사용 가능)은 텐센트에서 출시한 AI 기술을 기반으로 한 동영상 생성 플랫폼입니다. 이 플랫폼은 강력한 교차 도메인 지식과 자연어 이해력을 갖춘 텐센트 혼합 위안화 빅 모델을 활용하여 사용자의 텍스트 설명을 기반으로 고품질 동영상을 생성합니다....

2 년 전

0101.4K

Spark-TTS: 자연스러운 음성 생성을 위한 텍스트 음성 변환 도구

일반 소개 Spark-TTS는 사용자가 텍스트를 자연스럽고 부드러운 음성으로 효율적으로 변환할 수 있도록 설계된 SparkAudio 팀에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 도구로, GitHub에서 호스팅됩니다....

1 년 전

0101.4K

AI 투자 시스템: 시장 데이터 분석을 위해 다중 지능 시스템을 사용하는 자동화된 A주 투자 의사결정 시스템

종합 소개 A_Share_investment_Agent는 다중 지능 시스템에 기반한 A주 투자 의사 결정 보조 시스템입니다. 이 시스템은 여러 협업 지능을 통해 시장 데이터를 분석하고, 주식의 내재 가치를 계산하고, 시장 심리 및 펀더멘털 데이터를 분석하여 다음과 같은 작업을 수행하도록 설계되었습니다.

2 년 전

0101.3K

OuteTTS: 실험적인 텍스트 음성 변환 모델, 순수 언어 모델링 접근 방식을 사용하여 구현된 TTS

종합 소개 OuteTTS는 순수 언어 모델링 접근 방식을 사용하여 고품질 음성을 생성하는 실험적인 텍스트 음성 변환(TTS) 모델입니다. 기존 TTS 시스템과 달리 OuteTTS는 외부 어댑터나 복잡한 아키텍처가 필요하지 않습니다. 이 모델은 LLaMa 아키텍처를 기반으로 합니다...

1 년 전

0101.3K

VLM-R1: 자연어를 통해 이미지 타깃을 찾기 위한 시각 언어 모델

종합 소개 VLM-R1은 Om AI Lab에서 개발하여 GitHub에서 호스팅하는 오픈 소스 시각 언어 모델링 프로젝트입니다. 이 프로젝트는 강화 학습을 통해 Qwen2.5-VL 모델과 결합된 DeepSeek의 R1 접근 방식을 기반으로 합니다.

1 년 전

0101.2K

에이전트 타스: 비전과 명령을 사용하여 컴퓨터를 작동하는 오픈소스 인텔리전스

종합 소개 에이전트 TARS는 ByteDance에서 오픈소스화한 멀티모달 AI 인텔리전스로, 사용자가 웹 콘텐츠를 시각적으로 이해하고 명령줄과 파일 시스템 작업을 결합하여 복잡한 컴퓨터 작업을 완료할 수 있도록 도와주는 핵심 기능을 갖추고 있습니다. 기존 도구처럼 수동 조작이 필요하지 않고 스스로 ...

1 년 전

0101.2K

Clone Voice：支持多语言的少样本声音克隆工具，基于xtts_v2提供Windows一键安装包

음성 복제: 원클릭 설치 프로그램을 갖춘 Windows용 xtts_v2 기반의 다국어 샘플 없는 음성 복제 툴입니다.

일반 설명 Clone Voice는 오픈 소스 사운드 복제 도구로, 사용자가 모든 사운드 또는 개인 음성 녹음을 사용하여 음성을 복제할 수 있는 웹 기반 인터페이스를 제공합니다. 이 도구는 NVIDIA GPU가 없어도 쉽게 사용할 수 있으며, 사전 컴파일된 앱과 함께 사용할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

0101.1K

InvSR: 이미지 해상도 품질 향상을 위한 오픈 소스 이미지 초고해상도 프로젝트

일반 소개 InvSR은 저해상도 이미지를 고품질 고해상도 이미지로 변환할 수 있는 확산 반전 기법을 기반으로 하는 혁신적인 오픈 소스 이미지 초고해상도 프로젝트입니다. 이 프로젝트는 사전 훈련된 대규모 확산 모델에 포함된 풍부한 이미지 사전 지식을 활용하며, 유연한 샘플링 메커니즘을 통해 다음을 지원합니다.

2 년 전

0101K

Scira（MiniPerplx）：模仿Perplexity的开源项目，集成AI对话、网页搜索、天气查询等功能

Scira(미니퍼플엑스): 퍼플렉시티를 모방한 오픈 소스 프로젝트로, AI 대화, 웹 검색, 날씨 쿼리 등을 통합합니다.

일반 소개 미니퍼플엑스(Scira로 명칭 변경)는 미니멀하게 디자인된 AI 기반 검색 엔진으로, 다양한 유용한 기능을 통합하여 사용자에게 모든 범위의 정보 검색 서비스를 제공합니다. 이 프로젝트는 Next.js, Tailwi...를 포함한 최신 기술 스택을 사용합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

2 년 전

0100.9K

OpenWebUI-Monitor：监控OpenWebUI用户活动，管理使用限额，支持一键部署。

OpenWebUI-Monitor: OpenWebUI 사용자 활동을 모니터링하고, 사용 제한을 관리하고, 원클릭 배포를 지원합니다.

일반 소개 OpenWebUI-Monitor는 OpenWebUI 사용자 활동을 모니터링하고 사용량 할당량을 관리하기 위한 대시보드입니다. 사용자 할당량을 효율적으로 설정하고, 사용자 데이터와 시각적 정보를 실시간으로 볼 수 있으며, 원클릭 배포를 지원하고, 사용자 관리 및 모니터링을 용이하게 합니다.

2 년 전

0100.8K

코드엠씨피: 클로드 데스크톱용 코딩 어시스턴트 MCP

일반 소개 codemcp는 Claude Desktop 사용자를 위해 설계된 오픈 소스 도구로, Edward Z. Yang이 GitHub에서 개발했습니다. 이 도구는 클로드 데스크톱을 유용한 ...

1 년 전

0100.7K

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

일반 소개 새드토커는 하나의 정지 인물 사진과 오디오 파일을 결합하여 개인화된 메시지, 교육용 콘텐츠 등 다양한 시나리오에 맞는 사실적인 말하는 아바타 동영상을 만드는 오픈 소스 툴입니다. ExpNet 및 PoseVA와 같은 3D 모델링 기술의 혁신적인 사용...

1 년 전

0100.6K

Voice-Pro：开源多功能视频翻译工具，语音转录并翻译为多语言，Windows一键安装

Voice-Pro: 오픈 소스 다기능 비디오 번역 도구, 음성 전사 및 여러 언어로의 번역, Windows 원클릭 설치

일반 소개 Voice-Pro는 음성-텍스트, 텍스트-음성, 실시간 번역, YouTube 동영상 다운로드 및 사람 음성 분리를 지원하는 Gradio WebUI 기반의 다목적 도구입니다. Whisper, Faster-Wh...를 통합합니다.

2 년 전

0100.6K

스크린샷을 코드로 변환: 스크린샷을 깔끔한 프런트엔드 코드로 변환하는 AI 도구

일반 소개 스크린샷 투 코드는 인공 지능을 사용하여 스크린샷, 디자인 초안, 피그마 디자인을 깔끔하고 기능적인 코드로 변환하는 오픈 소스 도구입니다. 이 도구는 HTML, Tailwind CS를 포함한 여러 프런트엔드 기술 스택을 지원합니다.

2 년 전

0100.5K

Emigo: Emacs에서 AI를 사용한 복잡한 프로그래밍 작업을 위한 도우미

일반 소개 Emigo는 GitHub의 MatthewZMD가 개발한 Emacs용으로 설계된 오픈 소스 AI 프로그래밍 도우미입니다. 대규모 언어 모델(LLM)을 통합하여 프로그래머가 Emacs에서 코드 분석을 완료할 수 있도록 도와줍니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

0100.5K

multi-model-bolt.new：基于 Bolt.new 的开源修改版，AI驱动的全栈开发工具

multi-model-bolt.new: AI 기반 풀스택 개발 도구인 Bolt.new에 기반한 오픈 소스 수정 버전

일반 설명 multi-model-bolt.new는 배포, 모바일 응답 및 음성 입력과 같은 기능을 지원하는 TogetherAI 모델을 사용할 수 있는 Bolt.new의 수정된 버전입니다. 사용자는 브라우저에서 바로 실행할 수 있습니다.

2 년 전

0100.4K

Fragments：类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

조각: Anthropic의 클로드 아티팩트, Vercel v0 또는 GPT 엔지니어와 같은 애플리케이션의 오픈 소스 버전입니다.

일반 소개 E2B의 프래그먼트는 AI로만 생성된 애플리케이션을 구축하기 위한 Next.js 기반의 템플릿을 제공하는 오픈 소스 프로젝트입니다. E2B에서 개발한 이 프로젝트는 AI 애플리케이션의 개발 프로세스를 간소화하고 가속화하는 것을 목표로 합니다. 그것은 다양한 현재를 통합합니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

2 년 전

0100.4K

MiMo: 효율적인 수학적 추론과 코드 생성을 위한 소규모 오픈 소스 모델

일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

0100.4K

Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR

일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...

2 년 전

0100.3K

BlinkShot：输入提示词实时生成图像（免费接入Flux Schnell模型）

BlinkShot: 프롬프트 단어를 입력하여 실시간 이미지 생성(Flux Schnell 모델 무료 이용)

일반 설명 BlinkShot은 오픈 소스 실시간 AI 이미지 생성기로, Together AI와 Flux Schnell 기술을 활용하여 사용자가 프롬프트에 입력하는 대로 고품질 이미지를 생성할 수 있습니다. 이 플랫폼은 완전 무료이며 사용자 커스터마이징과 2차 오픈을 지원합니다.

2 년 전

0100.3K

수학 번역: 과학 논문을 위한 라텍스 번역 도구

일반 소개 MathTranslate는 특히 과학 논문을 위한 LaTeX 문서 번역 전용 온라인 도구입니다. 이 도구는 라텍스 표현식(예: 수학 표현식)을 변경하지 않고 유지하며 최종적으로 라텍스 문서를 다음과 같이 컴파일할 수 있습니다.

2 년 전

0100.3K

SemHash: 시맨틱 텍스트 중복 제거를 빠르게 구현하여 데이터 정리 효율성 향상

개요 SemHash는 의미적 유사성을 기준으로 데이터 세트의 중복을 제거하기 위한 가볍고 유연한 도구입니다. 이 도구는 Model2Vec의 빠른 임베딩 생성과 Vicinity.SemHa...의 효율적인 ANN(근사 최인접 이웃) 유사성 검색을 결합합니다.

2 년 전

0100.2K

InstantIR: 손상된 이미지 복구 및 이미지 고화질 줌 오픈 소스 프로젝트, 최소 16G 비디오 메모리

일반 설명 InstantIR은 손상된 이미지를 매우 높은 품질과 생생한 디테일로 복원할 수 있도록 설계된 InstantX 팀에서 개발한 혁신적인 단일 이미지 복원 모델로, 손상된 이미지를 고품질로 복원할 수 있습니다. 이 도구는 이미지의 세부 사항을 복원할 뿐만 아니라 ...

2 년 전

0100.2K

KTransformers: 대규모 모델 추론 성능 엔진: 극한의 가속, 유연한 역량 강화

KTransformers: 대규모 모델 추론의 병목 현상을 해결하기 위한 고성능 Python 프레임워크입니다. 단순한 모델 실행 도구 그 이상이며, 극한의 성능 최적화 엔진과 유연한 인터페이스 강화 플랫폼입니다. KTransf...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

0100.1K

Cua: AI 에이전트가 macOS/Lux 샌드박스에서 애플리케이션을 안전하게 실행할 수 있도록 지원

일반 소개 Cua는 "쿠아"로 발음되는 "컴퓨터 사용 에이전트"라는 오픈 소스 프로젝트입니다. Apple 실리콘 기기용으로 설계되었으며, 고성능 macOS를 생성하고 실행할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

0100.1K

TRELLIS：Microsoft开发的3D资产生成模型，支持多种格式和灵活编辑

TRELLIS: 다양한 포맷 지원 및 유연한 편집 기능을 갖춘 Microsoft에서 개발한 3D 에셋 생성 모델입니다.

일반 소개 TRELLIS는 Microsoft에서 개발한 대규모 3D 에셋 생성 모델입니다. 텍스트 또는 이미지 프롬프트를 수신하고 방사형 필드, 3D 가우시안 및 메시와 같은 다양한 형식의 고품질 3D 에셋을 생성할 수 있으며, TRELLIS의 핵심은 통합된 구조화된 잠복...

2 년 전

099.9K

微信Markdown编辑器：简洁高效的微信图文排版工具，一键粘贴文章到微信公众号

위챗 마크다운 에디터: 간단하고 효율적인 위챗 그래픽 레이아웃 도구, 위챗 공개 번호에 기사를 붙여넣는 열쇠입니다.

종합 소개 WeChat 마크다운 편집기(WeChat 마크다운 편집기)는 사용자가 아름다운 WeChat 게시물을 쉽게 작성할 수 있도록 설계된 매우 간결한 WeChat 그래픽 레이아웃 도구입니다. 이 에디터는 모든 기본 마크다운을 지원합니다.

2 년 전

099.8K

NarratoAI: 텍스트 생성 영화 및 TV 내레이션 및 자동 편집 도구

일반 소개 NarratoAI는 영화 및 비디오 내레이션, 자동 편집, 더빙 및 자막 생성을 통합하는 완전 자동화된 도구입니다. 대규모 언어 모델링(LLM) 기술을 사용하여 자동으로 카피를 생성하고 해당 음성 해설 및 자막이 포함된 비디오를 자동으로 편집하여 사용자에게 원스톱 서비스를 제공합니다.

2 년 전

099.7K

세컨드 미: 개인의 기억과 습관을 가진 로컬로 학습된 AI 도플갱어

Second Me는 Mindverse 팀이 개발한 오픈 소스 프로젝트로, 컴퓨터에서 '디지털 도플갱어'처럼 행동하는 AI를 만들어 사용자의 말과 기억을 통해 사용자의 말 패턴과 습관을 학습하고 사용자의 말을 이해하는 똑똑한 사람이 될 수 있게 해줍니다.

1 년 전

099.6K

서버 없이 영구적인 Microsoft QR 코드 생성

일반 소개 서버리스 QR코드 허브는 WeChat 그룹 채팅에서 QR코드가 자주 실패하는 문제를 해결하기 위해 설계된 오픈 소스 도구입니다. 이 도구는 기존 서버를 실행할 필요 없이 Cloudflare Workers 및 D1 데이터베이스를 기반으로 합니다.

AI 실습 튜토리얼 # AI 자바 오픈 소스 프로젝트

1 년 전

099.5K

AutoGen: Microsoft에서 개발한 다중 인텔리전트 바디 대화 프레임워크

일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...

2 년 전

099.4K

DCT-Net: 사진 및 비디오를 애니메이션 스타일로 변환하는 오픈 소스 도구

일반 소개 DCT-Net은 이미지의 애니메이션 스타일 변환을 목표로 북경대학교 왕쉬안 컴퓨터 기술 연구소와 DAMO 아카데미에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 도메인 캘리브레이션 번역(Domain-Calibrat...

2 년 전

099.4K

페이 디지털 휴먼 프레임워크: 언어 모델과 3D 디지털 캐릭터를 통합하여 다양한 애플리케이션 시나리오 지원

종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

2 년 전

099.2K

NSFW 탐지기: 데이터 보안을 보호하기 위해 파일에 NSFW 콘텐츠가 포함되어 있는지 감지합니다.

종합 소개 NSFW Detector는 주로 이미지, 동영상, PDF 파일 등에 불쾌감을 주는 콘텐츠가 포함되어 있는지 여부를 탐지하는 데 사용되는 AI 기반 불쾌감 콘텐츠 탐지 도구입니다. 이 도구는 Falconsai/nsfwimagedetectio...

2 년 전

099.1K

로컬 심층 연구: 심층 연구 보고서 생성을 위한 로컬 실행 도구

일반 소개 로컬 딥 리서치는 사용자가 심층 연구를 수행하고 복잡한 문제에 대한 상세한 보고서를 생성할 수 있도록 설계된 오픈 소스 AI 연구 도우미입니다. 로컬 실행을 지원하므로 사용자가 클라우드 서비스에 의존하지 않고도 연구 작업을 완료할 수 있습니다. 이 도구는 ...

1 년 전

098.9K

YOLOE: 실시간 비디오 감지 및 객체 세분화를 위한 오픈 소스 도구

YOLOE는 칭화대학교 소프트웨어학부의 멀티미디어 인텔리전스 그룹(THU-MIG)에서 개발한 오픈 소스 프로젝트로, 정식 명칭은 "You Only Look Once Eye"입니다. YOLO 시리즈 확장에 속하는 PyTorch 프레임워크를 기반으로 합니다.

1 년 전

098.8K

Vanna: RAG 기법을 사용하여 텍스트에서 정확한 SQL 쿼리 생성하기

포괄적인 소개 Vanna는 RAG(검색 증강 생성) 기술을 통해 SQL 쿼리를 생성하는 데 중점을 둔 MIT 라이선스 오픈 소스 Python 프레임워크입니다. 사용자는 RAG 모델을 학습하고 자신의 데이터에 적용한 다음 질문을 하면 Vanna가 적절한 답변을 반환합니다.

2 년 전

098.8K

AnkiAIUtils: 메모리 카드를 자동으로 최적화하는 지능형 어시스턴트인 Anki 플래시카드 학습 AI 툴셋

일반 설명 AnkiAIUtils는 Anki 플래시카드 학습 시스템을 위해 설계된 AI 강화 도구 세트입니다. 의대생이 개발한 이 도구는 AI 기술을 통해 사용자가 학습 과정에서 어려움을 겪고 있는 카드를 자동으로 개선하도록 설계되었습니다. 이 도구는 사용자에게 지능적으로 개인화된 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

2 년 전

098.7K

TinyZero: 딥시크-R1 제로의 깨달음 효과를 저렴한 비용으로 재현한 제품

일반 소개 TinyZero는 카운트다운 및 곱셈 작업에서 DeepSeeK-R1 Zero의 성능을 재현하도록 설계된 veRL 기반 강화 학습 모델입니다. 놀랍게도 이 프로젝트는 실행 비용이 30달러에 불과합니다(2xH2...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

098.7K

머니프린터플러스: 한 번의 클릭으로 짧은 동영상을 생성하는 AI 도구, 무료 일괄 믹싱

종합 소개 MoneyPrinterPlus는 AI 기술을 통해 한 번의 클릭으로 모든 종류의 짧은 동영상을 생성 및 믹싱하여 Jieyin, Shutterbugs, Xiaohongshu, Video Number 등 여러 동영상 플랫폼에 자동으로 게시하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 도구는 채팅을 포함한 로컬 및 클라우드 기반 음성 모델을 지원합니다.

2 년 전

098.6K

DeOldify: AI 기술을 사용하여 흑백 사진과 동영상에 컬러를 입히는 클래식 오픈 소스 도구

종합 소개 DeOldify는 흑백 사진과 비디오의 지능형 컬러링 및 복원을 위한 딥러닝 기술을 기반으로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 혁신적인 NoGAN 훈련 방법을 사용하여 이미지 컬러링 과정에서 기존 GAN 네트워크의 일반적인 결함을 성공적으로 해결합니다...

2 년 전

098.6K

Yutu：YouTube 命令行管理工具，接入AI全自动运营 YouTube 频道

Yutu: YouTube 명령줄 관리 도구, AI에 액세스하여 YouTube 채널을 완전히 자동화하는 방법

일반 소개 Yutu는 유튜브 사용자를 위해 설계된 강력한 오픈 소스 명령줄 도구로, 깃허브에서 호스팅되고 eat-pray-ai 팀이 개발했습니다. 터미널을 통해 작동하여 YouTube 동영상, 재생 목록, 주파수...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

098.5K

AI RSS 생성기: AI를 통해 웹 콘텐츠를 RSS 피드로 변환하는 도구

일반 소개 AI RSS는 AI 기술을 통해 웹 콘텐츠를 RSS 피드로 변환하는 혁신적인 도구입니다. 브라우저 플러그인과 서버 측의 두 가지 주요 부분으로 구성됩니다. 브라우저 플러그인을 통해 사용자는 웹 페이지에서 목록을 선택하고 구조화된 데이터 설명(SDD) 파일을 생성할 수 있습니다.

2 년 전

098.5K

DiffSynth-Engine: 기존 배포가 적은 FLUX, Wan 2.1을 위한 오픈 소스 엔진

일반 소개 DiffSynth-Engine은 모델스코프에서 시작한 오픈소스 프로젝트로, 깃허브에서 호스팅되며 확산 모델링 기술을 기반으로 이미지와 비디오를 효율적으로 생성하는 데 중점을 두고 개발자가 프로덕션 환경에 AI 모델을 배포하기에 적합합니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

098.5K

위챗AI: Windows용 위챗 그룹 채팅 지능형 어시스턴트 클라이언트

종합 소개 WeChatAI는 파이썬 기반의 WeChat 그룹 채팅 및 개인 지능형 비서로, 지능형 대화, 자동 응답 및 기타 기능을 수행할 수 있는 다양한 대규모 언어 모델(예: DeepSeek, Gemini, 통이천문)을 지원합니다. 이 프로젝트는 현대를 사용합니다 ...

1 년 전

098.5K

아누비스: 워크로드 증명을 통해 AI 크롤러의 크롤링 방해하기

일반 소개 아누비스는 AI 크롤러로부터 웹사이트를 보호하기 위해 TecharoHQ 팀이 개발한 오픈 소스 도구입니다. HTTP 요청에 SHA256 작업 증명 챌린지를 추가하여...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

098.4K

Zola: 문서 업로드 및 다중 모델 지원 기능을 갖춘 오픈 소스 AI 채팅 웹 앱

일반 소개 Zola는 개발자 줄리앙 티보(GitHub 사용자명 ibelick)가 개발하고 GitHub에서 호스팅하는 무료 오픈 소스 AI 채팅 앱입니다. 가장 큰 특징은 다양한 AI 모드를 지원한다는 것입니다...

1 년 전

098.3K

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

종합 소개 Step-Audio는 프로덕션 환경에 즉시 사용 가능한 음성 이해 및 생성 기능을 제공하도록 설계된 오픈 소스 지능형 음성 인터랙션 프레임워크입니다. 이 프레임워크는 다국어 대화(예: 중국어, 영어, 일본어), 감정적 음성(예: 행복, 슬픔), 지역 방언(예: 광동어, 사천어 ...) 등을 지원합니다.

1 년 전

098.2K

olmOCR: PDF 문서를 텍스트로 변환, 표, 수식 및 필기 콘텐츠 인식 지원

일반 소개 olmOCR은 Allen 인공 지능 연구소(AI2)의 AllenNLP 팀이 개발한 오픈 소스 도구로 PDF 파일 변환에 중점을 두고 있습니다...

1 년 전

098.1K

Muyan-TTS: 개인화된 팟캐스트 음성 훈련 및 합성

Synthesis Muyan-TTS는 팟캐스트 시나리오를 위해 설계된 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 100,000시간 이상의 팟캐스트 오디오 데이터로 사전 학습되었으며 제로 샘플 음성 합성을 지원하여 고품질의 자연스러운 음성을 생성합니다. 이 모델은 Llama-3.2-3...을 기반으로 합니다.

1 년 전

098.1K

MCP Containers：基于 Docker 提供数百种 MCP 容器化部署

MCP 컨테이너: Docker를 기반으로 하는 수백 개의 MCP 컨테이너화된 배포

일반 소개 MCP 컨테이너는 모델 컨텍스트 프로토콜(MCP) 서버를 위한 컨테이너화된 솔루션을 제공하는 데 중점을 둔 오픈 소스 프로젝트로, GitHub에서 호스팅됩니다. Docker 컨테이너를 통해 간소화됩니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # MCP 서비스

1 년 전

098.1K

Yuxi-Know: 지식 그래프 기반의 지능형 Q&A 플랫폼

유시노우는 지식 그래프와 RAG(검색 증강 생성) 기술을 결합하여 사용자가 정확한 답변을 빠르게 얻을 수 있도록 지원하는 오픈소스 지능형 Q&A 플랫폼입니다. 지식 그래프를 저장하기 위해 Neo4j를 기반으로 FastAPI와 VueJS 구조를 사용하여 ...

1 년 전

098K

Promptfoo: 안전하고 신뢰할 수 있는 LLM 애플리케이션 테스트 도구 제공

개요 프롬프트푸는 대규모 언어 모델(LLM) 애플리케이션의 평가 및 레드팀 테스트 전용 오픈 소스 명령줄 도구이자 라이브러리입니다. 개발자에게 신뢰할 수 있는 프롬프트, 모델 및 검색 기반 생성(RAG)을 자체적으로 구축하기 위한 완벽한 도구 세트를 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

097.9K

간편한 데이터 세트: 대규모 모델 미세 조정 데이터 세트를 생성하기 위한 간단한 도구

종합 소개 Easy Dataset은 대규모 모델(LLM)의 미세 조정을 위해 특별히 설계된 오픈 소스 도구로, GitHub에서 호스팅됩니다. 사용자가 파일을 업로드하고, 콘텐츠를 자동으로 분류하고, 질문과 답변을 생성하고, 궁극적으로 적합한 결과물을 출력할 수 있는 사용하기 쉬운 인터페이스를 제공합니다.

1 년 전

097.8K

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

일반 소개 허깅페이스의 Open R1 프로젝트는 R1 파이프라인에서 누락된 부분을 구축하여 누구나 이를 복제하고 구축할 수 있도록 하는 것을 목표로 하는 완전 오픈 소스 DeepSeek-R1 복제 프로젝트입니다. 이 프로젝트는 단순하게 설계되었으며 주로 교육과 평가로 구성됩니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

097.8K

Qwen2.5-Omni: 멀티모달 입력 및 실시간 음성 상호작용을 위한 최종 측정 모델

종합 소개 Qwen2.5-Omni는 알리바바 클라우드 Qwen 팀에서 개발한 오픈 소스 멀티모달 AI 모델입니다. 텍스트, 이미지, 오디오 및 비디오와 같은 여러 입력을 처리하고 텍스트 또는 자연스러운 음성 응답을 실시간으로 생성할 수 있습니다. 이 모델은 2025년 3...

1 년 전

097.8K

Comp AI: SOC 2, ISO 27001 및 GDPR 규정 준수를 자동화하는 오픈 소스 플랫폼

일반 소개 Comp AI는 미국 샌프란시스코에 본사를 둔 Comp AI, Inc.에서 개발한 오픈 소스 플랫폼입니다. 조직이 자동화된 도구를 통해 SOC 2, ISO 27001 및 GDPR과 같은 규정 준수 요구 사항을 신속하게 완료할 수 있도록 지원합니다.

1 년 전

097.8K

촌키: 경량 RAG 텍스트 청크 라이브러리

개요 Chonkie는 개발자가 텍스트를 빠르고 쉽게 청킹할 수 있도록 설계된 가볍고 효율적인 RAG(검색 증강 생성) 텍스트 청킹 라이브러리입니다. 이 라이브러리는 다음과 같은 다양한 청킹 방법을 지원합니다.

1 년 전

097.7K

OmniSQL: 자연어를 고품질 SQL 쿼리로 변환하는 모델

일반 소개 OmniSQL은 RUCKBReasoning 팀이 개발하여 GitHub에서 호스팅하는 오픈 소스 프로젝트입니다. 핵심 기능은 사용자가 입력한 자연어 질문을 고품질 SQL 쿼리 문으로 변환하여 사용자가 쉽게 ...

1 년 전

097.6K

CoAI.Dev (Chat Nio)：AI聚合应用一站式 B/C 端解决方案，支持弹性计费和订阅计划模式

CoAI.Dev(채팅 니오): 유연한 과금 및 구독 요금제 모델을 지원하는 AI 어그리게이션 앱을 위한 원스톱 B/C 솔루션입니다.

일반 소개 CoAI.Dev(구 Chat Nio)는 여러 AI 모델을 통합하고 분산 스트리밍, 이미지 생성, 기기 간 대화 동기화 및 공유를 지원하는 채팅 플랫폼입니다. 구독 및 토큰 결제 시스템, 키 트랜짓 서비스, 다중 ...

2 년 전

097.6K

Neural4D: 고해상도 3D 모델링 디지털 에셋 생성을 위한 AI 플랫폼

일반 소개 Neural4D는 사용자가 간단한 텍스트 또는 이미지 입력으로 고품질 3D 모델과 애니메이션을 빠르게 생성할 수 있도록 지원하는 혁신적인 AI 기반 플랫폼입니다. 드림테크에서 개발한 이 플랫폼은 세계 최고의 엔드투엔드 3D 대형 모델 생성 기술을 기반으로 합니다....

1 년 전

097.6K

Activepieces：AI工作流程自动化，适合非技术用户的任务编排工具，开源Zapier替代品

액티브피스: AI 워크플로 자동화, 비기술 사용자를 위한 작업 스케줄링 도구, 오픈 소스 Zapier 대체 도구

일반 소개 Activepieces는 기업과 개인 사용자에게 직관적이고 강력한 자동화 솔루션을 제공하는 데 중점을 둔 오픈 소스 올인원 자동화 워크플로 플랫폼입니다. TypeScript로 개발된 이 플랫폼은 확장성이 뛰어나며 200개 이상의 통합 서비스를 지원합니다.

2 년 전

097.5K

k8m: Kubernetes 클러스터 관리를 간소화하는 경량 AI 콘솔 도구

일반 소개 k8m은 클러스터 관리를 간소화하도록 설계된 경량의 크로스 플랫폼 미니 Kubernetes AI 대시보드입니다. AMIS를 기반으로 구축되었으며 kom을 통해 Kubernetes API 게스트로 사용할 수 있습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

097.5K

AI reads books：AI逐页阅读PDF书籍，自动提取知识要点并生成总结

AI가 책을 읽습니다: AI가 PDF 책을 한 페이지씩 읽고 지식의 요점을 자동으로 추출하여 요약을 생성합니다.

종합 소개 AI-reads-books-page-by-page는 PDF 책의 페이지별 분석을 자동화하고 핵심 지식 포인트를 추출하며 지정된 페이지 간격 후 단계를 생성하는 Python 기반 지능형 PDF 책 분석 도구입니다....

2 년 전

097.5K

Copilot后端代理服务：用其他模型接管GitHub Copilot插件服务端

Copilot 백엔드 프록시 서비스: 다른 모델로 GitHub Copilot 플러그인 서버 인수하기

일반 소개 Copilot 백엔드 에이전트 서비스는 여러 사람이 공식 계정을 공유하는 것을 지원하면서 DeepSeek와 같은 다른 FIM 모델을 활용하여 GitHub Copilot 플러그인 서버를 관리하도록 설계된 오픈 소스 프로젝트입니다. 이 서비스는 V를 포함한 다양한 IDE를 지원합니다.

2 년 전

097.5K

ChatFree（ChatAnywhere-2）：使用GPT API创建的本地Copilot，支持任意窗口中补全对话

ChatFree(ChatAnywhere-2): 모든 창에서 대화를 완료할 수 있도록 지원하는 GPT API를 사용하여 만든 네이티브 코파일럿입니다.

일반 소개 ChatFree는 사용자의 AI 앱을 브라우저의 제약에서 벗어나 로컬에서 실행할 수 있도록 하는 것을 목표로 하는 오픈 소스 프로젝트입니다. GPT API를 사용하여 만들어진 Copilot은 Office, Word, WPS 등과 같은 다양한 오피스 소프트웨어를 지원하도록 설계되었습니다. 이 프로젝트의 개발자는 ...

2 년 전

097.5K

99AI: 멀티모달 AI 서비스를 통합하는 상용 웹 애플리케이션(무료 오픈 소스)

종합 소개 99AI는 배포하기 쉽고 문턱이 낮은 통합 AI 서비스 플랫폼을 제공하는 것을 목표로 하는 오픈 소스 AI 웹 애플리케이션 프로젝트입니다. 이 프로젝트는 지능형 대화, 멀티모달 모델, 애플리케이션 플라자, 네트워크 검색을 지원하며 AI 그림, 음악 및 비디오를 통합합니다.

2 년 전

097.3K

Midjourney Proxy：代理/逆向Midjourney Discord频道，实现AI绘图API调用（免费测试）

미드여정 프록시: AI 매핑 API 호출을 위한 미드여정 디스코드 채널 프록시/반전(무료 테스트)

종합 소개 Midjourney Proxy는 AI 그리기 기능을 API 형태로 변환하기 위해 Midjourney의 Discord 채널에 프록시 서비스를 제공하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 완전 무료 오픈 소스이며, 원클릭 얼굴 교체, 이미지 블렌딩, 그래프 생성 등을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

097.2K

YTSage：YouTube下载器，免费下载YouTube视频，提取音频，获取字幕

YTSage: 유튜브 다운로더, 유튜브 비디오 무료 다운로드, 오디오 추출, 자막 가져오기

일반 소개 YTSage는 깔끔한 PyQt6 인터페이스를 갖춘 최신 YouTube 다운로드 도구입니다. 사용자는 YTSage를 사용하여 모든 화질의 동영상을 다운로드하고, 오디오를 추출하고, 자막(자동 생성 자막 포함)을 가져오고, 동영상의 메타 정보를 볼 수 있습니다.

2 년 전

097.2K

LangGraph CodeAct: 지능이 복잡한 작업을 해결하는 데 도움이 되는 코드 생성

일반 소개 LangGraph CodeAct는 코드액트 아키텍처를 기반으로 한 LangChain AI 팀이 GitHub에서 오픈소스화한 프레임워크입니다(자세한 내용은 논문 arXiv:2402.01030 참조). 이는 다음을 생성하여 이를 수행합니다.

1 년 전

097K

ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

개요 ConsisID는 북경대학교의 Yuan Rong 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 달성하는 것을 목표로 합니다. 이 프로젝트의 핵심은 DiT(Diffusion Transfor ...

2 년 전

097K

NVIDIA Garak: LLM 취약점을 탐지하고 안전한 생성 AI를 위한 오픈 소스 도구

포괄적인 소개 NVIDIA Garak은 LLM(대규모 언어 모델)의 취약점을 탐지하도록 특별히 설계된 오픈 소스 툴입니다. 정적, 동적 및 적응형 프로빙을 통해 착시, 데이터 유출, 힌트 삽입, 오류 메시지 생성, 유해 콘텐츠 생성 등과 같은 여러 약점이 있는지 모델을 검사합니다....

2 년 전

097K

크리스퍼위스퍼: 정확한 축어체 음성 전사 도구

일반 설명 크리스퍼위스퍼는 빠르고 정확한 단어 단위 음성 녹취에 중점을 둔 OpenAI 위스퍼 기반의 고급 음성 인식 도구입니다. 음성 채우기 및 일시 정지 시에도 정확한 단어 수준의 타임스탬프를 제공합니다.

2 년 전

096.9K

Fast GraphRAG: 정확도가 높고 비용이 저렴한 그래픽 검색 향상 생성 도구

종합 소개 Fast GraphRAG는 지식 그래프와 페이지랭크 알고리즘을 통해 효율적이고 정확한 검색 증강 생성(RAG)을 가능하게 하기 위해 Circlemind AI에서 개발한 오픈 소스 도구입니다. 이 도구는 사용자의 용도에 맞게 지능적으로 적응합니다...

2 년 전

096.8K

트래커: 동영상 개체 추적을 위한 오픈 소스 도구 라이브러리

일반 소개 트래커는 동영상에서 다중 객체 추적에 초점을 맞춘 오픈 소스 Python 도구 라이브러리입니다. 이 라이브러리는 SORT 및 DeepSORT와 같은 여러 주요 추적 알고리즘을 통합하고 사용자가 다양한 객체 감지 모델(예: YOLO...

1 년 전

096.8K

ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

일반 소개 ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 이를 수행합니다.

1 년 전

096.7K

GraphRAG Visualizer：可视化和探索Microsoft GraphRAG工件的工具

GraphRAG 비주얼라이저: Microsoft GraphRAG 아티팩트를 시각화하고 탐색하기 위한 도구

일반 소개 GraphRAG Visualizer는 사용자가 Microsoft GraphRAG의 아티팩트를 시각화하고 탐색할 수 있도록 설계된 웹 기반 도구입니다. 파를 업로드하여 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 지식 그래프

2 년 전

096.6K

LlamaEdge: 로컬에서 LLM을 실행하고 미세 조정하는 가장 빠른 방법!

일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.

2 년 전

096.6K

FlowDown: iOS/macOS를 위한 원활한 AI 클라이언트 경험

일반 소개 FlowDown-App은 사용자에게 빠르고 원활한 지능형 대화 경험을 제공하기 위해 Swift와 UIKit을 사용하는 개발자 팀이 개발한 가볍고 효율적인 AI 대화 클라이언트입니다. 이 앱은 표준 버전(FlowDown...

1 년 전

096.5K

Melty: AI 기반 코드 편집기를 경험하고 모든 대화를 Git 커밋으로 만들어 보세요!

일반 소개 Melty는 채팅 대화와 Git 버전 제어를 결합한 혁신적인 AI 코드 편집기입니다. Replicate의 Charlie와 Jackson이 개발한 이 도구는 기존 AI 코딩 도구의 문제점을 해결하는 것을 목표로 합니다. 가장 큰 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

2 년 전

096.5K

Amurex: 오픈 소스 AI 회의 녹음 도우미, 회의 내용을 자동으로 녹음하여 요약을 생성합니다.

일반 소개 Amurex는 지능형 기능을 통해 회의 효율성을 개선하도록 설계된 The Personal AI Company에서 개발한 오픈 소스 AI 회의 도우미로, 실시간 조언 제공, 지능형 요약 생성, 회의 내용 기록, 자동 팔로우 전송이 가능합니다.

2 년 전

096.4K

코그에이전트: 그래픽 인터페이스 자동화를 위한 스마트 스펙트럼의 오픈 소스 지능형 시각 언어 모델

종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.

2 년 전

096.4K

Sana: 고해상도 이미지의 빠른 생성, 0.6B 초소형 모델, 로우 프로파일 노트북 GPU 작동

일반 소개 Sana는 NVIDIA 연구소에서 개발한 효율적인 고해상도 이미지 생성 프레임워크로, 최대 4096 × 4096 해상도의 이미지를 단 몇 초 만에 생성할 수 있으며, 선형 확산 트랜스포머와 딥 압축 셀프 인코더 기술을 사용하여 이미지를 크게...

2 년 전

096.3K

LogoCreator: AI 인텔리전스를 사용하여 전문적인 브랜드 로고를 생성하는 오픈 소스 로고 생성기입니다.

일반 소개 로고크리에이터는 기업과 개인을 위한 빠르고 전문적인 로고 디자인 서비스를 제공하는 데 중점을 둔 Together AI 및 Flux 모델 기반의 오픈 소스 로고 생성기입니다. 이 프로젝트는 개발자 Nutlope가 Git에서 개발 및 오픈 소스화했습니다.

2 년 전

096.3K

Open Canvas：代码编辑协作画布，开源版OpenAI Canvas/Claude Artifacts

오픈 캔버스: 코드 편집 협업 캔버스, OpenAI 캔버스/클라우드 아티팩트 오픈 소스 버전

일반 소개 LangChain은 내장된 이중 에이전트 메모리 기능과 전체 실행 세부 사항을 관찰할 수 있는 통합 스미스를 통해 문서 편집 및 협업 경험을 향상하도록 설계된 오픈 소스 웹 애플리케이션인 오픈 캔버스를 선보입니다. 이 플랫폼은 오픈에이...

1 년 전

096.3K

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

종합 소개 Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며, 오디오를 고차원 공간으로 직접 변환할 수 있습니다.

2 년 전

096.2K

하나의 허브: 여러 모델 및 통계 기능을 지원하는 OpenAI 인터페이스 관리 및 배포

일반 소개 원 허브는 원 API의 2차 개발을 기반으로 한 오픈AI 인터페이스 관리 및 배포 시스템입니다. 더 광범위한 모델 지원과 향상된 통계 기능을 제공하기 위해 MartialBE에서 개발했습니다.One Hub에는 다음과 같은 기능이 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

096.1K

腾讯混元3D（Hunyuan3D）：生成高分辨率3D资产，多种3D素材生成工作流

텐센트 하이브리드 3D(Hunyuan3D): 고해상도 3D 에셋 생성, 다양한 3D 머티리얼 생성 워크플로

종합 소개 Tencent Hunyuan3D(Hunyuan3D 2.0)는 고해상도 텍스처 3D 에셋을 생성하도록 설계된 Tencent의 고급 대규모 3D 합성 시스템입니다. 이 시스템은 대규모 형상 생성 모델인 훈위안3D-DiT와 대규모 텍스처 생성 모델인 훈위안3D-DiT의 두 가지 핵심 구성 요소로 이루어져 있습니다.

2 년 전

096K

AI ContentCraft：生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft: 단편 스토리, 대화 스크립트, 보이스오버, 그래픽을 생성하는 다목적 AI 콘텐츠 제작 툴입니다.

일반 설명 AI ContentCraft는 텍스트 생성, 음성 합성, 이미지 생성 등을 통합하는 다목적 콘텐츠 제작 도구입니다. 크리에이터가 스토리, 팟캐스트 스크립트, 함께 제공되는 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있도록 도와줍니다. 이 도구는 여러 언어 변환을 지원하며 일괄적으로 ...

최신 AI 리소스 # AI 쓰기 # AI 자바 오픈 소스 프로젝트

2 년 전

096K

AiPy: 데이터 분석을 위한 Python 코드 실행 작업 자동화

일반 소개 AiPy는 Knownsec 팀에서 개발한 오픈 소스 Python 명령줄 도구입니다. 대규모 언어 모델(LLM)과 파이썬 런타임 환경을 결합하여 사용자가 파이썬을 자동으로 생성하고 실행할 수 있도록 합니다.

1 년 전

095.7K

바이촨 오디오: 실시간 음성 상호작용을 지원하는 엔드투엔드 오디오 모델

포괄적인 소개 Baichuan-Audio는 Baichuan Intelligence(baichuan-inc)에서 개발한 오픈 소스 프로젝트로, 엔드투엔드 음성 상호작용 기술에 중점을 두고 GitHub에서 호스팅됩니다. 이 프로젝트는 음성을 지원하는 완벽한 오디오 처리 프레임워크를 제공합니다.

1 년 전

095.5K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...

2 년 전

095.5K

Austen: 책 속 인물 관계를 분석하고 그래프를 생성하는 AI 도구

일반 소개 Austen은 Angular 프레임워크와 Analogjs 초기화를 사용하는 오픈 소스 AI 도구로, Mermaidjs 기술과 결합하여 사용자가 책 속 인물 관계를 분석하는 데 도움이 되는 차트를 생성합니다. 사용자는 열기...를 입력할 수 있습니다.

1 년 전

095.5K

code2prompt: 코드 라이브러리를 이해하기 쉬운 빅 모델 프롬프트 파일로 변환하기

일반 소개 코드2프롬프트는 개발자 Mufeed VH가 GitHub에서 만들고 호스팅하는 오픈 소스 명령줄 도구로, 사용자가 전체 코드 베이스를 LLM(대규모 언어 모델)에 적합한 프롬프트로 빠르게 변환할 수 있도록 설계되었습니다(프롬프트 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

095.4K

Zed: Rust에서 개발한 고성능 멀티플레이어 협업 코드 에디터

일반 소개 Zed는 Atom과 Tree-sitter의 제작자가 개발한 고성능 다중 사용자 협업 코드 편집기로, Rust 언어로 작성되어 빠르고 유연한 코딩 경험을 제공하도록 설계되었습니다. 주요 기능으로는 멀티플레이어 지원이 있습니다...

2 년 전

095.3K

Moshi: 음성 대화 기본 모델을 위한 여러 언어와 악센트를 지원하는 실시간 음성 대화 프레임워크

일반 소개 모시 챗은 프랑스의 비영리 AI 연구소인 큐타이의 엔드투엔드 실시간 AI 음성 비서입니다. 실시간으로 들을 뿐만 아니라 자연스러운 대화에 참여하고 보고, 듣고, 말하는 기능을 포함한 다중 모드 상호 작용을 지원합니다.모시 챗 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

095.3K

Dify-Plus: Dify를 위한 온프레미스 관리 백엔드

포괄적인 소개 Dify-Plus는 Dify 오픈 소스 프로젝트의 2차 개발을 기반으로 하는 AI 애플리케이션 개발 플랫폼입니다. Dify에 기반한 새로운 관리 센터를 추가하고 기업 시나리오에 맞게 기능을 최적화합니다. 이 프로젝트는 처음에 기업 내부용으로 개발되었으나 나중에 커뮤니티에도 비슷한 요구가 있다는 것을 알게 되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

095.2K