AI 오픈 소스 프로젝트

총 1020개 문서

순서대로 정렬

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...

1 년 전

066.2K

모델베스트: 세계 최고의 경량, 고성능 엔드사이드 빅 모델

일반 소개 ModelBest는 경량 고성능 대형 모델 개발에 주력하는 회사로, 첨단 AI 기술을 주류 가전제품 및 일상 생활의 모든 종류의 최종 장치에 적용하는 데 전념하고 있습니다. 극한의 연산 능력과 메모리 사용 효율을 갖춘 MiniCPM 시리즈 엔드 사이드 모델은 ...

1 년 전

065.9K

Podcastfy：多源内容转多语言音频对话工具，NotebookLM 播客功能的开源替代方案

팟캐스트파이: 멀티소스 콘텐츠를 다국어 오디오 대화로 변환하는 도구, NotebookLM의 팟캐스팅 기능을 대체하는 오픈 소스 대안

일반 소개 Podcastfy는 생성 인공 지능(GenAI) 기술을 사용하여 웹 콘텐츠, PDF 파일, 텍스트, 이미지, 유튜브 동영상 및 기타 여러 소스를 매력적인 다국어 소스로 변환하는 오픈 소스 Python 패키지입니다.

1 년 전

057.5K

하나의 API: 다중 모델 API 관리 및 로드 밸런싱, 배포 시스템

포괄적인 소개 하나의 API는 OpenAI ChatGPT, Anthropic Claude, Google PaLM 2 및 Gemini와 같은 다양한 대형 모델을 지원하는 오픈 소스 인터페이스 관리 및 배포 시스템입니다. 더 자세한 내용은 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

079.9K

웬두오두오 AiPPT: AI 생성 PPT, 프레젠테이션 생성

개요 AiPPT는 인공지능 기술을 기반으로 한 PPT 생성 도구로, 사용자가 전문적인 프레젠테이션을 빠르게 만들 수 있도록 설계되었습니다. 테마 입력, 파일 업로드 또는 URL 제공 등을 통해 콘텐츠가 풍부하고 아름답게 디자인된 슬라이드를 자동으로 생성합니다. 기본 차트, 애니메이션 및 3D 특수 효과를 지원합니다.

1 년 전

079.8K

Easegen: 오픈 소스 디지털 휴먼 강의 제작 플랫폼, PPT 원클릭 생성 복제 디지털 휴먼 강의 영상

종합 소개 Easegen은 AI 기술을 통해 교육 콘텐츠 제작 및 관리의 효율성을 높이는 것을 목표로 하는 오픈 소스 디지털 휴먼 코스 제작 플랫폼입니다. 이 플랫폼은 코스 제작, 비디오 관리, 지능형 질문까지 원스톱 솔루션을 제공하여 사용자가 디지털 휴먼 설명 비디오 코스를 제작할 수 있도록 지원합니다.

1 년 전

062.9K

Open Canvas：代码编辑协作画布，开源版OpenAI Canvas/Claude Artifacts

오픈 캔버스: 코드 편집 협업 캔버스, OpenAI 캔버스/클라우드 아티팩트 오픈 소스 버전

일반 소개 LangChain은 내장된 이중 에이전트 메모리 기능과 전체 실행 세부 사항을 관찰할 수 있는 통합 스미스를 통해 문서 편집 및 협업 경험을 향상하도록 설계된 오픈 소스 웹 애플리케이션인 오픈 캔버스를 선보입니다. 이 플랫폼은 오픈에이...

1 년 전

068.5K

오토젠 스튜디오: 사용하기 쉬운 멀티 에이전트 시스템 오토젠의 인터페이스 버전

일반 설명 AutoGen Studio 2.0은 다중 에이전트 솔루션의 생성 및 관리 프로세스를 간소화하도록 설계된 AutoGen 기반의 사용자 인터페이스입니다. 이 플랫폼을 통해 사용자는 직관적인 인터페이스를 통해 에이전트와 워크플로를 선언적으로 정의하고 수정할 수 있습니다.

1 년 전

079.2K

MeetingMind：依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: 오픈소스 지능형 회의 녹음 및 요약 도구로 OpenAI Whisper에 의존합니다.

일반 소개 미팅마인드는 비즈니스 회의를 캡처하고 요약하는 효율성을 향상시키기 위해 설계된 고급 AI 애플리케이션입니다. 이 앱은 정확한 음성-텍스트 변환을 위해 OpenAI의 Whisper 기술을 통합하고 IBM Watso...

1 년 전

062.3K

Coqui TTS（xTTS）：文本到语音生成的深度学习工具包，支持多种语言和声音克隆功能

Coqui TTS(xTTS): 다국어 지원 및 음성 복제 기능을 갖춘 텍스트 음성 변환을 위한 딥러닝 툴킷입니다.

포괄적인 소개 Coqui TTS는 딥러닝 기술을 기반으로 하는 오픈 소스 고급 텍스트 음성 변환(TTS) 생성 툴킷입니다. 연구 및 프로덕션 환경 모두에서 테스트를 거쳤으며 여러 언어의 텍스트 음성 변환을 지원하는 풍부한 기능과 모델을 제공합니다.Coqui TTS...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

0111.2K

MemFree: 지역 지식 기반과 검색 정보를 혼합하는 AI 검색 엔진

일반 소개 MemFree는 텍스트, 이미지, 문서 및 웹 페이지를 통해 검색하고 질문할 수 있는 고급 하이브리드 AI 검색 엔진입니다. 텍스트, 마인드맵, 이미지, 동영상에 대한 검색 결과에 한 번의 클릭으로 액세스할 수 있으며, MemFree는 사용자의 지식 기반에서 정보를 추출하고...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

1 년 전

056K

BlinkShot：输入提示词实时生成图像（免费接入Flux Schnell模型）

BlinkShot: 프롬프트 단어를 입력하여 실시간 이미지 생성(Flux Schnell 모델 무료 이용)

일반 설명 BlinkShot은 오픈 소스 실시간 AI 이미지 생성기로, Together AI와 Flux Schnell 기술을 활용하여 사용자가 프롬프트에 입력하는 대로 고품질 이미지를 생성할 수 있습니다. 이 플랫폼은 완전 무료이며 사용자 커스터마이징과 2차 오픈을 지원합니다.

1 년 전

073.4K

FunASR: 오픈 소스 음성 인식 툴킷, 화자 분리/다자간 대화 음성 인식

종합 소개 FunASR은 학술 연구와 산업 응용 분야를 연결하기 위해 알리바바 다르모 아카데미에서 개발한 오픈 소스 음성 인식 툴킷입니다. 음성 인식(ASR), 음성 엔드포인트 감지(VAD), 문장 부호 복구, 언어 모델링, 말하기 등 다양한 음성 인식 기능을 지원합니다.

1 년 전

0157.2K

울트라픽셀: 풍부한 이미지 디테일을 구현하는 혁신적인 초고해상도 이미지 생성 기술

일반 소개 울트라픽셀은 초고화질, 디테일이 풍부한 이미지를 생성하도록 설계된 고급 초고해상도 이미지 생성 기술입니다. GitHub 사용자 catcath가 개발하여 NeurIPS 2024.U.에서 발표했습니다.

1 년 전

057.5K

SiYuan(시위안 노트): 개인 정보 보호를 최우선으로 하는 개인 지식 관리 소프트웨어로 AI 글쓰기/Q&A 채팅을 지원합니다.

일반: 시위안 노트(SiYuan)는 완전한 오픈 소스이며 셀프 호스팅을 지원하는 개인 정보 보호 우선의 개인 지식 관리 소프트웨어입니다. 타입스크립트와 골랑으로 작성되었으며, 세분화된 블록 레벨 참조와 마크다운 위지위그(WYSIWYG)를 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 노트

1 년 전

0105K

아부 퀀트 트레이딩 시스템: 파이썬 기반 오픈 소스 퀀트 트레이딩 플랫폼

일반 소개 아부 퀀트 트레이딩 시스템은 파이썬 기반의 오픈 소스 플랫폼입니다. 투자자가 코드를 통해 퀀트 트레이딩 전략을 구현할 수 있도록 사용자 "bbfamily"가 만들었습니다. 이 시스템은 주식, 옵션, 선물, 비트코인 등 다양한 금융상품의 백테스팅과 거래를 지원합니다. It...

1 년 전

077K

지식 테이블: 구조화된 데이터의 효율적인 추출과 탐색을 위한 오픈 소스 도구

종합 소개 지식 테이블(Knowledge Table)은 비정형 문서에서 정형 데이터를 추출하고 탐색하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 사용자는 자연어 쿼리 인터페이스를 통해 표와 그래프와 같은 구조화된 지식 표현을 만들 수 있습니다. 이 도구는 추출 사용자 지정을 지원합니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 지식 그래프

1 년 전

058.4K

CogView3: 위즈덤 스펙트럼의 오픈 소스 캐스케이드 확산 텍스트 생성 이미지 모델

종합 소개 CogView3는 칭화대학교와 싱크탱크 팀(Chi Spectrum Qingyan)이 개발한 고급 텍스트 생성 이미지 시스템입니다. 계단식 확산 모델을 기반으로 하며 여러 단계를 거쳐 고해상도 이미지를 생성하며, 다단계 생성, 혁신적인 아키텍처 및 효율적인 성능을 포함한 CogView3의 주요 기능은 다음과 같습니다.

1 년 전

052.6K

RocketNotes：支持文本补全、文档对话、语义搜索的Markdown笔记应用

RocketNotes: 텍스트 완성, 문서 대화, 시맨틱 검색을 지원하는 마크다운 노트 앱

일반 소개 RocketNotes는 대규모 언어 모델(LLM) 기반의 텍스트 완성, 채팅, 시맨틱 검색 기능을 통합한 웹 기반 마크다운 노트 필기 애플리케이션입니다. 이 프로젝트는 100% 서버리스 RAG(Re...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 노트

1 년 전

053.8K

F5-TTS: 음성 복제 샘플을 줄여 부드럽고 감정적으로 풍부한 복제 음성을 생성합니다.

종합 소개 F5-TTS는 스트림 일치형 확산 트랜스포머(DiT)를 기반으로 하는 새로운 비회귀형 텍스트 음성 변환(TTS) 시스템입니다. 이 시스템은 ConvNeXt 모델을 사용하여 텍스트 표현을 최적화합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

096.3K

AsrTools: 음성-자막 변환 도구, 컷씬, 레이서 및 머스트 컷에 대한 인터페이스가 내장된 경량 클라이언트

포괄적인 소개 AsrTools는 Cutscene, QuickScope, MustCut 등과 같은 대형 업체의 인터페이스가 내장된 지능형 음성 텍스트 변환 도구입니다. GPU나 번거로운 구성이 필요하지 않으며 효율적인 멀티스레드 일괄 처리를 지원합니다. 파이큐트5 개발, 아름답고 사용자 친화적인 인터페이스를 기반으로 하며, SRT 및 TXT 형식의 단어를 출력할 수 있습니다....

1 년 전

076.7K

Surya: 전문 다국어 문서 OCR 도구, 오픈 소스 네이티브 배포

종합 소개 Surya는 90개 이상의 언어로 텍스트 인식을 지원하는 오픈 소스 다국어 문서 OCR 툴킷입니다. 줄 단위 텍스트 감지뿐만 아니라 레이아웃 분석, 읽기 순서 감지, 표 인식도 수행하며, Surya의 성능은 모든 유형의 클라우드 서비스와 비교할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

2 년 전

0120K

인터페이스 포워딩을 지원하기 위해 Cloudflare에 허깅 페이스의 무료 API 배포하기

국내 배포는 허깅 페이스에 액세스할 수 없기 때문에 클라우드플레어 작업자에게 배포할 수 있도록 변환을 기반으로 한 빅 브라더 배포 프로그램에서 준비 1, 클라우드플레어 등록 2, 허깅 페이스 등록 ...

1 년 전

067.8K

Inbox Zero：轻松实现收件箱零邮件，借助 AI 帮助你对邮件进行归类、过滤、处理。

받은 편지함 제로: 이메일을 분류, 필터링 및 처리하는 데 도움을 주는 AI의 도움으로 받은 편지함의 이메일을 쉽게 제로로 만들 수 있습니다.

일반 설명 Inbox Zero는 AI 어시스턴트를 통해 사용자가 받은 편지함 이메일을 빠르게 정리할 수 있도록 설계된 오픈 소스 이메일 관리 앱입니다. 이 앱은 자동 응답, 보관, 라벨 지정 및 이메일 전달, 뉴스레터 관리 및 구독 취소, 콜드 이메일 차단, 팔로잉 등 다양한 기능을 제공합니다.

1 년 전

051.6K

XYKS: 소형 유인원 구두 계산 리버스 노트, 리버스 엔지니어링 및 복호화 알고리즘

포괄적인 소개 유인원 입 계산기 리버스 노트는 유인원 입 계산기 애플리케이션을 리버스 엔지니어링하는 과정과 방법을 문서화하고 공유하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트에는 사용자가 작은 유인원 구강 산술 추가를 이해하고 해독하는 데 도움이 되는 지침을 사용하기 위한 다양한 리버스 도구 및 기술(예: Frida, dexdump 등)이 포함되어 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

2 년 전

064.4K

XiaoYuanKouSuan_Auto：小猿口算自动答题工具，高效解决口算题目

샤오위안커우쑤안 자동 질문과 답변 도구, 구두 산술 주제를 효율적으로 해결

종합 소개 Ape Mouth 계산기 자동 질문 답변 도구는 OCR 인식 및 자동화 스크립트를 통해 Ape Mouth 계산기 애플리케이션의 문제를 효율적으로 해결하기 위해 설계된 Python 기반 오픈 소스 프로젝트입니다. 이 도구는 OpenCV 및 Tesseract와 같은 기술을 사용하여 화면의 질문을 실시간으로 식별할 수 있습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

2 년 전

055.6K

Telegram GPT Worker：部署在Cloudflare Workers上的多模型AI Telegram机器人

텔레그램 GPT 워커: Cloudflare 워커에 배포된 다중 모델 AI 텔레그램 봇

일반 소개 GPT-Telegram-Worker는 OpenAI, Claude, Azure 등과 같은 여러 AP를 지원하는 Cloudflare Workers 기반의 다중 모델 AI 텔레그램 봇입니다....

1 년 전

056.8K

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

클라우드 문서 변환기: 플라잉북 문서 다운로드 플러그인, 플라잉북 클라우드 문서를 로컬 마크다운 형식 문서로 변환합니다.

일반 소개 클라우드 문서 변환기는 플라잉북 클라우드 문서를 마크다운 형식으로 변환하기 위해 설계된 Chrome 확장 프로그램입니다. 사용자는 플라잉북 클라우드 문서를 마크다운으로 쉽게 다운로드하거나 복사할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

058.1K

QuickPiperAudiobook：一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook: 자연스러운 음질의 오디오북을 생성하는 열쇠, PDF, epub, docx 및 기타 형식 지원

포괄적인 소개 QuickPiperAudiobook은 간단한 명령 하나로 다양한 텍스트 형식(예: epub, mobi, txt, PDF, HTML 등)을 자연스러운 오디오북으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 Pi...

2 년 전

052.4K

Crawl4AI: LLM 없이 구조화된 데이터를 추출하는 오픈 소스 비동기 웹 크롤러 도구

종합 소개 Crawl4AI는 대규모 언어 모델(LLM) 및 인공 지능(AI) 애플리케이션을 위해 설계된 오픈 소스 비동기 웹 크롤러 도구입니다. 웹 크롤링 및 데이터 추출 프로세스를 간소화하고, 효율적인 웹 크롤링을 지원하며, LLM 친화적인 출력 형식을 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

087.7K

Cloudflare Serverless Registry：基于Cloudflare Workers的无服务器容器注册表

Cloudflare 서버리스 레지스트리: 클라우드플레어 워커에 기반한 서버리스 컨테이너 레지스트리

일반 소개 클라우드플레어 서버리스 레지스트리는 클라우드플레어 워커와 R2 스토리지를 기반으로 하는 서버리스 컨테이너 레지스트리입니다. 이미지 푸시 및 풀을 지원하며 사용자 이름 암호와 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

048.6K

AIHawk: 지능형 구직 도우미, 자동화된 이력서 배치(영어만 해당)

일반 소개 Auto_Jobs_Applier_AIHawk는 인공지능 기술을 사용하여 구직 활동을 자동화하는 도구입니다. 사용자가 단기간에 많은 양의 이력서를 자동으로 전송하고 개인 정보와 구직 의도에 따라 개인화할 수 있도록 도와줍니다. 이 도구는 ...

1 년 전

059.6K

simple-one-api：一键集成多种免费大模型API，统一对外提供 OpenAI 接口

simple-one-api: 다양한 무료 대형 모델 API의 원클릭 통합, 통합된 외부 OpenAI 인터페이스

종합 소개 simple-one-api는 여러 빅 모델 API의 통합을 간소화하기 위해 설계된 오픈 소스 프로젝트입니다. ThousandFans 빅 모델 플랫폼, 슌페이 스타파이어 빅 모델, 텐센트 혼합 요소, 미니맥스, 딥서치 등 OpenAI 호환 API를 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

062.2K

보이스 체인저: 좋아하는 애니메이션 캐릭터가 노래하는 실시간 보이스 체인저!

일반 소개 보이스 체인저는 MMVC, so-vits-svc, RVC, DDSP-SVC 및 Beatrice와 같은 광범위한 AI 음성 모델을 지원하는 오픈 소스 실시간 음성 변환 도구입니다.이 도구는 여러 플랫폼과 호환됩니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

070.6K

VoAPI: 고부가가치 AI 모델 전달 인터페이스 관리 시스템, 공식 웹사이트에서 매일 무료 API 할당량을 제공합니다.

종합 소개 VoAPI는 주로 개인 또는 기업 내부 관리 및 배포 채널에 사용되는 새로운 고도의 고성능 AI 모델 인터페이스 관리 및 배포 시스템입니다. NewAPI를 기반으로 개발된 이 시스템은 풍부한 기능 모듈과 최적화된 사용자 인터페이스를 제공하여 다음을 향상시키는 것을 목표로 합니다.

1 년 전

058.8K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

모킹버드: 빠른 음성 복제 및 모델 학습, xtts v2 기반 텍스트 음성 변환

종합적인 소개 모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 모든 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows에서는 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

062.8K

Clone Voice：支持多语言的少样本声音克隆工具，基于xtts_v2提供Windows一键安装包

음성 복제: 원클릭 설치 프로그램을 갖춘 Windows용 xtts_v2 기반의 다국어 샘플 없는 음성 복제 툴입니다.

일반 설명 Clone Voice는 오픈 소스 사운드 복제 도구로, 사용자가 모든 사운드 또는 개인 음성 녹음을 사용하여 음성을 복제할 수 있는 웹 기반 인터페이스를 제공합니다. 이 도구는 NVIDIA GPU가 없어도 쉽게 사용할 수 있으며, 사전 컴파일된 앱과 함께 사용할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

077.7K

스트리밍T2V: 텍스트에서 긴 동영상까지 동적이고 확장 가능한 생성

종합 소개 스트리밍T2V는 텍스트 설명을 기반으로 일관성 있고 동적이며 확장 가능한 긴 동영상을 생성하는 데 중점을 두고 픽사트 AI 연구팀에서 개발한 공개 프로젝트입니다. 이 기술은 고급 자동 회귀 접근 방식을 사용하여 비디오와 설명 텍스트의 시간적 일관성을 엄격하게 보장합니다.

1 년 전

058.3K

Text2Video-Zero：Picsart AI Research团队发布的文本到视频零样本生成器

텍스트2비디오제로: 픽스아트 AI 연구팀에서 출시한 텍스트-비디오 제로 샘플 생성기

일반 소개 텍스트2비디오-제로는 픽스아트 AI 연구팀이 개발한 깃허브용 제로 샘플 텍스트-비디오 생성기의 공식 구현으로, 이 프로젝트는 텍스트 단서를 사용하여 시간적 일관성을 가진 텍스트를 생성하고 정확한 ...

2 년 전

056K

Retrieval based Voice Conversion WebUI：基于检索的语音转换框架|模拟真人歌声

검색 기반 음성 변환 웹UI: 검색 기반 음성 변환을 위한 프레임워크 | 실제 노래하는 목소리 시뮬레이션하기

포괄적인 소개 검색 기반 음성 변환 WebUI는 노래 커버 및 실시간 음성 변경을 포함하여 모든 화자 간의 음성 변환을 가능하게 하는 사용하기 쉬운 VITS 기반 음성 변환 프레임워크입니다. 그것은 낮은 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

066.9K

VoiceCraft: 오픈 소스 제로 샘플 음성 복제 및 텍스트 음성 변환 도구

개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

067.9K

edge-tts: 텍스트 음성 변환 Python 모듈 | 무료 텍스트 음성 변환 서비스

일반 설명 edge-tts는 사용자가 Microsoft Edge 브라우저, Windows 운영 체제 또는 API 비밀 번호 없이도 Python 코드로 Microsoft Edge의 온라인 텍스트 음성 변환 서비스를 사용할 수 있는 오픈 소스 Python 모듈입니다.

2 년 전

0107.7K

CoAI.Dev (Chat Nio)：AI聚合应用一站式 B/C 端解决方案，支持弹性计费和订阅计划模式

CoAI.Dev(채팅 니오): 유연한 과금 및 구독 요금제 모델을 지원하는 AI 어그리게이션 앱을 위한 원스톱 B/C 솔루션입니다.

일반 소개 CoAI.Dev(구 Chat Nio)는 여러 AI 모델을 통합하고 분산 스트리밍, 이미지 생성, 기기 간 대화 동기화 및 공유를 지원하는 채팅 플랫폼입니다. 구독 및 토큰 결제 시스템, 키 트랜짓 서비스, 다중 ...

1 년 전

069.2K

ChatOllama: Nuxt 3 및 Ollama 기반의 로컬 실시간 채팅 애플리케이션 UI

포괄적 인 소개 ChatOllama는 대규모 언어 모델 (LLM)을 기반으로하는 오픈 소스 온라인 채팅 응용 프로그램 프로젝트로 수많은 언어 모델과 지식 기반 관리를 지원합니다. 사용자는 모델 관리(목록 표시, 다운로드, 삭제), 모델과의 채팅 및 기타 기능을 위해 플랫폼을 사용할 수 있습니다. 이 프로젝트는 ...

2 년 전

059.5K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

개요 MinerU는 상하이 인공 지능 연구소의 OpenDataLab 팀이 개발한 오픈 소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지 및 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 멀티모달 PDF를 추출할 수 있습니다.

2 년 전

0140.4K

DCT-Net: 사진 및 비디오를 애니메이션 스타일로 변환하는 오픈 소스 도구

일반 소개 DCT-Net은 이미지의 애니메이션 스타일 변환을 목표로 북경대학교 왕쉬안 컴퓨터 기술 연구소와 DAMO 아카데미에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 도메인 캘리브레이션 번역(Domain-Calibrat...

1 년 전

061.7K

Diffusers Image Outpaint：超强开源AI图像扩展工具，图像外绘（image outpainting）

디퓨저 이미지 아웃페인트: 매우 강력한 오픈 소스 AI 이미지 확장 도구, 이미지 아웃페인팅(이미지 아웃페인팅)

일반 소개 확산기 이미지 아웃페인트는 허깅 페이스 커뮤니티 회원인 fffiloni가 만든 강력한 AI 이미지 확장 도구입니다. 이 도구는 고급 확산 모델링 기법을 활용하여 이미지를 ...

2 년 전

066.2K

Tap4 AI WebUI: 오픈 소스 경량 AI 도구 탐색 프로젝트

포괄적 인 소개 Tap4 AI WebUI는 사용자가 자신 만의 AI 도구 카탈로그를 쉽게 구축 할 수 있도록 설계된 오픈 소스 경량 AI 도구 탐색 웹 사이트 프로젝트입니다. 이 프로젝트는 Next.js 및 Supabase 기술 스택을 사용하고 다국어 SEO 최적화를 지원하여 AI ...

1 년 전

055.6K

CodeFormer: 이미지 및 비디오 얼굴 복원, 오래된 사진 복원, 원클릭 배포 버전 제공

코드포머 일반 소개 코드포머는 난양공과대학교 S-Lab 연구팀이 개발한 강력한 시각장애인 얼굴 복구를 위한 코드베이스로, NeurIPS 2022에서 발표되었습니다. 이 프로젝트는 코드북 룩업 트랜스포머(C ...

2 년 전

082K

GFPGAN: 텐센트의 오픈 소스 얼굴 복구 알고리즘

종합 소개 GFPGAN(생성적 얼굴 사전 GAN)은 Tencent ARC(응용 연구 센터)에서 개발한 오픈 소스 얼굴 복구 알고리즘입니다. 이 알고리즘은 사전 학습된 얼굴 GAN을 사용합니다...

2 년 전

076.3K

Curiosity：使用LangGraph构建类似 Perplexity 的AI搜索工具

호기심: LangGraph를 사용하여 퍼플렉서티와 유사한 AI 검색 도구 구축하기

일반 소개 Curiosity는 Perplexity와 유사한 검색 제품을 구축하는 것을 목표로 주로 LangGraph 및 FastHTML 기술 스택을 사용하여 탐구와 실험을 목적으로 하는 프로젝트입니다. 이 프로젝트의 핵심은 간단한...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

2 년 전

051.1K

Moshi: 음성 대화 기본 모델을 위한 여러 언어와 악센트를 지원하는 실시간 음성 대화 프레임워크

일반 소개 모시 챗은 프랑스의 비영리 AI 연구소인 큐타이의 엔드투엔드 실시간 AI 음성 비서입니다. 실시간으로 들을 뿐만 아니라 자연스러운 대화에 참여하고 보고, 듣고, 말하는 기능을 포함한 다중 모드 상호 작용을 지원합니다.모시 챗 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

067.6K

QAnything: 고도로 통합된 RAG 프로세스를 갖춘 로컬 지식창고 Q&A 시스템

QAnything 종합 소개 QAnything(질문과 답변 기반)은 넷이즈에서 출시한 로컬 지식 기반 Q&A 시스템으로, 모든 종류의 파일 형식과 데이터베이스를 지원하며 오프라인에서 설치하여 사용할 수 있습니다.....

2 년 전

068.2K

StickerBaker: AI로 맞춤형 스티커 이미지 만들기

일반 설명 스티커베이커는 인공 지능 기술을 사용하여 다양하고 재미있는 스티커를 만드는 오픈 소스 스티커 메이커입니다. 간단한 고양이 스티커를 원하든 다양한 스티커 시리즈를 만들고 싶든 스티커 베이커는 귀하의 요구를 충족시킬 수 있습니다 ...

2 년 전

054.7K

ALog: 음성-텍스트 변환을 지원하는 휴대용 AI 음성 일기장 앱입니다.

개요 ALog는 사용자가 음성으로 일상을 기록할 수 있도록 설계된 AI 기반 음성 일기장 애플리케이션입니다. duxins가 개발했으며 GitHub에서 오픈소스입니다. 사용자는 음성 입력을 통해 일기 항목을 녹음할 수 있으며, 앱은 음성을 자동으로 텍스트로 변환합니다....

1 년 전

060.6K

OpenSPG: 오픈 소스 지식 그래프 엔진

종합 소개 OpenSPG는 SPG(Semantic Augmented Programmable Graph) 프레임워크에 기반하여 Ant Group이 OpenKG와 협력하여 개발한 오픈 소스 지식 그래프 엔진입니다. 이 엔진은 도메인 지식 그래프의 구축 및 관리를 지원하기 위해 명시적 의미 표현, 논리적 규칙 정의 및 운영 프레임워크와 같은 기능을 제공하도록 설계되었습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 지식 그래프

2 년 전

087.7K

Mem0: AI 어시스턴트 및 에이전트를 위한 지능형 메모리 계층을 제공하는 오픈 소스 프로젝트입니다.

일반 소개 Mem0("mem-zero"로 발음)는 AI 어시스턴트와 에이전트를 위한 지능형 메모리 계층을 제공하는 오픈 소스 프로젝트입니다. 사용자 선호도를 기억하고, 개인의 필요에 맞게 조정하며, 시간이 지남에 따라 개선되므로 고객 지원 챗봇, AI 비서 및 자율 시스템에 이상적입니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

079.2K

Void: VSCode 기반 오픈 소스 커서 대안

일반 소개 Void는 vscode 저장소의 브랜치를 기반으로 하는 오픈 소스 커서 대안입니다. 개발자에게 보다 효율적인 코딩 경험을 제공하도록 설계된 강력한 개발 환경을 제공하며, 커뮤니티 기여와 빠른 반복을 통해 기능과 안정성을 지속적으로 개선하는 것이 Void의 목표입니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

094.3K

GaiaNet 노드: 자체 로컬 모델 온라인 프록시 서비스 설치 및 실행

일반 소개 GaiaNet-AI/gaianet-node는 사용자가 단일 명령으로 Mac, Linux 또는 Windows WSL에 기본 노드 소프트웨어 스택을 빠르게 설치할 수 있는 오픈 소스 프로젝트입니다. 사용자는 노드를 초기화하고, 구성을 사용자 지정하고, 다운로드할 수 있습니다.

2 년 전

057.3K

LlamaCoder: 프롬프트 단어를 사용하여 작은 웹 애플리케이션을 빠르게 생성 및 게시하기

일반 소개 라마코더는 라마 3.1과 Together AI를 기반으로 하는 오픈 소스 코드 생성 도구입니다. 간단한 프롬프트로 작은 애플리케이션을 생성할 수 있어 개발자가 아이디어를 빠르게 실현하는 데 적합합니다.LlamaCoder는 ...

1 년 전

068.4K

어썸 커서룰: 커서 AI 경험을 향상시키는 규칙 세트

일반 설명 awesome-cursorrules는 커서 AI용 사용자 지정 규칙 파일을 제공하기 위한 프로젝트입니다. 커서 AI는 AI 기반 코드 편집기이며 .cursorrules 파일을 설정할 수 있습니다...

2 년 전

060K

수학 번역: 과학 논문을 위한 라텍스 번역 도구

일반 소개 MathTranslate는 특히 과학 논문을 위한 LaTeX 문서 번역 전용 온라인 도구입니다. 이 도구는 라텍스 표현식(예: 수학 표현식)을 변경하지 않고 유지하며 최종적으로 라텍스 문서를 다음과 같이 컴파일할 수 있습니다.

1 년 전

074.1K

GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

종합 소개 GOT-OCR2.0은 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 하는 StepStar가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델입니다. 이 모델은 일반 텍스트 인식, 그래픽 인식 등 광범위한 OCR 작업을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

2 년 전

065.6K

TgWechat: WeChat용 엔드투엔드 암호화 채팅 플러그인

일반 소개 tgwechat은 개발자 dplusec이 개발한 오픈 소스 WeChat 플러그인입니다. 엔드투엔드 암호화를 통해 WeChat 채팅 개인정보를 보호하여 사용자가 안전하게 메시지를 보낼 수 있도록 합니다. 이 프로젝트는 GPL v3 라이선스에 따라 2019년 8월 31일에 깃허브에 출시되었습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

060.4K

OpenSumi Lite: 간편한 코드 확인 및 편집을 위한 순수 프런트엔드 IDE 솔루션

일반 소개 OpenSumi Lite는 OpenSumi 프로젝트에 기반한 순수 프런트엔드 IDE 솔루션으로, Node.js 환경 없이도 코드 보기 및 편집 기능을 제공하도록 설계되었습니다. 이 프로젝트는 알리바바 그룹과 앤트 그룹이 공동 개발했으며 ...

AI 답변 # AI 자바 오픈 소스 프로젝트

1 년 전

056.7K

FiveThirtyNine: 검색 지식을 기반으로 미래 이벤트 발생 확률 예측하기

일반 소개 예보 AI는 첨단 인공지능 기술을 기반으로 한 뛰어난 예측 플랫폼입니다. 강력한 데이터 분석과 머신러닝 알고리즘을 사용하여 사용자에게 미래 이벤트에 대한 매우 정확한 예측을 제공합니다. 정치 선거, 경제 동향, 사회 이벤트 등 예측은 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

2 년 전

061.8K

GPT SoVITS: 혁신적인 음성 생성 및 음성 복제 도구

종합적인 소개 GPT-SoVITS는 오픈 소스 음성 변환 및 합성 도구로, GPT 모델과 SoVITS 보이스 체인저 기술을 결합한 것입니다. 이 도구는 샘플이 전혀 없거나 적은 상태에서 즉석에서 텍스트를 음성으로 변환하고 5초의 오디오 샘플만으로 음성 스타일 마이그레이션을 지원합니다. 그 기능에는 교차 언어가 포함됩니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

2 년 전

083K

물고기 음성: 몇 개의 샘플을 사용하여 영어와 중국어 음성을 빠르고 정확하게 복제합니다.

일반 소개 피쉬 스피치는 피쉬 오디오에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 합성 도구입니다. 이 도구는 VQ-GAN, Llama 및 VITS와 같은 최첨단 AI 기술을 기반으로 하며 텍스트를 사실적인 음성으로 변환할 수 있습니다.Fish S...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

084.3K

IMS Toucan: 빠르고 제어 가능한 다국어(7000개 이상의 언어 지원) 텍스트 음성 변환 도구

일반 소개 IMS Toucan은 독일 슈투트가르트 대학교의 자연어 처리 연구소(IMS)에서 개발한 최첨단 텍스트 음성 변환(TTS) 툴킷입니다. 이 툴킷은 7000개 이상의 언어를 지원하며 빠르고 제어 가능하며 컴퓨팅 리소스 요구 사항이 낮습니다.IMS...

1 년 전

057.5K

매일 제품 헌트 인기 제품 목록 자동 생성

일반 소개 제품 헌트 일일 중국어 핫리스트는 마크다운 파일 형태로 정기적으로 제품 헌트에서 인기 있는 제품의 일일 목록을 생성하는 GitHub 액션 기반의 자동화된 도구입니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

043.6K

크리스퍼위스퍼: 정확한 축어체 음성 전사 도구

일반 설명 크리스퍼위스퍼는 빠르고 정확한 단어 단위 음성 녹취에 중점을 둔 OpenAI 위스퍼 기반의 고급 음성 인식 도구입니다. 음성 채우기 및 일시 정지 시에도 정확한 단어 수준의 타임스탬프를 제공합니다.

1 년 전

070.6K

PaddleOCR: 80개 이상의 언어 인식을 지원하는 플라잉 패들 기반의 다국어 OCR 툴 라이브러리입니다.

종합 소개 PaddleOCR은 실용적이고 초경량 OCR 시스템을 제공하도록 설계된 PaddlePaddle 기반의 다국어 OCR 툴킷입니다. 80개 이상의 언어 인식을 지원하며 데이터 주석 및 합성 도구를 제공하여 현업에서 사용할 수 있도록 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

1 년 전

087.8K

Deep Live Cam：开源的实时AI换脸工具，一张照片就能实现实时换脸直播

딥 라이브 캠: 오픈 소스 실시간 AI 얼굴 스와핑 도구, 실시간 라이브 얼굴 스와핑을 위한 사진 제공

일반 소개 딥 라이브 캠은 한 장의 사진으로 실시간 얼굴 교체 및 딥 페이크 비디오 생성을 가능하게 하는 오픈 소스 인공 지능 도구입니다. 이 도구는 고급 딥러닝 알고리즘을 사용하여 라이브 스트리밍 또는 영상 통화 중에 실시간으로 얼굴을 교체하여 사용자의 개인 정보를 보호하고 재미를 더할 수 있습니다.

1 년 전

085.3K

NarratoAI: 텍스트 생성 영화 및 TV 내레이션 및 자동 편집 도구

일반 소개 NarratoAI는 영화 및 비디오 내레이션, 자동 편집, 더빙 및 자막 생성을 통합하는 완전 자동화된 도구입니다. 대규모 언어 모델링(LLM) 기술을 사용하여 자동으로 카피를 생성하고 해당 음성 해설 및 자막이 포함된 비디오를 자동으로 편집하여 사용자에게 원스톱 서비스를 제공합니다.

2 년 전

071.8K

Babelfish.ai: 브라우저에서 실행되는 실시간 음성 전사 및 번역 애플리케이션

일반 소개 Babelfish.ai는 허깅페이스 트랜스포머.js와 슈퍼베이스 리얼타임을 기반으로 구축된 실시간 전사 및 번역 애플리케이션입니다. 이 애플리케이션은 브라우저에서 대형 모델을 로드할 수 있으며...

2 년 전

052.3K

벡터 베인: 코드 없는 AI 워크플로 구축 플랫폼

포괄적인 소개 벡터 베인은 사용자가 지능적이고 자동화된 워크플로우를 쉽게 만들 수 있도록 설계된 코드 없는 AI 워크플로우 구축 플랫폼입니다. 프로그래밍 기반이 필요하지 않으므로 사용자는 드래그 앤 드롭 작업을 통해 다양한 기능 모듈을 간단히 연결하여 복잡한 AI 작업을 구축할 수 있습니다.

1 년 전

049.7K

LivePortrait: 정지 이미지와 동영상에서 역동적인 인물 사진을 생성하는 애니메이션 도구

일반 소개 라이브포트트레이트는 레이서 테크놀로지에서 개발한 고급 AI 동적 인물 애니메이션 툴입니다. 혁신적인 AI 기술을 활용하여 정지 이미지를 생생한 비디오 애니메이션으로 변환합니다. 실제 사진, 애니메이션 스타일 또는 예술적 초상화를 사용하든 LivePo...

1 년 전

058.5K

PhiData: 메모리, 지식 및 도구로 AI 인텔리전스 구축

포괄적인 소개 PhiData는 지능형 AI 어시스턴트 개발을 위해 설계된 프레임워크입니다. 향상된 메모리, 지식 통합 및 도구 호출 기능을 통해 AI 어시스턴트가 장기적인 대화에 참여하고, 정확한 비즈니스 컨텍스트를 제공하며, 다양한 작업을 수행할 수 있도록 지원합니다.PhiData는 AI 어시스턴트의 기능을 향상시킬 뿐만 아니라...

1 년 전

059.9K

ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

일반 소개 ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 이를 수행합니다.

1 년 전

069.6K

머니프린터플러스: 한 번의 클릭으로 짧은 동영상을 생성하는 AI 도구, 무료 일괄 믹싱

종합 소개 MoneyPrinterPlus는 AI 기술을 통해 한 번의 클릭으로 모든 종류의 짧은 동영상을 생성 및 믹싱하여 Jieyin, Shutterbugs, Xiaohongshu, Video Number 등 여러 동영상 플랫폼에 자동으로 게시하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 도구는 채팅을 포함한 로컬 및 클라우드 기반 음성 모델을 지원합니다.

2 년 전

070K

TF-ID: 학술 논문 양식/이미지 인식 도구

종합 소개 TF-ID(표/그림 식별자)는 학술 논문에서 표와 이미지를 추출하는 데 특화된 개체 감지 모델 제품군입니다. 이 프로젝트는 Yifei Hu가 만들었으며 GitHub에서 오픈소스로 제공되며, TF-ID 모델은 다음과 같이 개발되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

053.3K

챗봇 UI: ChatGPT의 인터페이스와 기능을 모방한 오픈 소스 AI 채팅 앱입니다.

일반 소개 챗봇 UI는 개발자가 개인화되고 지능적인 대화형 인터페이스를 만들 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 기존 챗봇 시스템에 쉽게 통합할 수 있는 일련의 인터페이스 구성 요소와 대화형 기능을 제공하여 사용자에게 보다 유동적이고 지능적인 대화체를 제공합니다.

2 년 전

0104.5K

GLIGEN GUI: 이미지 요소의 위치를 정밀하게 제어, ComfyUI 기반의 직관적인 그래픽 인터페이스

일반 소개 GLIGEN GUI는 이미지에서 객체의 위치를 정밀하게 지정할 수 있는 새로운 텍스트-이미지 모델인 GLIGEN 모델의 사용을 단순화하도록 설계된 ComfyUI 기반의 직관적인 그래픽 인터페이스입니다. GLIGE...

2 년 전

052K

간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

개요 Easy-Voice-Toolkit은 오픈 소스 음성 프로젝트에 기반한 다기능 툴킷으로 음성 인식, 음성 전사, 음성 변환, 데이터 세트 생성 및 모델 학습을 위한 다양한 자동화된 오디오 도구를 제공합니다. 사용자는 필요에 따라 이러한 도구를 선택적으로 사용할 수 있습니다...

2 년 전

063.1K

FaceFusion: 비디오 얼굴 스왑 향상 도구 | 음성 동기화 비디오 입 움직임

일반 설명 FaceFusion은 얼굴 교환 및 향상 기능이 통합된 최첨단 클라우드 플랫폼으로, 이미지 대 비디오 및 이미지 대 이미지 교환에 최적화되어 있으며 5개의 전문 모델을 사용하여 완벽한 결과물을 보장합니다. 또한 3개를 사용하여 7개의 모델로 얼굴 보정을 수행합니다.

1 년 전

0153.1K

Kotaemon: 배포가 간편한 오픈 소스 멀티모달 문서 퀴즈 도구

일반 소개 코타에몬은 최종 사용자와 개발자에게 검색 증강 생성(RAG) 기반의 Q&A 기능을 제공하기 위해 설계된 오픈 소스 문서 Q&A 도구입니다. 이 프로젝트는 Cinnamon에서 개발했으며 다양한 LLM API 제공업체(예: OpenA...

2 년 전

072.4K

하이비전ID사진: 오픈 소스 지능형 AI 사진 신분증 생성 도구

종합 소개 HivisionIDPhotos는 오픈 소스 경량 AI 문서 사진 제작 도구로, 사용자 사진 장면과 키잉을 지능적으로 식별하여 다양한 사양에 맞는 표준 문서 사진을 생성할 수 있습니다. 이 도구는 사용자 정의 배경 색상과 크기를 지원하며 향후 뷰티 및 ...

2 년 전

057.5K

마커: PDF를 마크다운 오픈 소스 도구로 빠르게 변환하기

일반 설명 마커는 PDF 파일을 마크다운 형식으로 빠르고 정확하게 변환하도록 설계된 딥러닝 기반 문서 처리 도구입니다. 다양한 문서 유형을 지원하며 특히 책과 과학 논문을 변환하는 데 최적화되어 있으며, 마커는 헤더를 제거할 수 있습니다 ...

1 년 전

0126.9K

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

일반 소개 새드토커는 하나의 정지 인물 사진과 오디오 파일을 결합하여 개인화된 메시지, 교육용 콘텐츠 등 다양한 시나리오에 맞는 사실적인 말하는 아바타 동영상을 만드는 오픈 소스 툴입니다. ExpNet 및 PoseVA와 같은 3D 모델링 기술의 혁신적인 사용...

1 년 전

070.7K

비디오리토킹: 오디오 기반 립싱크 및 비디오 편집 시스템

일반 소개 비디오리토킹은 사용자가 입력된 오디오를 기반으로 립싱크된 얼굴 비디오를 생성하여 다양한 감정에도 고품질의 립싱크된 출력 비디오를 생성할 수 있는 혁신적인 시스템입니다. 이 시스템은 이 목표를 세 가지 연속적인 작업으로 분류합니다: 일반적인 표정...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 포트 동기화

1 년 전

055.4K

MuseV+Muse Talk：完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: 완벽한 디지털 휴먼 비디오 생성 프레임워크 | 포트레이트에서 비디오로 | 포즈에서 비디오로 | 립싱크

일반 소개 MuseV는 길이에 제한이 없는 고화질의 아바타 동영상 생성을 목표로 하는 깃허브의 공개 프로젝트입니다. 디퓨전 기술을 기반으로 하며 이미지2비디오, 텍스트2이미지2비디오, 비디오2비디오...

1 년 전

087.2K

비정형: 비정형 문서 전처리 오픈 소스, 비정형 데이터 처리 도구

포괄적인 소개 Unstructured-IO는 PDF, HTML, Word 문서 등과 같은 이미지 및 텍스트 문서를 처리하고 전처리하기 위한 오픈 소스 구성 요소 세트를 제공합니다. 주요 목표는 데이터 처리 워크플로우를 단순화하고 최적화하는 것으로, 특히 대규모 언어 모델(LL...

2 년 전

073.3K

magic-html：从HTML网址中提取主体数据，输出纯文本/markdown

magic-html: HTML URL에서 본문 데이터 추출, 일반 텍스트/마크다운 출력

일반 소개 magic-html은 HTML에서 본문 영역 콘텐츠를 추출하는 프로세스를 간소화하도록 설계된 Python 라이브러리입니다. 복잡한 HTML 구조를 다루든 간단한 웹 페이지를 다루든 이 라이브러리는 사용자에게 편리하고 효율적인 인터페이스를 제공하는 것을 목표로 합니다. 멀티모달 추출을 지원합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

2 년 전

054.7K

WebPilot: 지능형 웹 정보 처리 도구, 웹 콘텐츠 캡처를 위한 무료 API

웹파일럿 일반 소개 웹파일럿은 모든 웹 페이지와 자유롭게 소통하거나 자동화된 작업을 수행할 수 있는 무료 오픈 소스 '웹 어시스턴트'입니다. 페이지를 전환하거나 복사하여 붙여넣을 필요 없이 텍스트를 선택하거나 명령을 입력하기만 하면 웹파일럿을 사용할 수 있습니다.

2 년 전

063.9K

DB-GPT: 멀티 모델 관리와 지능형 데이터 처리를 통합하는 AI 네이티브 데이터 애플리케이션 개발 프레임워크 구축

종합 소개 DB-GPT는 AWEL(에이전트 워크플로우 표현 언어)과 스마트 바디 기술을 사용하여 구축된 오픈소스 AI 네이티브 데이터 애플리케이션 개발 프레임워크입니다. 이 프로젝트는 대규모 모델 분야의 인프라 구축을 목표로 합니다.

1 년 전

053.8K

드림톡: 하나의 아바타 이미지로 표현력 있는 토킹 동영상을 생성하세요!

드림톡 종합 소개 드림톡은 칭화대학교, 알리바바 그룹, 화중과학기술대학교가 공동으로 개발한 확산 모델 기반 표정 토킹 헤드 생성 프레임워크입니다. 주로 노이즈 감소 네트워크, 스타일 인식 립 전문가, 스타일 예측기의 세 부분으로 구성되어 있으며, 다음을 기반으로 할 수 있습니다.

1 년 전

071.3K

InstantID: 이미지를 업로드하고 초상화 기능을 마이그레이션하여 다양한 스타일의 이미지를 생성합니다.

개요 InstantID는 단일 참조 ID 사진을 사용하여 높은 수준의 충실도를 보장하면서 개인화된 스타일이나 포즈를 가진 이미지를 몇 초 만에 생성하는 데 중점을 둔 고급 기술입니다. 이 기술은 얼굴 이미지, 랜드마크 지도를 통합하여 확산 모델 기반 솔루션을 사용합니다....

2 년 전

078.6K

ComfyUI Portrait Master 中文版：优化肖像生成的提示词工具

ComfyUI 초상화 마스터 중국어 버전: 초상화 생성을 최적화하는 큐 워드 도구

일반 소개 컴피유 포트레이트 마스터 중국어 버전은 AI 이미지 제작자를 위해 설계된 포트레이트 단서 단어 생성 도구입니다. 이 도구는 사용자가 큐 단어를 최적화하여 고품질의 인물 사진을 생성할 수 있도록 도와줍니다. 사용자는 수요에 따라 다른 렌즈를 선택할 수 있습니다 ...

2 년 전

056.4K

IOPaint: 만능 AI 이미지 처리 도구로, 요소를 지우고, 확장하고, 바꾸고, 텍스트를 그릴 수 있습니다.

일반 소개 IOPaint는 이미지 지우기, 복구 및 확장을 지원하는 무료 오픈 소스 AI 이미지 처리 도구입니다. 최첨단 AI 모델을 사용하여 사용자가 이미지에서 원치 않는 개체를 쉽게 제거하고, 결함을 복구하고, 새 콘텐츠를 추가하고, 이미지를 확장할 수 있도록 도와줍니다.IOPa...

1 년 전

0109.4K