AI 오픈 소스 프로젝트

총 1020개 문서
Sim Studio:开源的AI代理工作流构建工具

Sim Studio: AI 에이전트를 위한 오픈 소스 워크플로 빌더

개요 Sim Studio는 가볍고 직관적인 시각적 인터페이스를 통해 사용자가 대규모 언어 모델(LLM) 워크플로를 빠르게 설계, 테스트 및 배포할 수 있도록 지원하는 데 중점을 둔 오픈 소스 AI 에이전트 워크플로 구축 플랫폼입니다. 사용자는 드래그 앤 드롭을 통해 복잡한 워크플로를 심층적인 프로그래밍 없이도 만들 수 있습니다.
3 개월 전
01.2K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit: 자연어 명령어로 이미지를 편집할 수 있는 오픈 소스 도구

일반 소개 Step1X-Edit는 스텝펀 AI 팀이 개발하고 깃허브에서 호스팅하는 오픈 소스 이미지 편집 프레임워크로, 멀티모달 대용량 언어 모델(Qwen-VL)과 확산 변환기(DiT)를 결합하여 사용자가 간단하고 자연스러운 방식으로 이미지를 만들 수 있도록 합니다.
3 개월 전
0928
RealtimeVoiceChat:低延迟与AI进行自然口语对话

실시간 음성 채팅: AI를 통한 지연 시간이 짧은 자연스러운 음성 대화

일반 소개 리얼타임보이스챗은 음성을 통한 인공 지능과의 실시간 자연스러운 대화에 초점을 맞춘 오픈 소스 프로젝트입니다. 사용자가 마이크를 사용하여 음성을 입력하면 시스템이 브라우저를 통해 오디오를 캡처하여 텍스트로 빠르게 변환하고 대규모 언어 모델(LLM)을 생성하여 다시 ...
3 개월 전
0818
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 효율적인 수학적 추론과 코드 생성을 위한 소규모 오픈 소스 모델

일반 소개 MiMo는 수학적 추론과 코드 생성에 중점을 두고 Xiaomi에서 개발한 오픈 소스 대규모 언어 모델링 프로젝트입니다. 핵심 제품은 기본 모델(Base), 감독 미세 조정 모델(SFT), 기본 모델에서 학습된 강력한 화학...을 포함하는 MiMo-7B 모델 제품군입니다.
3 개월 전
01.2K
Muyan-TTS:个性化播客语音训练与合成

Muyan-TTS: 개인화된 팟캐스트 음성 훈련 및 합성

Synthesis Muyan-TTS는 팟캐스트 시나리오를 위해 설계된 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 100,000시간 이상의 팟캐스트 오디오 데이터로 사전 학습되었으며 제로 샘플 음성 합성을 지원하여 고품질의 자연스러운 음성을 생성합니다. 이 모델은 Llama-3.2-3...을 기반으로 합니다.
3 개월 전
01.2K
CAD-MCP:通过自然语言指令控制CAD软件的MCP服务

CAD-MCP: 자연어 명령을 통해 CAD 소프트웨어를 제어하는 MCP 서비스

일반 소개 CAD-MCP는 사용자가 도면 작업을 위한 자연어 명령을 통해 CAD 소프트웨어를 제어할 수 있는 오픈 소스 프로젝트입니다. 자연어 처리와 CAD 자동화 기술을 결합하여 사용자가 CAD 인터페이스를 수동으로 조작할 필요 없이 간단한 텍스트 명령어를 입력하기만 하면 됩니다.
3 개월 전
01.3K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: 지식 그래프를 사용하여 합성 데이터를 생성하기 위한 언어 모델 미세 조정

개요 GraphGen은 상하이의 AI 연구소인 OpenScienceLab에서 개발한 오픈 소스 프레임워크로, 지식 그래프를 통해 합성 데이터 생성을 안내하여 대규모 언어 모델(LLM)의 감독 미세 조정을 최적화하는 데 중점을 두고 있으며, GitHub에 호스팅되어 있습니다. 개발 배경은 ...
3 개월 전
0904
Local Deep Research:本地运行的生成深度研究报告工具

로컬 심층 연구: 심층 연구 보고서 생성을 위한 로컬 실행 도구

일반 소개 로컬 딥 리서치는 사용자가 심층 연구를 수행하고 복잡한 문제에 대한 상세한 보고서를 생성할 수 있도록 설계된 오픈 소스 AI 연구 도우미입니다. 로컬 실행을 지원하므로 사용자가 클라우드 서비스에 의존하지 않고도 연구 작업을 완료할 수 있습니다. 이 도구는 ...
3 개월 전
01.1K
Kimi-Audio:开源音频处理与对话基础模型

키미 오디오: 오픈 소스 오디오 처리 및 대화 기반 모델

일반 소개 키미오디오는 문샷 AI에서 개발한 오픈 소스 오디오 기반 모델로, 오디오 이해, 생성 및 대화에 중점을 두고 있습니다. 음성 인식, 오디오 질의응답, 음성 감정 인식 등 다양한 오디오 처리 작업을 지원합니다. 이 모델은 130개 이상의 테스트를 거쳤습니다...
3 개월 전
01K
Cooragent:一句话构建多智能体任务协作工具

Cooragent: 한 문장으로 다중 지능 작업 협업 도구 구축하기

일반 소개 쿠라젠트는 칭화대학교의 LeapLab에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 에이전트 협업 프레임워크로, 사용자가 한 문장 설명으로 지능형 AI 에이전트를 만들 수 있으며 복잡한 작업에서 여러 에이전트가 협업할 수 있도록 지원합니다. 이 프레임워크는 두 가지 기능을 제공합니다.
3 개월 전
01K
Claude生成深度研究报告的MCP服务

심층 연구 보고서 생성을 위한 Claude의 MCP 서비스

일반 소개 MCP 서버 딥 리서치는 인공지능과 웹 검색을 통해 복잡한 문제에 대한 구조화된 연구 보고서를 자동으로 생성하는 오픈 소스 도구입니다. 사용자가 연구 질문을 입력하면 도구가 질문을 분석하고, 권위 있는 정보를 검색하고, 출처 신뢰도를 평가합니다...
3 개월 전
0891
Deep Recall:为大模型提供企业级记忆框架的开源工具

딥 리콜: 대규모 모델을 위한 엔터프라이즈급 메모리 프레임워크를 제공하는 오픈 소스 도구

포괄적인 소개 딥 리콜은 대규모 언어 모델(LLM)을 위해 설계된 오픈 소스 엔터프라이즈급 메모리 프레임워크입니다. 효율적인 문맥 검색 및 통합을 통해 고도로 개인화된 응답성을 제공합니다. 이 프레임워크는 메모리 서비스, 추론 서비스, 코디네이터를 포함한 3계층 아키텍처를 사용하여 다음을 지원합니다.
3 개월 전
01K
FantasyTalking:生成真实感说话肖像的开源工具

판타지토킹: 사실적으로 말하는 인물 사진을 생성하는 오픈 소스 툴

일반 소개 판타지토킹은 판타지-AMAP 팀이 개발한 오픈 소스 프로젝트로, 오디오 드라이브를 통해 사실적으로 말하는 인물 비디오를 생성하는 데 중점을 두고 있습니다. 이 프로젝트는 오디오 인코더 Wa와 결합된 고급 비디오 확산 모델 Wan2.1을 기반으로 합니다.
3 개월 전
01.6K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: 머신 러닝 논문을 실행 가능한 코드로 자동 변환하기

일반 소개 Paper2Code는 머신러닝 논문에 대한 코드 구현 부족 문제를 해결하기 위한 오픈 소스 프로젝트입니다. 이 프로젝트는 다중 에이전트 LLM(대규모 언어 모델링) 시스템인 PaperCoder를 통해 과학 논문을 실행 가능한 코드 리포지토리로 자동 변환합니다. 이 시스템은 계획을 사용합니다 ...
3 개월 전
01K
Audibit:将热门科技文章转为随时收听的音频播客

Audibit: 인기 기술 기사를 바로 들을 수 있는 오디오 팟캐스트로 전환하기

일반 소개 Audibit은 오픈 소스 프로젝트로, 핵심 기능은 해커 뉴스, 테크크런치 및 기타 인기 기술 기사를 자동으로 오디오 팟캐스트로 변환하여 출퇴근, 피트니스 또는 바쁜 사용자가 웹이나 모바일을 통해 정보를들을 때 사용할 수 있도록하는 것입니다. 이 프로젝트는 ...
3 개월 전
01K
VoltAgent:快速构建AI智能体的TypeScript开源框架

VoltAgent: AI 인텔리전스를 빠르게 구축하기 위한 TypeScript 오픈 소스 프레임워크

일반 소개 VoltAgent는 개발자가 AI 인텔리전스를 빠르게 구축하고 조율할 수 있도록 설계된 오픈 소스 TypeScript 프레임워크입니다. 모듈식 도구와 표준화된 개발 모델을 제공하여 대규모 언어 모델(LLM)과의 상호 작용을 간소화하고, 상태...
3 개월 전
0919
Quick Prompt:快速管理和使用提示词的浏览器扩展

빠른 프롬프트: 프롬프트를 빠르게 관리하고 사용하기 위한 브라우저 확장 프로그램

일반 빠른 프롬프트는 프롬프트 단어(프롬프트) 관리와 빠른 입력에 중점을 둔 오픈 소스 브라우저 확장 프로그램입니다. 사용자는 프롬프트 라이브러리를 생성, 구성 및 저장하고 미리 설정된 프롬프트 콘텐츠를 웹 페이지의 입력 상자에 빠르게 삽입할 수 있습니다. 이 도구는 특히 ...
3 개월 전
01.3K
Suna:集成浏览器操作与数据分析的智能代理

Suna: 브라우저 운영과 데이터 분석을 통합하는 지능형 에이전트

일반 소개 Suna는 Kortix AI에서 개발한 오픈 소스 범용 AI 에이전트로, Apache 2.0 라이선스를 기반으로 GitHub에서 호스팅되며 사용자가 무료로 다운로드, 수정 및 자체 호스팅할 수 있습니다. 자연어 대화를 사용하여 사용자에게 다음과 같은 도움을 줍니다.
4개월 전
01.3K
Potpie AI:快速创建专属代码库的AI工程助手

Potpie AI: 독점 코드 베이스를 빠르게 생성하기 위한 AI 엔지니어링 도우미

포괄적인 소개 Potpie AI는 개발자에게 맞춤형 AI 엔지니어링 어시스턴트를 제공하는 데 중점을 둔 오픈 소스 플랫폼입니다. AI 에이전트가 코드 구조와 로직을 심층적으로 이해하고 코드 베이스의 지식 그래프를 구축하여 디버깅, 테스트, 코드 생성과 같은 작업을 자동화할 수 있습니다. 사용자는 간단한...
4개월 전
01.3K
Vexa:实时会议转录与智能知识提取工具

Vexa: 실시간 회의 트랜스크립션 및 지능형 지식 추출 도구

종합 소개 벡사는 기업과 개인에게 효율적인 회의 녹음과 지능형 지식 추출 서비스를 제공하도록 설계된 오픈 소스 실시간 회의 녹취 및 지식 관리 플랫폼입니다. API 기반 회의 로봇을 통해 구글 미트, 줌 등과 같은 플랫폼에 자동으로 연결됩니다...
4개월 전
01.2K
RooFlow:基于 Roo Code 扩展的记忆增强系统

루플로우: 루 코드 확장에 기반한 메모리 향상 시스템

포괄적인 소개 RooFlow는 프로젝트 로깅을 통해 개발 중 코드, 의사 결정 및 작업 진행 상황을 보존하는 핵심 기능을 갖춘 오픈 소스 AI 지원 프로그래밍 도구입니다. Roo Code 확장을 기반으로 하며 아키텍처, 코딩, 테스트, 디버깅, Q&A의 다섯 가지 모드를 통합합니다. 이러한 모드는 상호 ...
4개월 전
0941
Zev:用自然语言快速查询终端命令的CLI工具

Zev: 자연어로 터미널 명령을 빠르게 쿼리할 수 있는 CLI 도구

일반 소개 Zev는 사용자가 자연어로 터미널 명령을 빠르게 쿼리하고 생성할 수 있도록 도와주는 사용하기 쉬운 명령줄 인터페이스(CLI) 도구입니다. 복잡한 명령 구문을 기억할 필요 없이 Zev는 일상적인 언어로 사용자의 요구 사항을 설명하여 터미널 명령을 생성합니다. Ope...
4개월 전
0623
LLManager:智能自动化流程审批与人类审核结合的管理工具

LLManager: 지능형 자동 프로세스 승인과 인간 감사를 결합한 관리 도구

일반 소개 LLManager는 랭체인의 랭그래프 프레임워크를 기반으로 개발된 오픈소스 지능형 승인 관리 도구로, 승인 요청 처리를 자동화하는 동시에 사람의 검토와 함께 의사 결정을 최적화하는 데 중점을 둡니다. 시맨틱 검색, 샘플 적은 학습을 통해 이를 수행합니다.
4개월 전
01.1K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO: 단일 피사체 및 다중 피사체 맞춤형 이미지 생성 도구 지원(전자상거래 그래픽에 적합)

UNO는 바이트댄스 인텔리전트 크리에이션 팀이 개발한 오픈 소스 이미지 생성 프레임워크입니다. FLUX.1 모델을 기반으로 하며 "적은 것에서 더 많은 것"으로 일반화 접근 방식을 통해 단일 피사체 및 다중 피사체 맞춤형 이미지 생성에 중점을 둡니다.UNO는 확산 변환기를 사용합니다...
4개월 전
0857
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

포괄적인 소개 NodeRAG는 GitHub에서 호스팅되고 Terry-Xu-666이 개발한 오픈 소스 검색 증강 생성(RAG) 시스템입니다. 이기종 그래프 구조를 통해 정보 검색 및 생성을 최적화하여 검색 정확도와 문맥 관련성을 크게 개선합니다.고개 끄덕임...
4개월 전
01.4K
Dia:生成超现实多人对话的文本转语音模型

Dia: 초현실적인 멀티플레이어 대화 생성을 위한 텍스트 음성 변환 모델

일반 소개 Dia는 초현실적인 대화 오디오를 생성하는 데 중점을 두고 나리 랩스에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 텍스트 스크립트를 한 번의 프로세스로 사실적인 다중 문자 대화로 변환하고 감정과 억양 제어를 지원하며 비언어적 표현까지 생성합니다....
4개월 전
0867
Plandex:支持超长上下文的开源AI编码助手

Plandex: 매우 긴 컨텍스트를 지원하는 오픈 소스 AI 코딩 도우미

일반 소개 Plandex는 대규모의 복잡한 소프트웨어 프로젝트를 위해 설계된 오픈 소스 엔드투엔드 AI 코딩 도우미입니다. 다단계 작업을 계획 및 실행하고 최대 2백만 토큰의 컨텍스트를 처리하며 30개 이상의 프로그래밍 언어를 지원할 수 있으며, Plandex는 ...
4개월 전
01.1K
BiliNote:从视频自动生成Markdown笔记的AI工具

BiliNote: 동영상에서 자동으로 마크다운 노트를 생성하는 AI 도구

종합 소개 BiliNote는 오픈 소스 AI 동영상 노트 필기 도구로, BiliNote와 YouTube 동영상 링크에서 콘텐츠를 추출해 마크다운 형식의 명확한 구조의 노트를 자동으로 생성할 수 있도록 지원합니다. 기본 오디오 트랜스크립션과 다양한 대형 모델(예: ...
4개월 전
0839
FramePack:6G低显存快速生成长视频的开源项目

FramePack: 긴 비디오 오픈 소스 프로젝트의 6G 저용량 그래픽 메모리 빠른 성장

일반 소개 프레임팩은 동영상 확산 기술을 보다 실용적으로 만드는 데 중점을 둔 오픈 소스 동영상 생성 도구입니다. 고유한 다음 프레임 예측 신경망을 통해 입력 프레임을 고정된 길이로 압축하여 동영상 길이와 생성 워크로드를 분리합니다. 즉, 긴 동영상을 생성할 때에도 비디오 메모리 요구 사항이 ...
3 개월 전
0969
Open Sora:优化脸部一致性的开源视频生成工具

오픈 소라: 얼굴 일관성을 최적화하는 오픈 소스 동영상 생성 도구

일반 소개 Open-Sora는 누구나 고품질의 동영상을 효율적으로 생성할 수 있도록 설계된 오픈 소스 프로젝트입니다. 텍스트 또는 이미지에서 동영상을 생성하는 도구를 제공하기 위해 hpcaitech 팀에서 개발했으며, 다양한 해상도와 길이를 지원합니다. 이 프로젝트는 완전히 오픈 소스이며, 공개 모델 가중치를 사용합니다.
4개월 전
0914
Agnai Chat:与个性化AI角色互动的开源聊天平台

아그나이 채팅: 개인화된 AI 캐릭터와 상호작용할 수 있는 오픈 소스 채팅 플랫폼

일반 소개 아그나이 채팅은 사용자가 싱글 또는 멀티플레이어 상호작용을 위해 개인화된 AI 캐릭터를 만들 수 있는 오픈 소스 AI 채팅 플랫폼입니다. OpenAI, 클로드, 코볼트 등 다양한 AI 서비스를 지원하며 엔터테인먼트, 롤플레잉, 교육 또는...
4개월 전
01.1K
语析(Yuxi-Know):基于知识图谱的智能问答平台

Yuxi-Know: 지식 그래프 기반의 지능형 Q&A 플랫폼

유시노우는 지식 그래프와 RAG(검색 증강 생성) 기술을 결합하여 사용자가 정확한 답변을 빠르게 얻을 수 있도록 지원하는 오픈소스 지능형 Q&A 플랫폼입니다. 지식 그래프를 저장하기 위해 Neo4j를 기반으로 FastAPI와 VueJS 구조를 사용하여 ...
4개월 전
01.2K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: WeChat 채팅 로그 추출 및 쿼리를 위한 오픈 소스 도구

일반 소개 Chatlog는 WeChat의 로컬 데이터베이스에서 채팅 로그를 추출하고 쿼리하는 데 중점을 둔 오픈 소스 도구입니다. 이 도구는 WeChat 버전 3.x와 4.0을 지원하며, Windows와 macOS 시스템을 모두 포괄합니다. 사용자는 명령줄, 터미널 인터페이스 또는 H...
4개월 전
01.5K
Orpheus-TTS:生成自然中文语音的文本转语音工具

Orpheus-TTS: 자연스러운 중국어 음성 생성을 위한 텍스트 음성 변환 도구

일반 소개 오르페우스-TTS는 사람의 자연스러운 음성에 가까운 오디오를 생성하는 것을 목표로 Llama-3b 아키텍처에서 개발된 오픈 소스 텍스트 음성 변환(TTS) 시스템입니다. Canopy AI 팀에서 출시했으며 영어, 스페인어, 프랑스어 등을 지원합니다.
4개월 전
01.2K
self.so:一键生成精美的个人简历网页

self.so: 클릭 한 번으로 멋진 이력서 페이지를 생성하세요!

일반 소개 self.so는 이력서나 LinkedIn 프로필을 개인 웹사이트로 빠르게 전환하도록 설계된 오픈 소스 도구입니다. 사용자가 PDF 이력서를 업로드하거나 LinkedIn 링크를 입력하기만 하면 시스템이 AI 기술을 사용하여 개인 웹사이트로 변환합니다(Tog...
4개월 전
01.2K
OmniSVG:从文本和图像生成SVG矢量图形的开源项目

OmniSVG: 텍스트와 이미지에서 SVG 벡터 그래픽 오픈 소스 프로젝트를 생성합니다.

일반 소개 OmniSVG는 멀티모달 모델을 통해 고품질 벡터 그래픽(SVG)을 생성하는 데 중점을 둔 오픈 소스 프로젝트입니다. 사전 학습된 시각 언어 모델을 사용하여 텍스트 설명이나 이미지 입력에서 SVG 생성을 지원하며, 간단한 아이콘부터 복잡한 애니메이션 캐릭터까지 다양한 시나리오를 다룹니다. 항목 ...
4개월 전
01.4K
Napkins.dev:基于Llama4上传线框图生成前端代码

Napkins.dev: 와이어프레임을 업로드하여 Llama4 기반 프런트엔드 코드 생성하기

일반 소개 Napkins.dev는 무료 오픈 소스 프로젝트로, 핵심 기능은 사용자가 인터페이스 스크린샷이나 와이어프레임을 업로드하여 실행 가능한 프런트엔드 코드를 자동으로 생성할 수 있도록 하는 것입니다. 사용자는 디자인 도면만 제공하면 되며, 도구는 Llama 4 모델(Together ...
4개월 전
01K
Orion:小米开源的端到端自动驾驶推理与规划框架

Orion: Xiaomi의 오픈 소스 엔드투엔드 자율 주행 추론 및 계획 프레임워크

개요 오리온은 샤오미 연구소에서 개발한 오픈 소스 프로젝트로, 엔드투엔드(E2E) 자율주행 기술에 중점을 두고 있습니다. 시각적 언어 모델링(VLM)과 생성 플래너를 통해 기존 자율 주행 방식의 복잡한 시나리오에서 인과 추론이 불충분한 문제를 해결하며, 오리온은 긴 ...
4개월 전
0865
ReCamMaster:从单一视频生成多视角视频的渲染工具

ReCamMaster: 단일 동영상에서 멀티뷰 동영상을 생성하기 위한 렌더링 도구

일반 소개 ReCamMaster는 오픈 소스 동영상 처리 도구로, 핵심 기능은 단일 동영상에서 새로운 카메라 뷰를 생성하는 것입니다. 사용자는 카메라 트랙을 지정하고 비디오를 다시 렌더링하여 다양한 각도의 역동적인 영상을 얻을 수 있습니다. 절강대학교와 레이서 테크놀로지 팀이 개발한 이 도구는 텍스트-투-텍스트를 기반으로 합니다.
4개월 전
01.1K
Austen:分析书籍角色关系并生成图表的AI工具

Austen: 책 속 인물 관계를 분석하고 그래프를 생성하는 AI 도구

일반 소개 Austen은 Angular 프레임워크와 Analogjs 초기화를 사용하는 오픈 소스 AI 도구로, Mermaidjs 기술과 결합하여 사용자가 책 속 인물 관계를 분석하는 데 도움이 되는 차트를 생성합니다. 사용자는 열기...를 입력할 수 있습니다.
4개월 전
01.1K
A2A:谷歌发布AI智能间通信的开放协议

A2A: Google, AI 인텔리전스 간 통신을 위한 개방형 프로토콜 출시

일반 소개 A2A(에이전트2에이전트)는 서로 다른 프레임워크 또는 공급업체에서 개발한 인공지능이 서로 통신하고 협업할 수 있도록 Google에서 개발한 오픈 소스 프로토콜입니다. 이 프로토콜은 지능이 서로의 기능을 발견하고 작업을 공유하며 작업을 완료할 수 있는 표준화된 방법 세트를 제공합니다.
4개월 전
01.3K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: 기술 문서를 빠르게 크롤링하고 정리할 수 있는 MCP 서비스

일반 소개 DevDocs는 CyberAGI 팀에서 개발하고 GitHub에서 호스팅하는 완전 무료 오픈 소스 도구입니다. 프로그래머와 소프트웨어 개발자를 위해 설계된 이 도구는 기술 문서의 URL로 시작하여 관련 페이지를 자동으로 크롤링하고 이를 간결한 마...
4개월 전
01.3K
TestDriver:使用AI自动测试软件的智能工具

TestDriver: AI를 사용하여 소프트웨어 테스트를 자동화하는 스마트 도구

일반 소개 TestDriver는 인공 지능 기술을 사용하여 개발자가 소프트웨어를 테스트할 수 있도록 도와주는 웹사이트입니다. 마우스를 클릭하거나 텍스트를 입력하는 등 사람의 동작을 시뮬레이션하여 소프트웨어 테스트 작업을 자동화합니다. 이 사이트의 중심에는 실제 사람처럼 작동하는 'AI 에이전트를 사용하는 컴퓨터'가 있습니다....
4개월 전
0935
自动解析PDF内容并提取文字与表格的开源服务

PDF 콘텐츠를 자동으로 구문 분석하고 오픈 소스 서비스의 텍스트와 양식을 추출합니다.

종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...
4개월 전
0998
WeClone:用微信聊天记录和语音训练数字分身

WeClone: WeChat 채팅 로그와 음성으로 디지털 도플갱어 훈련하기

종합 소개 WeClone은 대규모 언어 모델 및 음성 합성 기술과 결합된 WeChat 채팅 로그와 음성 메시지를 사용하여 사용자가 개인화된 디지털 도플갱어를 만들 수 있는 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자의 채팅 습관을 분석하여 모델을 훈련시킬 뿐만 아니라 소수의 음성 샘플로 사실적인 소리를 생성할 수 있습니다....
4개월 전
01.4K
KrillinAI:一键翻译和配音的视频多语言全球化工具

KrillinAI: 원클릭 번역 및 더빙이 가능한 동영상용 다국어 글로벌라이제이션 도구

포괄적인 소개 KrillinAI는 인공 지능을 사용하여 사용자가 동영상을 번역하고 자동으로 더빙하는 데 중점을 둔 오픈 소스 동영상 처리 도구입니다. 동영상 다운로드부터 다양한 플랫폼에 적합한 완제품 생성까지 모든 과정을 단 몇 번의 클릭만으로 진행할 수 있습니다. 개발자는 깃허브에서 확인할 수 있습니다...
2개월 전
01.6K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 언어 명령으로 애니메이션 동영상 및 캐릭터 상호작용을 생성하는 오픈 소스 도구

AnimeGamer는 텐센트 ARC Lab의 오픈 소스 툴입니다. 사용자는 "소우스케가 보라색 차를 타고 돌아다녀"와 같은 간단한 언어 명령으로 애니메이션 동영상을 생성할 수 있으며, 마법의 소녀의 모험과 스카이 시티의 키키와 같은 다양한 애니메이션 캐릭터가 서로 상호작용할 수 있습니다.
4개월 전
01.2K