일반 소개 FoleyCrafter는 무음 동영상에 생생하고 동기화된 음향 효과를 생성하기 위해 OpenMMLab에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 인공 지능 기술을 사용하여 비디오 콘텐츠를 분석하여 의미적으로 관련성이 높고 시간에 동기화된 음향 효과를 생성합니다....
일반 소개 OmniSVG는 멀티모달 모델을 통해 고품질 벡터 그래픽(SVG)을 생성하는 데 중점을 둔 오픈 소스 프로젝트입니다. 사전 학습된 시각 언어 모델을 사용하여 텍스트 설명이나 이미지 입력에서 SVG 생성을 지원하며, 간단한 아이콘부터 복잡한 애니메이션 캐릭터까지 다양한 시나리오를 다룹니다. 항목 ...
일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.
일반 설명 라이트카드는 사용자가 멋진 콘텐츠 카드를 쉽게 만들 수 있도록 설계된 간단하고 우아한 카드 생성 도구입니다. 이 도구는 사용자 지정 텍스트 콘텐츠, 여러 테마 스타일 및 QR 코드를 지원하여 더 쉽고 재미있게 만들 수 있습니다. 사용자는 제목, 본문, 작성자를 편집할 수 있습니다.
종합 소개 GPTMe는 개발자의 업무 효율성을 높이기 위해 설계된 혁신적인 터미널 AI 어시스턴트 도구입니다. 강력한 AI 기능과 터미널 환경을 완벽하게 결합하여 코드 실행, 파일 편집, 웹 브라우징, 시각적 인식 등 다양한 기능을 지원합니다. ChatGPT 코드 풀이...
일반 설명 tldraw는 사용자가 그래픽을 빠르게 그리고, 텍스트를 작성하고, 즉시 협업할 수 있는 무제한 캔버스를 제공하는 무료 즉각적인 협업 그리기 도구입니다. 직관적인 인터페이스와 뛰어난 성능을 갖추고 있어 팀 협업과 원격 작업에 적합합니다. 오픈 소스 커뮤니티를 통해 지원되는 tldr...
포괄적인 소개 Baichuan-Audio는 Baichuan Intelligence(baichuan-inc)에서 개발한 오픈 소스 프로젝트로, 엔드투엔드 음성 상호작용 기술에 중점을 두고 GitHub에서 호스팅됩니다. 이 프로젝트는 음성을 지원하는 완벽한 오디오 처리 프레임워크를 제공합니다.
일반 소개 OmniParse는 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계된 강력한 데이터 구문 분석 및 최적화 플랫폼입니다. 문서, 표, 이미지, 동영상, 오디오 파일 등 어떤 종류의 데이터를 작업하든 상관없습니다.
포괄적인 소개 Higress는 효율적인 트래픽 스케줄링, 서비스 거버넌스 및 보안 솔루션을 제공하도록 설계된 Istio 및 Envoy를 기반으로 Alibaba에서 개발한 클라우드 네이티브 API 게이트웨이입니다. AI 비즈니스를 위한 여러 프로그래밍 언어용 Wasm 플러그인 확장을 지원합니다.
일반 소개 GenEx는 단일 이미지에서 완전히 탐색 가능한 360° 3D 세계를 생성할 수 있는 고급 AI 모델입니다. 사용자는 생성된 세계를 인터랙티브하게 탐색할 수 있으며, GenEx는 상상의 공간에서 비추적 AI의 한계를 뛰어넘어 다음과 같은 잠재력을 가지고 있습니다.
일반 소개 Aana SDK는 말라얄람어 ആന(코끼리)의 이름을 딴 Mobius Labs에서 개발한 오픈 소스 프레임워크입니다. 개발자가 텍스트, 이미지, 오디오 및 비디오, 기타 데이터의 처리를 지원하여 멀티모달 AI 모델을 신속하게 배포하고 관리할 수 있도록 도와줍니다.
종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.
일반 소개 스토리 어댑터는 텍스트 스토리를 일관된 이미지 시퀀스로 변환하는 혁신적인 스토리 시각화 프레임워크입니다. 연구원들이 개발한 이 프로젝트는 고품질 스토리 일러스트를 생성하기 위해 별도의 교육이 필요 없는 반복적인 접근 방식을 채택하고 있습니다. 이 프레임워크는 긴 스토리를 처리할 수 있는 기능이 특징입니다.
종합 소개 머니프린터터터보는 고급 AI 빅 모델 기술을 사용하여 한 번의 클릭으로 짧은 HD 동영상을 생성하는 기능을 달성하는 오픈 소스 프로젝트입니다. 사용자는 비디오 테마 또는 키워드만 제공하면 시스템이 자동으로 비디오 카피, 비디오 클립, 비디오 자막 등을 생성합니다.
일반 소개 VideoSeal은 Facebook Research에서 개발한 오픈 소스 동영상 워터마킹 도구로, 효율적인 동영상 워터마크 삽입 및 추출을 제공하기 위해 설계되었습니다. 이 도구는 최신 오픈 소스 모델을 지원하며 사전 학습된 모델, 학습 코드, 추론 코드 및 평가 도구가 포함되어 있습니다.
일반 소개 SQLite-Utils-Ask는 사용자가 LLM(대규모 언어 모델)을 사용하여 SQLite 데이터베이스 및 CSV/JSON 파일에 대한 질문과 답변 데이터 쿼리를 수행할 수 있도록 설계된 강력한 도구입니다. 이 도구는 다음을 기반으로 사용자 질문을 자동으로 생성할 수 있습니다.
일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.
종합 소개 JoyGen은 말하는 얼굴을 위한 혁신적인 2단계 비디오 생성 프레임워크로, 오디오 기반 표정 생성 문제를 해결하는 데 중점을 두고 있습니다. 징동 테크놀로지 팀이 개발한 이 프레임워크는 고급 3D 재구성 기술과 오디오 특징 추출 방법을 사용하여 화자의 신원 특성과 표정을 정확하게 포착합니다.
종합 소개 CogView3는 칭화대학교와 싱크탱크 팀(Chi Spectrum Qingyan)이 개발한 고급 텍스트 생성 이미지 시스템입니다. 계단식 확산 모델을 기반으로 하며 여러 단계를 거쳐 고해상도 이미지를 생성하며, 다단계 생성, 혁신적인 아키텍처 및 효율적인 성능을 포함한 CogView3의 주요 기능은 다음과 같습니다.
일반 소개 Parler-TTS는 고품질의 자연스러운 음성을 생성하도록 설계된 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)을 가진 입력 텍스트를 기반으로 음성을 생성할 수 있습니다.
일반 소개 X-Dyna는 제로 샘플 확산 기법을 사용하여 역동적인 인물 애니메이션을 생성하기 위해 ByteDance에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 드라이브 비디오의 얼굴 표정과 신체 움직임을 사용하여 개별 인물 이미지에 애니메이션을 적용하여 사실적이고 상황에 맞는 모션 효과를 생성합니다.X-D...
일반 설명 Porkybank는 사용자가 일일 예산을 쉽게 추적할 수 있도록 설계된 오픈 소스 개인 재무 관리 애플리케이션입니다. (수입 - 지출) / 일수 = 현금이라는 간단한 공식으로 사용자는 자신의 재정 상황을 시각화할 수 있습니다. 이 프로젝트는 깃허브에서 호스팅됩니다...
일반 소개 GaiaNet-AI/gaianet-node는 사용자가 단일 명령으로 Mac, Linux 또는 Windows WSL에 기본 노드 소프트웨어 스택을 빠르게 설치할 수 있는 오픈 소스 프로젝트입니다. 사용자는 노드를 초기화하고, 구성을 사용자 지정하고, 다운로드할 수 있습니다.
일반 소개 Open NotebookLM은 모든 PDF 문서를 팟캐스트로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 오픈 소스 LLM(대규모 언어 모델) 및 TTS(텍스트 음성 변환) 모델을 사용하여 PDF 콘텐츠를 처리하여 오디오 팟캐스트에 적합한 자연스러운 대화를 생성합니다....
일반 설명 잘못된 JSON 파일을 수정하는 모듈로, 특히 LLM(대규모 언어 모델)에서 출력되는 잘못된 JSON 데이터를 구문 분석하기 위한 모듈입니다. 이 모듈은 따옴표 누락, 잘못된 쉼표, 이스케이프되지 않은 문자 및 불완전한 키-값과 같은 일반적인 JSON 구문 오류를 수정합니다.
일반 소개 Copilot 백엔드 에이전트 서비스는 여러 사람이 공식 계정을 공유하는 것을 지원하면서 DeepSeek와 같은 다른 FIM 모델을 활용하여 GitHub Copilot 플러그인 서버를 관리하도록 설계된 오픈 소스 프로젝트입니다. 이 서비스는 V를 포함한 다양한 IDE를 지원합니다.
종합 소개 MindSearch는 상하이 인공 지능 연구소(SAL)에서 출시한 오픈 소스 AI 검색 엔진 프레임워크로, 복잡한 정보 수집 및 통합을 위한 인간의 사고 과정을 시뮬레이션하는 것을 목표로 합니다. 이 도구는 다중 지능을 통해 대규모 언어 모델링(LLM)과 검색 엔진의 고급 기술을 결합합니다....
종합 소개 지식 테이블(Knowledge Table)은 비정형 문서에서 정형 데이터를 추출하고 탐색하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 사용자는 자연어 쿼리 인터페이스를 통해 표와 그래프와 같은 구조화된 지식 표현을 만들 수 있습니다. 이 도구는 추출 사용자 지정을 지원합니다 ...
일반 소개 HyperChat은 BigSweetPotatoStudio에서 개발하고 GitHub에서 호스팅하는 오픈 소스 채팅 클라이언트로, OpenAI, Cla... 등 여러 대형 언어 모델(LLM)의 API를 통합하여 BigSweetPotatoStudio 언어 모델에 대한 포괄적인 개요를 제공하도록 설계되었습니다.
포괄적인 소개 벡터 베인은 사용자가 지능적이고 자동화된 워크플로우를 쉽게 만들 수 있도록 설계된 코드 없는 AI 워크플로우 구축 플랫폼입니다. 프로그래밍 기반이 필요하지 않으므로 사용자는 드래그 앤 드롭 작업을 통해 다양한 기능 모듈을 간단히 연결하여 복잡한 AI 작업을 구축할 수 있습니다.
일반 소개 miniLLMFlow는 100줄의 핵심 코드만 포함된 미니멀한 대규모 언어 모델(LLM) 개발 프레임워크로, '단순함 유지'라는 디자인 철학을 보여줍니다. 이 프레임워크는 AI 어시스턴트(예: ChatGPT, Claude 등)가 다음을 수행할 수 있도록 특별히 설계되었습니다.
일반 소개 플록은 워크플로우를 위한 오픈 소스 로우코드 플랫폼으로, GitHub에서 호스팅되고 Onelevenvy 팀이 개발했습니다. LangChain과 LangGraph 기술을 기반으로 하며, 사용자가 채팅 머신을 빠르게 구축할 수 있도록 돕는 데 중점을 두고 있습니다.
종합 소개 WeChat 비디오 번호 다운로더는 사용자가 WeChat 비디오 번호에서 비디오 콘텐츠를 빠르게 다운로드할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 다양한 동영상 형식과 플랫폼을 지원하며, 사용자는 Windows 및 macOS 시스템에서 쉽게 사용할 수 있습니다. 이 프로젝트는 ltaoo에 의해 개발되었으며 다음에서 호스팅됩니다.
일반 소개 ChainForge는 대규모 언어 모델(LLM) 단서의 효과를 테스트하고 평가하기 위해 설계된 오픈 소스 시각적 프로그래밍 환경입니다. 사용자가 LLM 응답에 대한 다양한 단서의 품질을 빠르게 탐색하고 분석할 수 있는 데이터 흐름 단서 엔지니어링 환경을 제공합니다.
종합 소개 GOT-OCR2.0은 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 하는 StepStar가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델입니다. 이 모델은 일반 텍스트 인식, 그래픽 인식 등 광범위한 OCR 작업을 지원합니다.
일반 소개 원자 에이전트는 에이전트 AI 파이프라인 및 애플리케이션 구축을 위해 원자 개념을 중심으로 설계된 매우 가벼운 모듈식 프레임워크입니다. 이 프레임워크는 강력한 애플리케이션을 만들기 위해 결합할 수 있는 일련의 도구와 에이전트를 제공합니다. 이 프레임워크는 Instruc ...
일반 소개 magic-html은 HTML에서 본문 영역 콘텐츠를 추출하는 프로세스를 간소화하도록 설계된 Python 라이브러리입니다. 복잡한 HTML 구조를 다루든 간단한 웹 페이지를 다루든 이 라이브러리는 사용자에게 편리하고 효율적인 인터페이스를 제공하는 것을 목표로 합니다. 멀티모달 추출을 지원합니다...
일반 소개 AI RSS는 AI 기술을 통해 웹 콘텐츠를 RSS 피드로 변환하는 혁신적인 도구입니다. 브라우저 플러그인과 서버 측의 두 가지 주요 부분으로 구성됩니다. 브라우저 플러그인을 통해 사용자는 웹 페이지에서 목록을 선택하고 구조화된 데이터 설명(SDD) 파일을 생성할 수 있습니다.