종합 소개 페이는 가상 쇼핑 가이드, 가상 앵커, 비서, 웨이터, 교사, 음성 또는 텍스트 기반 모바일 비서 등 다양한 애플리케이션 시나리오를 위해 언어 모델과 디지털 캐릭터를 통합하는 오픈 소스 3D 가상 디지털 휴먼 프레임워크입니다.페이 프레임워크는 완전한 오프라인 사용을 지원하여 ...
표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).
일반 소개 자동 심층 연구는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발한 오픈 소스 AI 도구로, 사용자가 심층 연구 작업을 자동화할 수 있도록 지원하는 것을 목표로 합니다. 자동 에이전트 프레임워크를 기반으로 구축되었으며 여러 대규모 언어 모델을 지원합니다...
일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...
개요 VoiceCraft는 신경 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제 및 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성할 수 있습니다.
일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.
일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.
종합 소개 UltraRAG는 칭화대학교의 THUNLP 그룹, 노스이스턴대학교의 NEUIR 그룹, Modelbest.Inc, 9#AISoft 팀이 공동으로 제안한 RAG(검색 증강 세대) 시스템 솔루션입니다. 이 프레임워크는 민첩한 배포와 모듈식 구축을 기반으로 합니다...
일반 소개 HyperChat은 BigSweetPotatoStudio에서 개발하고 GitHub에서 호스팅하는 오픈 소스 채팅 클라이언트로, OpenAI, Cla... 등 여러 대형 언어 모델(LLM)의 API를 통합하여 BigSweetPotatoStudio 언어 모델에 대한 포괄적인 개요를 제공하도록 설계되었습니다.
일반 소개 플록은 워크플로우를 위한 오픈 소스 로우코드 플랫폼으로, GitHub에서 호스팅되고 Onelevenvy 팀이 개발했습니다. LangChain과 LangGraph 기술을 기반으로 하며, 사용자가 채팅 머신을 빠르게 구축할 수 있도록 돕는 데 중점을 두고 있습니다.
일반 소개 E2B의 프래그먼트는 AI로만 생성된 애플리케이션을 구축하기 위한 Next.js 기반의 템플릿을 제공하는 오픈 소스 프로젝트입니다. E2B에서 개발한 이 프로젝트는 AI 애플리케이션의 개발 프로세스를 간소화하고 가속화하는 것을 목표로 합니다. 그것은 다양한 현재를 통합합니다 ...
일반 소개 RoomGPT는 사용자가 방 사진을 업로드하고 인공지능 기술을 사용하여 새롭게 디자인된 버전을 생성할 수 있는 GitHub 사용자 Nutlope가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 사용자가 비싼 디자이너 비용 없이 전문가 수준의 인테리어 디자인을 이용할 수 있도록 하는 것을 목표로 합니다....
종합 소개 CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 여러 플랫폼에서 그래픽 사용자 인터페이스(GUI)의 작동을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 중국어와 영어 이중 언어를 지원합니다.
종합 소개 ColorFlow는 흑백 이미지 시퀀스의 자동 채색 문제를 해결하기 위해 Tencent ARC 팀에서 개발한 이미지 시퀀스 자동 채색 도구입니다. 이 도구는 검색 기능이 강화된 셰이딩 파이프라인을 사용하여 캐릭터의 헤어 컬러와 서비스를 포함한 참조 이미지 풀을 통해 다양한 요소의 컬러를 정확하게 생성합니다.
일반 설명 잘못된 JSON 파일을 수정하는 모듈로, 특히 LLM(대규모 언어 모델)에서 출력되는 잘못된 JSON 데이터를 구문 분석하기 위한 모듈입니다. 이 모듈은 따옴표 누락, 잘못된 쉼표, 이스케이프되지 않은 문자 및 불완전한 키-값과 같은 일반적인 JSON 구문 오류를 수정합니다.
일반 소개 X-Kit은 X(이전의 트위터) 사용자 데이터와 트윗을 크롤링하고 분석하기 위해 설계된 오픈 소스 도구입니다. GitHub 사용자 xiaoxiunique가 개발한 이 도구는 사용자가 특정 X 사용자에 대한 기본 정보와 트윗을 얻는 프로세스를 자동화할 수 있도록 설계되었습니다.
포괄적인 소개 Flow는 단순성과 유연성에 중점을 두고 AI 에이전트 구축을 위해 설계된 경량 작업 엔진입니다. 기존의 노드 및 에지 기반 워크플로우와 달리 Flow는 병렬 실행, 동적 스케줄링 및 지능형 종속성 관리를 지원하는 동적 작업 대기열 시스템을 사용합니다. 핵심 개념은 ...
일반 소개 AutoAgent는 홍콩대학교 데이터 인텔리전스 연구소(HKUDS)에서 개발하고 GitHub에서 호스팅하는 오픈 소스 AI 인텔리전스 프레임워크로, 사용자가 프로그래밍 기반 없이 순수 자연어로 요구 사항을 설명하여 맞춤형 AI 인텔리전스를 빠르게 생성하고 배포할 수 있습니다....
개요 AI2SRT는 GeminiAI 빅 모델을 사용하여 한 번의 클릭으로 짧은 내레이션 동영상과 긴 동영상의 동영상 요약을 생성하는 동시에 오디오 및 동영상 전사 자막을 지원하는 오픈 소스 프로젝트입니다. 이 프로젝트는 동영상 콘텐츠 제작 과정을 간소화하고 효율적인 자막 생성 및 번역 기능을 제공하는 것을 목표로 합니다. 사용자는 통과할 수 있습니다...
포괄적인 소개 LazyLLM은 LazyAGI 팀이 개발한 오픈 소스 도구로, 다중 지능 대규모 모델 애플리케이션의 개발 프로세스를 간소화하는 데 중점을 두고 있습니다. 개발자는 원클릭 배포와 가벼운 게이트웨이 메커니즘을 통해 복잡한 AI 애플리케이션을 빠르게 구축하여 지루한 엔지니어링 구성을 줄일 수 있습니다.
일반 소개 Copilot 백엔드 에이전트 서비스는 여러 사람이 공식 계정을 공유하는 것을 지원하면서 DeepSeek와 같은 다른 FIM 모델을 활용하여 GitHub Copilot 플러그인 서버를 관리하도록 설계된 오픈 소스 프로젝트입니다. 이 서비스는 V를 포함한 다양한 IDE를 지원합니다.
일반 소개 ModelBest는 경량 고성능 대형 모델 개발에 주력하는 회사로, 첨단 AI 기술을 주류 가전제품 및 일상 생활의 모든 종류의 최종 장치에 적용하는 데 전념하고 있습니다. 극한의 연산 능력과 메모리 사용 효율을 갖춘 MiniCPM 시리즈 엔드 사이드 모델은 ...
포괄적인 소개 VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하도록 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 효율적으로 처리합니다....
일반 소개 Parler-TTS는 고품질의 자연스러운 음성을 생성하도록 설계된 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)을 가진 입력 텍스트를 기반으로 음성을 생성할 수 있습니다.
종합 소개 Ultravox는 실시간 음성 처리를 위해 설계된 혁신적인 멀티모달 대규모 언어 모델(LLM)입니다. 기존의 음성 인식 시스템과 달리 Ultravox는 별도의 ASR(오디오 음성 인식) 단계가 필요하지 않으며, 오디오를 고차원 공간으로 직접 변환할 수 있습니다.
일반 설명 Quadratic은 사용자에게 강력한 데이터 처리 및 분석 기능을 제공하도록 설계된 AI, 코드 및 데이터 연결 기능을 결합한 오픈 소스 스마트 스프레드시트 도구입니다. Python, SQL, Rust와 같은 프로그래밍 언어를 지원함으로써 Quadratic은...
일반 소개 DH_live는 샘플리스 학습을 기반으로 하는 실시간 라이브 디지털 휴먼 프로젝트로, 사용자에게 원활하고 인터랙티브한 라이브 스트리밍 경험을 제공하는 것을 목표로 합니다. 이 프로젝트는 NVIDIA 30 및 40 시리즈 그래픽 카드를 지원하며 25fps 이상에서 실시간으로 실행할 수 있습니다. 사용자는...
일반 소개 MMAudio는 공동 멀티모달 훈련을 통해 고품질의 동기화된 오디오를 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 홍콩 중문대학교의 호케이 쳉 등이 개발한 이 프로젝트의 주요 기능은 비디오 및/또는 텍스트 입력을 기반으로 동기화된 오디오를 생성하는 것입니다.MM...
종합 소개 BrushEdit는 Tencent ARC Labs에서 개발한 올인원 이미지 복구 및 편집 도구입니다. 이 도구는 최신 AI 기술을 기반으로 하며 이미지의 결함을 자동으로 식별하고 복구하는 동시에 사용자의 대화형 편집을 지원할 수 있으며, BrushEdit는 다양한 기능을 결합합니다.
일반 소개 DeepRant는 게이머를 위한 오픈 소스 번역 도구로, 국제 서버의 언어 장벽 문제를 해결하기 위해 설계되었습니다. 단축키를 통해 게임 내 텍스트를 즉시 번역할 수 있고, 여러 언어를 지원하여 서로 번역할 수 있으며, 플레이어가 게임을 종료하지 않고도 채팅 메시지를 빠르게 이해하고 답장할 수 있습니다....
종합 소개 CogVLM2는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 멀티모달 모델로, Llama3-8B 아키텍처를 기반으로 하며 GPT-4V와 비슷하거나 더 나은 성능을 제공하는 것을 목표로 합니다. 이 모델은 이미지 이해, 다원 대화, 시각적 ...
일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
포괄적인 소개 유인원 입 계산기 리버스 노트는 유인원 입 계산기 애플리케이션을 리버스 엔지니어링하는 과정과 방법을 문서화하고 공유하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트에는 사용자가 작은 유인원 구강 산술 추가를 이해하고 해독하는 데 도움이 되는 지침을 사용하기 위한 다양한 리버스 도구 및 기술(예: Frida, dexdump 등)이 포함되어 있습니다.
일반 소개 YuE는 가사를 전체 곡으로 변환하는 데 중점을 둔 오픈 소스 전체 곡 생성 기본 모델입니다. 비보컬 음악의 짧은 스니펫만 생성하는 다른 모델과 달리 YuE는 최대 몇 분 길이의 리드 보컬과 백 보컬이 포함된 전체 곡을 생성할 수 있습니다. 이 모델은 음악 생성을 ...
종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...
일반 소개 AgentGPT는 사용자가 브라우저를 통해 자율적으로 AI 인텔리전스를 생성, 구성 및 배포할 수 있도록 설계된 오픈 소스 프로젝트로, Reworkd 팀에서 개발하여 GitHub에서 호스팅하고 있습니다. 사용자는 목표를 설정하기만 하면 AgentGPT는 다음을 수행할 수 있습니다.
종합 소개 Easegen은 AI 기술을 통해 교육 콘텐츠 제작 및 관리의 효율성을 높이는 것을 목표로 하는 오픈 소스 디지털 휴먼 코스 제작 플랫폼입니다. 이 플랫폼은 코스 제작, 비디오 관리, 지능형 질문까지 원스톱 솔루션을 제공하여 사용자가 디지털 휴먼 설명 비디오 코스를 제작할 수 있도록 지원합니다.
종합 소개 Ant Design X는 개발자가 AI 기반 대화 인터페이스를 빠르게 구축할 수 있도록 설계된 Ant Group에서 오픈소스화한 툴킷입니다. 풍부한 구성 요소와 템플릿 세트를 제공하고 OpenAI 표준과 호환되는 모델 통합을 지원하며 지능형 고객 서비스, AI 어시스턴트 등 다양한 애플리케이션에 적합합니다.
종합 소개 "Vocabulary Book by DeepSeek"은 영어 학습자가 대학 영어 레벨 4(CET-4)의 어휘를 효율적으로 마스터할 수 있도록 돕기 위해 DeepSeek의 빅 모델을 기반으로 개발된 오픈 소스 프로젝트입니다. 이 프로젝트는 GitHub에서 호스팅됩니다...
일반 소개 TripoSG는 단일 이미지에서 고품질 3D 모델을 생성하기 위해 VAST AI 연구팀에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 하이브리드 지도 학습 및 고품질 데이터 세트와 결합된 대규모 정류기-흐름 변환기 기술을 사용하여 생성된 3D 모델이 다음과 같은 기능을 갖출 수 있도록 합니다.
일반 소개 Infinity는 FoundationVision 팀에서 개발한 획기적인 고해상도 이미지 생성 프레임워크입니다. 이 프로젝트는 혁신적인 비트 레벨의 시각적 자동 회귀 모델링 접근 방식을 통해 기존 이미지 생성 모델의 한계를 극복합니다.Infinity의 핵심 기능은 다음과 같습니다.
포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...