AI 오픈 소스 프로젝트

총 1020개 문서

순서대로 정렬

튜브튜브: 자체 배포 YouTube 동영상 다운로드 도구

일반 소개 TubeTube는 MattBlackOnly가 개발한 오픈 소스 YouTube 동영상 다운로드 도구입니다. 이 도구는 yt-dlp를 핵심 다운로드 엔진으로 사용하고 멀티 스레드 다운로드를 지원하며 동시에 여러 동영상을 빠르게 다운로드할 수 있습니다. 사용자는 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

071.8K

LangWatch: DSPy 프레임워크에 기반한 LLM 프로세스 모니터링 및 최적화를 위한 시각화 도구

종합 소개 LangWatch는 대규모 언어 모델(LLM) 작업을 위해 설계된 종합 플랫폼으로, 모니터링, 분석, 평가, 데이터 세트 관리 및 큐 최적화를 제공합니다. 이 플랫폼은 스탠포드 대학의 DSPy 프레임워크를 기반으로 하며 사용자가 더 나은 관리와 최적화를 할 수 있도록 설계되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

054.3K

PR 에이전트: 자동화된 풀 리퀘스트 분석 도구

일반 소개 PR-Agent는 AI 기술을 통해 풀 리퀘스트(Pull Request) 처리를 자동화하기 위해 Qodo에서 개발한 오픈 소스 도구입니다. 이 도구는 개발자가 코드 리뷰를 보다 효율적으로 수행할 수 있도록 자동화된 피드백, 제안 및 분석을 제공할 수 있습니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

055.3K

FinGPT: 재무 분석 및 예측을 위한 오픈 소스 금융 빅 언어 모델링 플랫폼

일반 소개 FinGPT는 금융 부문이 복잡한 금융 작업을 해결하고 핀테크의 혁신을 추진하도록 설계된 AI4Finance 재단에서 개발한 오픈 소스 금융 빅 언어 모델링 플랫폼으로, 경량 적응 기술과 강화 학습 방식을 활용합니다....

1 년 전

073.9K

코딩 에이전트: 랭그래프 기반의 간단한 프로그래밍 도우미

일반 소개 코딩 에이전트는 개발자의 프로그래밍 효율성 향상을 돕기 위해 AbhinavTheDev에서 개발한 지능형 프로그래밍 어시스턴트입니다. 이 도구는 인공 지능 기술을 사용하여 자동으로 코드를 생성하고, 프로그래밍 제안을 제공하며, 개발자에게 다양한 코딩을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

061.2K

Ragas: RAG 리콜 QA 정확도 및 답변 상관관계 평가하기

종합 소개 Ragas는 검색 증강 생성(RAG) 시스템을 평가하고 최적화하기 위해 특별히 고안된 도구입니다. 쿼리, 검색 컨텍스트, 생성된 답변 간의 관계를 분석하여 종합적인 평가 메트릭 세트를 제공합니다. 이러한 메트릭에는 충실도, 답변 관련성, 문맥 관련성 등이 포함됩니다.

1 년 전

084.5K

VeighNa: 중국에서 인기 있는 오픈 소스 퀀트 트레이딩 프레임워크

종합 소개 VeighNa는 파이썬 기반의 오픈 소스 퀀트 트레이딩 플랫폼으로, 국내 개인 트레이더가 개발하여 2015년에 공식 출시했습니다. 단순한 트레이딩 인터페이스 패키지에서 완전한 기능을 갖춘 트레이딩 개발 프레임워크로 발전했습니다. 사용자로는 사모펀드, 증권사, ...

1 년 전

0135.9K

오픈캐릭터: 무수정 오픈소스 Character.AI 대안

일반 소개 오픈캐릭터는 Character.AI의 대안으로 사용자에게 필터링되지 않은 무제한 AI 캐릭터 제작 및 상호작용 경험을 제공하도록 설계된 오픈 소스 캐릭터 제작 툴입니다. 사용자는 네이티브 모델을 사용하여 자신만의 캐릭터를 만들고 실행할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 역할극

1 년 전

0111.2K

AI 동영상 스타터 키트: 브라우저에서 전체 흐름의 AI 동영상 제작 및 편집

일반 소개 비디오 스타터 키트(비디오 스타터 키트)는 브라우저에서 동영상 제작에 AI 모델을 사용하는 방법을 보여주기 위해 fal-ai-community에서 공개한 오픈 소스 프로젝트입니다. 이미지를 동영상으로 변환하는 도구를 제공합니다...

1 년 전

054.6K

SkyPilot: 모든 클라우드에서 AI 및 배치 작업을 효율적으로 실행하기 위한 오픈 소스 프레임워크

일반 소개 SkyPilot은 캘리포니아 버클리 대학교의 Sky Computing Lab에서 시작한 오픈 소스 프레임워크로, 사용자가 모든 클라우드 인프라에서 AI 및 일괄 처리 작업을 효율적으로 실행할 수 있도록 설계되었습니다. 14개 이상의 클라우드 서비스를 지원합니다(다음을 포함하여 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

059.4K

LlamaEdge: 로컬에서 LLM을 실행하고 미세 조정하는 가장 빠른 방법!

일반 소개 LlamaEdge는 로컬 또는 엣지 장치에서 대규모 언어 모델(LLM)을 실행하고 미세 조정하는 프로세스를 간소화하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Llama2 모델 제품군을 지원하며 사용자가 쉽게 생성하고 실행할 수 있는 OpenAI 호환 API 서비스를 제공합니다.

1 년 전

067K

AutoGen: Microsoft에서 개발한 다중 인텔리전트 바디 대화 프레임워크

일반 소개 AutoGen은 다중 지능형 바디 대화를 통해 대규모 언어 모델(LLM) 애플리케이션의 구성을 간소화하는 데 중점을 둔 Microsoft 연구팀이 개발한 오픈 소스 프레임워크입니다. 이를 통해 개발자는 서로 대화하고 협업하여 작업을 해결할 수 있는 AI 에이전트를 만들 수 있습니다. 이 접근 방식은 LLM의 성능을 향상시킬 뿐만 아니라 ...

1 년 전

067.2K

Page Assist: 네이티브 AI 모델 대화 및 문서 검색을 위한 웹 어시스턴트 플러그인

일반 소개 페이지 어시스트는 사용자가 로컬 AI 모델과 쉽게 상호작용할 수 있도록 설계된 오픈 소스 브라우저 확장 프로그램입니다. 이 확장 프로그램을 사용하면 모든 웹 페이지에서 사이드바를 열어 로컬에서 실행 중인 AI 모델과 상호 작용할 수 있습니다.Page Assi...

12개월 전

081K

모바일 에이전트: 모바일 기기 운영 도우미를 위한 다중 에이전트 협업

모바일에이전트는 다중 에이전트 협업과 향상된 시각 인식 모듈을 통해 모바일 디바이스 운영의 효율성과 자동화를 개선하도록 설계된 강력한 모바일 디바이스 운영 도우미입니다. X-PLUG 팀에서 개발했으며 Android 및 ...

1 년 전

077.6K

Orama: 고성능 전체 텍스트 도서 및 벡터 검색 엔진

일반 소개 Orama는 전체 텍스트 검색, 벡터 검색 및 하이브리드 검색을 지원하는 오픈 소스 고성능 검색 엔진으로, 전적으로 타입스크립트로 작성되었으며 모든 자바스크립트 런타임 환경에서 작동하도록 설계되어 빠르고 안정적인 ...

1 년 전

078.4K

프레임페인터: AI 기반 낙서 스타일의 이미지 편집 도구

일반 소개 프레임페인터는 고급 동영상 확산 기술과 직관적인 스케치 컨트롤을 활용하여 사용자가 복잡한 이미지 편집을 쉽게 할 수 있도록 도와주는 혁신적인 AI 기반 이미지 편집 도구입니다. 간단한 조정이든 복잡한 창의적 변형이든, 프레임페인터는 ...

1 년 전

048.2K

Gaze-LLE: 비디오 속 인물 시선에 대한 타겟 예측 도구

합성 시선-LLE는 대규모 학습 인코더를 기반으로 하는 시선 대상 예측 툴입니다. 피오나 라이언, 아제이 바티, 이상민, 다니엘 볼야, 주디 호프만, 제이...에 의해 개발되었습니다.

1 년 전

058.7K

DiffBIR: 이미지 품질 향상을 위한 지능형 복구 도구

일반 소개 DiffBIR(블라인드 이미지 복원을 위한 생성 확산 사전)은 XPixelGroup에서 개발한 이미지 복원 도구로, 생성 확산을 위해 설계된...

1 년 전

061.5K

TankWork: 음성과 텍스트를 통해 컴퓨터를 작동하고 실시간 음성 피드백을 제공하는 지능형 신체

일반 소개 TankWork는 컴퓨터 비전과 시스템 수준의 상호 작용을 통해 AI가 컴퓨터를 인식하고 제어할 수 있도록 설계된 오픈 소스 데스크톱 에이전트 프레임워크입니다. 이 프레임워크를 사용하면 에이전트가 음성 및 텍스트 명령을 통해 컴퓨터를 직접 제어하고, 실시간 화면 콘텐츠를 처리하며, 지속적인 시청각 정보를 제공할 수 있습니다.

1 년 전

057.3K

AI Auto Free：使用自动化工具无限制使用AI IDE（如Cursor和Windsurf）

AI 자동 무료: 자동화 도구(예: 커서 및 윈드서프)를 사용한 AI IDE 무제한 사용

일반 설명 AI Auto Free는 사용자가 Cursor 및 Windsurf와 같은 AI 기반 통합 개발 환경(IDE)을 무제한으로 사용할 수 있도록 설계된 강력한 자동화 도구입니다. 이 프로젝트는 크로스 플랫폼 지원을 제공하며 여러 언어 기능을 포함합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

072.4K

퀀텀 스웜: 다중 인텔리전스 클러스터 협업을 위한 프레임워크

퀀텀 스웜은 AI 집단 지능 개발 및 연구에 중점을 둔 오픈 소스 인공 지능 프레임워크입니다. 이 프로젝트는 깃허브의 퀀텀 AI 팀에서 관리하며 다중 지능 시스템을 구축하고 테스트할 수 있는 유연하고 효율적인 플랫폼을 제공하는 것을 목표로 합니다.

1 년 전

053.5K

XRAG: 검색 향상 생성 시스템 최적화를 위한 시각적 평가 도구

종합 소개 XRAG(eXamining the Core)는 고급 검색 증강 생성(RAG) 시스템의 기본 구성 요소를 평가하기 위해 고안된 벤치마킹 프레임워크입니다. 각 핵심 모듈을 프로파일링하고 분석함으로써 XRAG는 다양한 구성과 구성 요소가 RAG에 어떤 영향을 미치는지에 대한 정보를 제공합니다.

1 년 전

061.7K

Wenyan: 원클릭으로 마크다운 문서 미화, 여러 셀프 미디어 플랫폼 형식(오픈 소스 로컬 클라이언트)에 적응하기

종합 소개 WenYan은 마크다운 기사 조판 및 미화를 위해 설계된 도구로, 편집된 마크다운 기사를 WeChat, Zhihu, 오늘의 헤드라인 및 기타 플랫폼에 적합한 형식으로 변환할 수 있도록 지원합니다. 사용자는 클릭 한 번으로 기사를 직접 복사할 수 있습니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

050.4K

크로노스: 뉴스 검색 및 타임라인 생성 효율성을 개선하는 뉴스 타임라인 요약 도구

일반 소개 CHRONOS는 Alibaba NLP 팀에서 개발한 뉴스 타임라인 요약 도구입니다. 이 도구는 반복적 인 자체 질문을 통해 뉴스 이벤트의 타임 라인 요약을 생성합니다.CHRONOS는 오픈 도메인 타임 라인 요약 작업을 처리 할 수있을뿐만 아니라 효율성과 확장 성 측면에서도 ...

1 년 전

050.8K

Go-with-the-Flow：控制视频中物体的运动轨迹，视频中增减任何运动物体

흐름에 따라 이동: 동영상에서 움직이는 물체를 더하거나 빼는 등 동영상 속 물체의 움직임을 제어합니다.

일반 소개 Go-with-the-Flow는 넷플릭스 아이라인 스튜디오 연구팀에서 노이즈를 왜곡하여 동영상 확산 모델의 움직임 패턴을 제어하기 위해 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 장면의 카메라와 ...

1 년 전

053.1K

X-Dyna: 미시의 사진을 춤추게 만드는 스틸 인물 레퍼런스 비디오 포즈 생성 비디오

일반 소개 X-Dyna는 제로 샘플 확산 기법을 사용하여 역동적인 인물 애니메이션을 생성하기 위해 ByteDance에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 드라이브 비디오의 얼굴 표정과 신체 움직임을 사용하여 개별 인물 이미지에 애니메이션을 적용하여 사실적이고 상황에 맞는 모션 효과를 생성합니다.X-D...

1 년 전

053.8K

腾讯混元3D（Hunyuan3D）：生成高分辨率3D资产，多种3D素材生成工作流

텐센트 하이브리드 3D(Hunyuan3D): 고해상도 3D 에셋 생성, 다양한 3D 머티리얼 생성 워크플로

종합 소개 Tencent Hunyuan3D(Hunyuan3D 2.0)는 고해상도 텍스처 3D 에셋을 생성하도록 설계된 Tencent의 고급 대규모 3D 합성 시스템입니다. 이 시스템은 대규모 형상 생성 모델인 훈위안3D-DiT와 대규모 텍스처 생성 모델인 훈위안3D-DiT의 두 가지 핵심 구성 요소로 이루어져 있습니다.

1 년 전

071.1K

RAG 웹 UI: 지능형 문서 Q&A 시스템 구축 및 비공개 웹 사이드 지식창고 간편하게 구축하기

종합 소개 RAG 웹 UI는 RAG(검색 증강 생성) 기술을 기반으로 한 지능형 대화 시스템입니다. 기업과 개인이 자체 지식 베이스를 기반으로 지능형 Q&A 시스템을 구축할 수 있도록 도와줍니다. 문서 검색과 대규모 언어 모델을 결합하여 정확하고 신뢰할 수 있는 ...

1 년 전

058.3K

UI-TARS 데스크톱: 자연어를 사용하여 컴퓨터를 제어하는 데스크톱 인텔리전스 애플리케이션

일반 소개 UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호 작용을 할 수 있습니다.UI-TAR...

1 년 전

091.4K

Devin Cursor Rules：让Cursor和Windsurf 强化为 Devin

Devin 커서 규칙: Devin을 위한 커서 및 윈드서핑 강화하기

일반 소개 Devin 커서 규칙은 구성 파일과 도구를 통해 커서 및 Windsurf 통합 개발 환경(IDE)을 개선하여 Devin과 유사한 고급 AI 기능을 구현하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 다음을 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

053.2K

리포믹스: 대규모 모델 검색을 위해 코드 베이스를 텍스트 파일로 패키징하기

일반 소개 Repomix(이전의 Repopack)는 전체 코드베이스를 AI 친화적인 단일 파일로 패키징하도록 설계된 오픈 소스 도구입니다. 이 도구를 사용하면 개발자는 코드베이스를 대규모 언어 모델(예: Claude, Chat ...

1 년 전

088.9K

Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

일반 소개 Yek은 저장소나 디렉터리에서 텍스트 파일을 읽고, 청크화하여 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용하여 불필요한 파일을 건너뛰고, ...

1 년 전

057.7K

Kheish: 고품질 결과를 생성하기 위해 출력을 검토, 검증 및 서식 지정하는 다중 역할 인텔리전스

종합 소개 Kheish는 구조화된 단계별 협업이 필요한 대규모 언어 모델링(LLM) 작업을 위해 설계된 오픈 소스 다중 역할 에이전트로, 단순한 코디네이터를 넘어 필요에 따라 모듈을 요청하고 사용자 반전 기능을 통합하는 그 자체로 지능적인 에이전트입니다.

1 년 전

055.1K

AI ContentCraft：生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft: 단편 스토리, 대화 스크립트, 보이스오버, 그래픽을 생성하는 다목적 AI 콘텐츠 제작 툴입니다.

일반 설명 AI ContentCraft는 텍스트 생성, 음성 합성, 이미지 생성 등을 통합하는 다목적 콘텐츠 제작 도구입니다. 크리에이터가 스토리, 팟캐스트 스크립트, 함께 제공되는 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있도록 도와줍니다. 이 도구는 여러 언어 변환을 지원하며 일괄적으로 ...

최신 AI 리소스 # AI 쓰기 # AI 자바 오픈 소스 프로젝트

1 년 전

067.7K

Unigraph: 로컬에서 실행되는 지식 그래프 및 개인용 검색 엔진 구축하기

일반 소개 Unigraph는 사용자에게 개인 생활의 다양한 데이터를 관리하고 검색할 수 있는 통합 작업 공간을 제공하도록 설계된 국내 최초의 범용 지식 그래프 및 개인용 검색 엔진입니다. Unigraph를 통해 사용자는 다양한 소스의 데이터를 통합하여 ...

1 년 전

055.8K

ComfyUI disty Flow：为 ComfyUI 提供友好的用户界面，简化工作流程

컴피유 디스티 플로우: 워크플로우를 간소화하는 컴피유 사용자 친화적 인터페이스

일반 소개 ComfyUI-disty-Flow는 ComfyUI에 사용자 친화적인 인터페이스를 제공하는 사용자 정의 노드입니다. 이 노드는 워크플로우 생성을 위한 대체 사용자 인터페이스를 제공하여 워크플로우 실행을 단순화하기 위한 것입니다.ComfyUI-disty...

1 년 전

086.9K

가장 짧은: 엔드투엔드 테스트에 자연어를 사용하는 AI 자동화 테스트 도구

일반 소개 쇼티스트는 안티워크 팀에서 개발한 AI 기반 자연어 엔드투엔드 테스트 프레임워크입니다. Playwright를 기반으로 구축되었으며 GitHub 통합 및 2단계 인증(2FA)을 지원합니다.Shortest의 주요 기능은 다음과 같습니다.

1 년 전

059.8K

Midscene.js: AI로 브라우저 자동화 테스트를 구동하는 오픈 소스 플러그인

일반 소개 Midscene.js는 자연어 명령을 통해 웹 페이지를 제어하고, 어설션을 수행하고, 데이터를 추출하는 AI 기반 브라우저 자동화 도구입니다. 이 도구는 Chrome 확장 프로그램, JavaScript SDK 및 YAML 스크립트를 지원하여 UI 측정을 간소화합니다.

1 년 전

090.5K

동영상 분석기: 동영상 콘텐츠를 분석하고 자세한 설명을 생성합니다.

종합 소개 비디오 분석기는 컴퓨터 비전, 오디오 트랜스크립션 및 자연어 처리 기술을 결합하여 자세한 비디오 콘텐츠 설명을 생성하는 종합적인 비디오 분석 도구입니다. 이 도구는 비디오에서 주요 프레임을 추출하여 오디오 콘텐츠를 트랜스크립션합니다.

1 년 전

0118.5K

Unsloth: 대규모 언어 모델의 효율적인 미세 조정 및 학습을 위한 오픈 소스 도구

종합 소개 Unsloth는 대규모 언어 모델(LLM)을 미세 조정하고 학습하기 위한 효율적인 도구를 제공하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 라마, 미스트랄, 파이, 젬마 등 잘 알려진 다양한 모델을 지원합니다.Unsloth의...

1 년 전

075.4K

MaxKB: 스마트한 고객 서비스 및 사내 지식창고를 위한 즉시 사용 가능한 AI 지식창고 Q&A 시스템

종합 소개 MaxKB(Max Knowledge Base)는 대규모 언어 모델과 RAG(검색 증강 생성)를 기반으로 하는 오픈 소스 지식 기반 Q&A 시스템입니다. 이 시스템은 지능형 고객 서비스, 기업 내부 지식 기반, 학술 연구 및 교육 및 기타 시나리오에서 널리 사용됩니다.MaxKB...

1 년 전

085.5K

OmniThink：生成高质量长文的写作框架，搜索外部知识后反思并逐步构建知识树

OmniThink: 고품질의 긴 글을 작성하고, 외부 지식을 검색한 다음 이를 반영하여 단계별로 지식 트리를 구축하기 위한 글쓰기 프레임워크입니다.

포괄적인 소개 OmniThink는 인간의 인지 과정의 반복적인 확장과 반영을 모방하여 고품질의 긴 형식의 에세이를 생성하도록 설계된 혁신적인 기계 글쓰기 프레임워크입니다. 이 프레임워크는 지식의 경계를 확장하고 풍부하고 깊이 있는 정보를 생성하는 데 중점을 두며, 이를 위해 다음과 같이 구성됩니다.

최신 AI 리소스 # AI 쓰기 # AI 자바 오픈 소스 프로젝트

1 년 전

051.4K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI 실시간 에이전트: 다중 지능형 신체 음성 인터랙션 애플리케이션(OpenAI 예제)

일반 소개 OpenAI 실시간 에이전트는 OpenAI의 실시간 API를 사용하여 다중 지능형 신체 음성 애플리케이션을 구축하는 방법을 보여주는 것을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 높은 수준의 지능형 신체 모델(OpenAI Swarm에서 차용)을 제공하여 다음을 수행할 수 있습니다.

1 년 전

053.1K

DeepFace: 얼굴 나이, 성별, 감정, 인종 인식을 위한 경량 Python 라이브러리

일반 소개 DeepFace는 얼굴 인식 및 얼굴 속성 분석(나이, 성별, 감정, 인종 포함)을 위한 경량 Python 라이브러리입니다. VGG-Face, FaceNet, OpenFace, De... 등 여러 고급 얼굴 인식 모델을 통합합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

089.6K

SynthLight: 인물 이미지의 자연광 렌더링(미공개)

일반 설명 SynthLight는 확산 모델에 기반한 인물 사진 재조명 도구입니다. 합성 얼굴 이미지를 다시 렌더링하여 실제 인물 사진에 조명 효과를 조정하는 방법을 학습합니다. 이 도구는 물리적 렌더링 엔진을 사용하여 다양한 조명 조건에서 조명 변환을 시뮬레이션하는 데이터 세트를 생성합니다....

1 년 전

053K

1-2-1-MNVTON: 효율적인 이미지, 동영상 속 사람이 가상으로 옷을 입어보는 기능(오픈 예정)

일반 소개 1-2-1-MNVTON은 "가상 트라이온을 위한 모달리티별 정규화"(MNVTON) 기술을 제공하는 것을 목표로 하는 GitHub 기반 오픈 소스 프로젝트입니다....

1 년 전

049.6K

Kokoro-ONNX: 다국어 및 다중 음성을 지원하는 효율적인 텍스트 음성 변환 도구

종합 소개 Kokoro-ONNX는 ONNX 런타임을 기반으로 하는 오픈 소스 텍스트 음성 변환(TTS) 도구입니다. 이 프로젝트는 효율적이고 빠른 음성 합성 솔루션을 제공하는 것을 목표로 하며, Kokoro-ONNX는 ...

1 년 전

0104.9K

Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR

일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...

1 년 전

076K

Charla: Ollama 백엔드에 기본적으로 통합되는 미니멀한 엔드포인트 기반 AI 채팅 도구

일반 설명 Charla는 모국어 모델과 대화할 수 있도록 설계된 엔드포인트 기반 채팅 애플리케이션입니다. 이 애플리케이션은 Ollama 백엔드와 통합되어 문맥 인식 대화를 지원하며 채팅 세션을 마크다운 파일로 저장합니다. 사용자는 간단히...

1 년 전

060.3K

MiniRAG: 간소화된 검색 강화 생성 프레임워크, 엔티티 그래프 인덱스 관련 텍스트 블록 리콜

포괄적인 소개 MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 구현하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프레임워크는 ...

1 년 전

062.7K

Omni-RGPT: 시각 콘텐츠 분석을 개선하기 위한 이미지 및 비디오 영역 수준 이해를 위한 멀티모달 그랜드 모델

종합 소개 Omni-RGPT는 이미지와 동영상에 대한 영역 수준의 이해를 가능하게 하도록 설계된 멀티모달 대규모 언어 모델입니다. 토큰 마크 기술을 도입함으로써 Omni-RGPT는 시각적 특징 공간에서 영역 단서(예: 상자 또는...)로 대상 영역을 강조 표시할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

062.6K

베일링: 자연스러운 대화와 커뮤니케이션을 위한 저지연 오픈 소스 음성 대화 도우미

개요 Bailing(베일링)은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈 소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델링(LLM) 및 음성 합성(TTS) 기술을 결합하여 다음과 같은 목표를 달성합니다.

1 년 전

070.5K

메타버스 AI: AI 디지털 인간 복제 및 짧은 동영상 생성 도구의 오픈 소스 버전

종합 소개 메타버스 AI(오픈소스 버전)는 libn-net 팀에서 개발한 GitHub에서 호스팅되는 프로젝트입니다. AI 기술을 통해 디지털 사람의 이미지와 음성을 복제하여 짧은 동영상을 생성할 수 있으며, 더빙과 자막도 지원합니다. 이 도구는 Windo...

1 년 전

057.9K

WikiChat: Wikipedia 데이터를 사용하여 지식을 검색할 수 있는 채팅 도구

일반 소개 위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 처리하는 경향이 있습니다.

1 년 전

056.4K

OpenAI Edge TTS：利用 Edge TTS 的免费文本转语音API，兼容 OpenAI 格式

OpenAI Edge TTS: OpenAI 형식과 호환되는 Edge TTS를 사용하는 무료 텍스트 음성 변환 API

일반 소개 OpenAI Edge TTS는 OpenAI와 호환되는 네이티브 TTS(텍스트 음성 변환) API를 제공하는 오픈 소스 프로젝트로, 이 프로젝트는 Microsoft Edge의 온라인 텍스트 음성 변환 서비스를 사용하여 사용자가 고품질의 음성 변환을 생성할 수 있도록 합니다.

1 년 전

082.3K

AIEvo: 다중 지능형 협업 애플리케이션을 만들기 위한 효율적인 프레임워크

일반 소개 AIEvo는 멀티 에이전트 애플리케이션을 효율적으로 생성하기 위해 설계된 Ant Group의 오픈 소스 멀티 에이전트 프레임워크입니다. 이 프레임워크는 복잡한 작업의 실행 성공률을 높이기 위해 SOP 작업 그래프를 엄격하게 따르며, 피드백 및 모니터링 메커니즘을 통해 높은 유연성과 확장성을 보장합니다.AIEvo는 Ant Group 내에서 제작되었습니다...

1 년 전

057.1K

PPTAgent: PPT 프레젠테이션, 문서를 PPT로 자동 생성 및 평가

일반 소개 PPTAgent는 문서에서 프레젠테이션을 자동으로 생성하도록 설계된 혁신적인 시스템입니다. 이 시스템은 콘텐츠 품질과 시각적 효과를 보장하기 위해 2단계 프로세스를 사용하여 프레젠테이션을 제작하는 인간의 접근 방식을 따릅니다. 또한 PPTAgent는 포괄적인 PPTEval을 소개합니다.

1 년 전

077.9K

FlowiseAI: 커스텀 LLM 애플리케이션을 위한 노드 드래그 앤 드롭 인터페이스 구축

일반 소개 FlowiseAI는 개발자가 맞춤형 LLM(대규모 언어 모델) 애플리케이션과 AI 에이전트를 구축할 수 있도록 설계된 오픈 소스 로우코드 툴입니다. 간단한 드래그 앤 드롭 인터페이스를 통해 사용자는 LLM 애플리케이션을 빠르게 생성하고 반복할 수 있어 테스트부터 생산에 이르는 프로세스를 더욱 효율적으로 진행할 수 있습니다.

1 년 전

083.5K

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

RealtimeSTT: Whisper 기반의 저지연 스트리밍 음성 인식을 위한 실시간 음성-텍스트 변환 도구

일반 소개 RealtimeSTT는 고급 음성 활동 감지 및 웨이크 워드 활성화 기능을 갖춘 효율적이고 지연 시간이 짧은 실시간 음성-텍스트 라이브러리입니다. 빠르고 정확한 음성-텍스트 변환이 필요한 애플리케이션을 지원하기 위해 콜야 베이겔이 개발했습니다.

AI 뉴스 # AI 자바 오픈 소스 프로젝트 # AI 음성-텍스트 변환

1 년 전

087.6K

SemHash: 시맨틱 텍스트 중복 제거를 빠르게 구현하여 데이터 정리 효율성 향상

개요 SemHash는 의미적 유사성을 기준으로 데이터 세트의 중복을 제거하기 위한 가볍고 유연한 도구입니다. 이 도구는 Model2Vec의 빠른 임베딩 생성과 Vicinity.SemHa...의 효율적인 ANN(근사 최인접 이웃) 유사성 검색을 결합합니다.

1 년 전

070.7K

Cognita: 모듈식 RAG 애플리케이션을 구축하고 다양한 RAG 전략을 신속하게 테스트하기 위한 오픈 소스 프레임워크

포괄적인 소개 Cognita는 RAG(검색 증강 세대) 기반 애플리케이션의 개발을 간소화하기 위해 TrueFoundry에서 개발한 오픈 소스 프레임워크입니다. 이 프레임워크는 구조화되고 수정 가능한 ...

1 년 전

060.3K

BotSharp: .NET 기반 다중 인텔리전스 AI 개발 및 관리 플랫폼

개요 BotSharp는 포괄적인 AI 챗봇 플랫폼 구축 도구를 제공하기 위한 .NET Core 기반의 오픈 소스 프로젝트입니다. C# 프로그래밍을 사용하고 크로스 플랫폼 운영을 지원하며 머신러닝 알고리즘의 적용을 단순화하여 엔터프라이즈급 개발자가 효율적으로 사용할 수 있도록 하는 것을 목표로 합니다.

1 년 전

056.4K

위보: 자연어 대화 경험을 제공하는 실시간 음성 챗봇

일반 소개 위보는 오픈소스 실시간 음성 챗봇으로, 음성 인식을 위해 Whisper Small, 자연어 생성을 위해 Llama 3.2, 음성 합성을 위해 Kokoro-82M을 활용합니다. 이 프로젝트는 아만...

1 년 전

063.3K

OmAgent: 멀티모달 스마트 디바이스 구축을 위한 인텔리전트 바디 프레임워크

종합 소개 OmAgent는 Om AI Lab에서 개발한 멀티모달 지능형 바디 프레임워크로, 스마트 디바이스를 위한 강력한 AI 기반 기능을 제공하는 것을 목표로 합니다. 이 프로젝트는 최첨단 멀티모달 기본 모델과 지능형 바디 알고리즘을 통합하여 개발자가 다양한 스마트 디바이스에서 효율적인 스마트 디바이스를 만들 수 있도록 지원합니다.

1 년 전

056K

RAIN: 실제 사람의 표정을 실시간으로 캡처하여 애니메이션 이미지의 비디오 스트림을 생성합니다.

일반 소개 RAIN(Real-time Animation Of Infinite Video Stream)은 무한 비디오 스트림에 대한 애니메이션 효과를 실시간으로 생성하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Pscgylotti에 의해 개발되었습니다.

1 년 전

056.6K

Agent Service Toolkit：基于LangGraph构建AI智能体的完整工具集

에이전트 서비스 툴킷: LangGraph 기반 AI 인텔리전스 구축을 위한 완벽한 툴셋

종합 소개 AI 에이전트 서비스 툴킷은 개발자가 AI 에이전트 서비스를 빠르게 구축하고 실행할 수 있도록 설계된 LangGraph, FastAPI 및 Streamlit을 기반으로 구축된 완전한 도구 세트입니다. 이 툴킷은 다음을 제공합니다.

1 년 전

049.7K

메모라: 인간과의 상호 작용에 대한 정보를 저장하고 업데이트하는 인간화된 AI 메모리 모듈 구축

일반 소개 Memora는 개인화된 각 AI를 위해 인간의 기억을 복제하도록 설계된 에이전트입니다. 타임스탬프 기억, 감정 마커, 다중 모드 기억과 같은 기능을 통해 AI가 인간처럼 과거의 상호 작용, 감정, 공유 경험의 세부 사항을 기억할 수 있도록 도와주며, 메모라는 멀티 테넌시를 지원하며 다음과 같은 작업을 처리할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 지식 그래프

1 년 전

061.9K

스테이지핸드: 브라우저 자동화 작업의 자연어 구현을 위한 프레임워크

일반 소개 Stagehand는 단순성과 확장성에 중점을 둔 AI 웹 브라우징 프레임워크입니다. Playwright와 완벽하게 호환되며, 기본으로 구축된 세 가지 간단한 AI API(행위, 추출, 관찰)를 제공합니다.

1 년 전

078.4K

마이크로 에이전트: 자동으로 코드를 생성하고 테스트 및 수정하는 AI 프로그래밍 인텔리전스입니다.

일반 소개 마이크로 에이전트는 Builder.io에서 개발한 오픈 소스 AI 코딩 도우미로, 개발자에게 코드를 자동으로 생성하고 테스트할 수 있는 기능을 제공하도록 설계되었습니다. 자연어 설명을 이해하여 테스트 케이스를 생성하고 모든 테스트가 통과할 때까지 코드를 반복하여 오픈 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

057.5K

Sherpa-ONNX: ONNXRuntime을 사용한 오프라인 음성 인식 및 합성

일반 소개 sherpa-onnx는 효율적인 오프라인 음성 인식 및 음성 합성 솔루션을 제공하기 위해 차세대 칼디 팀에서 개발한 오픈 소스 프로젝트입니다. 안드로이드, iOS, 라즈베리 등 여러 플랫폼을 지원합니다.

1 년 전

0280.9K

Eko: 데스크톱 및 브라우저 자동화를 위한 지능형 바디 워크플로 구축 자연어

일반 소개 Eko는 자연어 설명을 통해 효율적인 지능형 에이전트 워크플로우를 구축하도록 설계된 프로덕션급 자바스크립트 프레임워크입니다. 개발자가 심층적인 프로그래밍 없이도 AI 기술을 사용하여 일상적인 작업을 자동화할 수 있도록 설계되었으며, Eko는 단일 ...

1 년 전

063.8K

상담원 수신함: 인간과 컴퓨터의 AI 인텔리전스 상호작용을 위한 관리 인터페이스

일반 소개 에이전트 인박스는 AI 지능과 상호 작용할 수 있는 새로운 사용자 경험을 제공하기 위해 LangChain 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트를 통해 사용자는 중앙 집중식 인터페이스를 통해 여러 AI 인텔리전스와의 상호 작용을 관리하고 최적화할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

062.4K

Social Media Agent：社交媒体智能助手，自动生成和管理社交媒体内容

소셜 미디어 에이전트: 소셜 미디어 콘텐츠를 자동으로 생성하고 관리하는 소셜 미디어용 지능형 어시스턴트

일반 소개 소셜 미디어 에이전트는 사용자가 소셜 미디어 콘텐츠의 생성 및 관리를 자동화할 수 있도록 설계된 새로운 에이전트 인박스로 상호 작용 정보를 관리하는 오픈 소스 프로젝트입니다. 이 프로젝트는 LangChain 팀에 의해 개발되었습니다...

1 년 전

057.9K

Executive AI Assistant：AI行政助理，提醒阅读邮件并规划工作日程

Executive AI Assistant: AI 임원 비서, 이메일 읽기 및 업무 일정 계획 리마인더

일반 소개 EAIA(Executive AI Assistant)는 사용자가 일상 업무를 자동화하고 관리할 수 있도록 설계된 AI 기반 어시스턴트 도구입니다. 랭체인에서 개발한 이 도구는 이메일 처리, 일정 관리, 작업 관리 및 기타 작업을 처리할 수 있습니다.

1 년 전

048.7K

만화 닌자: 애니메이션 흑백 선화를 빠르게 색칠할 수 있는 자동 선 채색 도구입니다.

종합 소개 만화닌자는 알리바바 통이 시각지능연구소(Ali-Vilab)에서 개발한 오픈소스 프로젝트로, 선화 채색 자동 처리에 중점을 두고 있습니다. 이 도구는 딥러닝 기술을 통해 참조 이미지의 정확한 색상 일치를 달성하여 크게 개선된 ...

1 년 전

068.1K

Audiblez: 오디오북 생성, Kokoro로 전자책을 오디오북으로 변환하기

일반 소개 Audiblez는 전자책(예: .epub 형식)을 오디오북(예: .m4b 형식)으로 변환하기 위해 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Kokoro의 고품질 음성 합성 기술을 활용하여 여러 언어와 여러 음성을 지원합니다. 사용자는 간단히...

1 년 전

060.5K

검색 o1: 추론 모델이 능동적으로 검색할 수 있도록 지원하여 대규모 모델이 사고하면서 외부 지식을 검색할 수 있도록 합니다.

종합 소개 Search-o1은 고급 검색 메커니즘을 통합하여 대규모 추론 모델(LRM)의 성능을 향상시키는 것을 목표로 하는 오픈 소스 프로젝트입니다. 핵심 아이디어는 동적 검색과 지식 통합을 통해 추론 과정에서 발생하는 지식 결핍 문제를 해결하는 것입니다. 이 프로젝트는 sunn이 후원합니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

1 년 전

060.6K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

Llama 3.2 추론 웹 GPU: 브라우저에서 Llama 3.2 실행하기

일반 소개 Transformers.js는 서버 지원 없이 브라우저에서 직접 최첨단 머신러닝 모델을 실행하도록 설계된 Hugging Face에서 제공하는 자바스크립트 라이브러리입니다. 이 라이브러리는 허깅 페이스와 함께 작동합니다.

AI 뉴스 # AI 자바 오픈 소스 프로젝트 # 로컬 배포 오픈 소스 대규모 모델 도구

1 년 전

050.4K

MoneyPrinter V2：自动生成YouTube短视频与Twitter内容并发布

MoneyPrinter V2: 짧은 YouTube 동영상 및 트위터 콘텐츠 자동 생성 및 게시

일반 소개 머니프린터 V2는 사용자가 자동화를 통해 온라인에서 돈을 벌 수 있도록 돕기 위해 후지와라초키가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 주로 트위터 자동화, 유튜브 짧은 동영상 생성 및 제휴 캠핑을 통합합니다.

1 년 전

0138.2K

RTranslator: 안드로이드용 실시간 음성 번역 앱, 무료 및 오프라인!

일반 소개 RTranslator는 안드로이드 기기용으로 설계된 사실상 오픈 소스인 무료 오프라인 실시간 번역 앱입니다. 사용자는 블루투스 헤드셋을 연결하여 휴대폰을 주머니에 넣고 다른 사람과 마치 자신의 언어로 말하는 것처럼 대화할 수 있습니다.RTransla...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

092.5K

제미니 넥스트 채팅: 클릭 한 번으로 비공개 멀티모달 제미니 앱을 무료로 배포하세요!

일반 소개 Gemini Next Chat은 사용자가 비공개 Gemini 애플리케이션을 쉽게 배포할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 Gemini 1.5 및 Gemini 2.0 멀티모달 모델을 지원하며, 사용자는 클릭 한 번으로 배포할 수 있습니다.

1 년 전

058.1K

AutoMouser：生成浏览器自动化代码，将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: AI를 통해 마우스 동작을 셀레늄 파이썬 스크립트로 변환하는 브라우저 자동화 코드 생성

일반 소개 AutoMouser는 사용자 상호작용을 지능적으로 추적하고 OpenAI의 GPT 모델을 사용하여 셀레늄 테스트 코드를 자동으로 생성하는 Chrome 확장 프로그램입니다. 사용자 브라우저 동작을 기록하고 이를 변환하여 이를 수행합니다.

1 년 전

058.4K

Vanna: RAG 기법을 사용하여 텍스트에서 정확한 SQL 쿼리 생성하기

포괄적인 소개 Vanna는 RAG(검색 증강 생성) 기술을 통해 SQL 쿼리를 생성하는 데 중점을 둔 MIT 라이선스 오픈 소스 Python 프레임워크입니다. 사용자는 RAG 모델을 학습하고 자신의 데이터에 적용한 다음 질문을 하면 Vanna가 적절한 답변을 반환합니다.

1 년 전

069.4K

SVFR: 비디오 얼굴 복구, 흑백, 흐릿한 인물 오래된 비디오 복구를 구현하기 위한 통합 프레임워크

종합 소개 SVFR(안정적인 비디오 얼굴 복원)은 비디오 얼굴 복원을 위한 통합 프레임워크로, 기본 얼굴 복원(BFR), 컬러링, 복구 및 이들의 조합 작업을 지원합니다. 이 프레임워크는 제너레이티브 및 키네마틱 프리오어를 통합하여 활용합니다.

1 년 전

060.6K

라이브토킹: 오픈 소스 실시간 대화형 디지털 휴먼 라이브 시스템으로 오디오 및 비디오 동기식 대화를 실현합니다.

포괄적 인 소개 라이브토킹은 오픈 소스 실시간 대화 형 디지털 휴먼 시스템으로 고품질 디지털 휴먼 라이브 솔루션을 구축하기 위해 최선을 다하고 있습니다. 이 프로젝트는 아파치 2.0 오픈 소스 프로토콜을 사용하며, ER-NeRF 렌더링, 실시간 오디오 및 비디오 스트리밍 처리 등 다양한 최첨단 기술과 통합되어 있습니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

1 년 전

0140.7K

Aider: 오픈 소스 프로그래밍 보조 도구, 코드 작성 및 파일 편집에 AI 어시스턴트 사용

일반 소개 Aider는 개발자가 자연어 대화를 통해 코드를 작성, 편집 및 리팩터링할 수 있도록 도와주는 강력한 오픈 소스 AI 프로그래밍 보조 도구입니다. 대화형 AI 쌍 프로그래밍 도구인 Aider는 여러 주요 프로그래밍 언어를 지원하며 Git에 원활하게 통합할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

080.4K

JoyGen: 오디오 기반 3D 깊이 인식 인물 토킹 비디오 편집 도구

종합 소개 JoyGen은 말하는 얼굴을 위한 혁신적인 2단계 비디오 생성 프레임워크로, 오디오 기반 표정 생성 문제를 해결하는 데 중점을 두고 있습니다. 징동 테크놀로지 팀이 개발한 이 프레임워크는 고급 3D 재구성 기술과 오디오 특징 추출 방법을 사용하여 화자의 신원 특성과 표정을 정확하게 포착합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

1 년 전

057.4K

VSR: AI 기술 무손실 동영상 워터마크 제거 및 하드 자막 소프트웨어(동영상 워터마크 제거 클라이언트 7G+)

종합 소개 비디오 자막 리무버(줄여서 VSR)는 동영상에서 하드 자막과 텍스트 워터마크를 제거하기 위해 특별히 설계된 AI 기술 기반의 동영상 처리 소프트웨어입니다. 이 도구는 다양한 AI 알고리즘 모델(STTN, L ...

1 년 전

0118.8K

TimesFM 2.0: 시계열 예측을 위해 사전 학습된 Google 오픈 소스 모델

일반 소개 TimesFM 2.0 - 500M PyTorch는 Google Research에서 개발한 사전 학습된 시계열 기본 모델로 시계열 예측을 위해 설계되었습니다. 이 모델은 최대 2048개의 시점을 위아래로 처리할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

076.2K

위챗 비디오 번호 다운로더: 위챗 비디오 번호 비디오를 빠르게 다운로드하고, 여러 형식과 플랫폼을 지원합니다.

종합 소개 WeChat 비디오 번호 다운로더는 사용자가 WeChat 비디오 번호에서 비디오 콘텐츠를 빠르게 다운로드할 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 다양한 동영상 형식과 플랫폼을 지원하며, 사용자는 Windows 및 macOS 시스템에서 쉽게 사용할 수 있습니다. 이 프로젝트는 ltaoo에 의해 개발되었으며 다음에서 호스팅됩니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

0111.2K

Riona-AI-Agent: 자동으로 검색, 좋아요, 댓글을 남기는 소셜 미디어 자동 대화형 인텔리전스

일반 소개 Riona-AI-Agent는 주요 소셜 미디어 플랫폼의 운영을 관리하고 최적화하기 위해 특별히 설계된 혁신적인 AI 기반 자동화 도구입니다. 이 프로젝트는 인스타그램, 트위터, 깃허브와 같은 플랫폼에 고급 AI 모델을 활용하여 다음과 같은 기능을 제공합니다.

1 년 전

0158.7K

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.

1 년 전

063.5K

'올웨이즈온' 딥시크 AI 어시스턴트: 딥시크-V3 기반의 지능형 음성 인터랙션 시스템 구축

개요 올웨이즈온 AI 어시스턴트는 딥시크-V3, 리얼타임STT, 타이퍼와 같은 고급 기술을 통합하여 강력한 영구 온라인 AI 비서 시스템을 구축하는 혁신적인 AI 비서 프로젝트입니다.

1 년 전

061K

STAR: 비디오 해상도 선명도 향상을 위한 공간 타이밍 향상 AI 모델

종합 소개 STAR(텍스트-비디오 모델을 사용한 공간-시간적 증강)는 난징대학교, 바이트댄스, 사우스웨스트대학교가 공동으로 개발한 혁신적인 비디오 초고해상도 프레임워크입니다...

1 년 전

061.4K

ImBD: AI 생성 콘텐츠 감지, 콘텐츠가 AI에 의해 생성되었는지 여부를 감지합니다.

종합 소개 ImBD(Imitate Before Detect)는 AAAI 2025 컨퍼런스에서 발표된 선구적인 기계 생성 텍스트 감지 프로젝트입니다. ChatGPT와 같은 대규모 언어 모델(LLM)이 광범위하게 사용됨에 따라 A...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

1 년 전

078.5K

Browser Use Web UI：运行AI智能体浏览网页，让AI能够自动操作网页的开源框架

브라우저 사용 웹 UI: 웹 탐색을 위해 AI 인텔리전스를 실행하기 위한 오픈 소스 프레임워크로, AI가 웹 페이지를 자동으로 조작할 수 있습니다.

일반 소개 브라우저 사용 웹 UI는 AI 에이전트에 그래픽 인터페이스 도구로서 브라우저 상호 작용 기능을 제공하는 데 중점을 둔 혁신적인 오픈 소스 프로젝트입니다. 이 프로젝트는 브라우저 사용 핵심 프레임워크 위에 구축된 Gradio를 기반으로 합니다.

10개월 전

083.4K

NVIDIA联合LangChain推出：分析编写结构化报告的高级指南,实现AI驱动的技术报告生成

NVIDIA, LangChain 출시: 분석을 위한 구조화된 보고서 작성을 위한 고급 가이드, AI 기반 기술 보고서 생성 지원

일반 소개 이 프로젝트는 랭체인과 엔비디아가 공동 개발한 구조화된 보고서 생성 청사진 프로젝트로, 깃허브의 주피터 노트북 튜토리얼에 소개되어 있습니다. 이 프로젝트는 고급 AI 기술, 특히 Llama-3.3-7...

1 년 전

059.1K

브라운챗: 오픈 소스 실시간 음성 채팅 AI 비서

일반 소개 브라운챗은 대규모 언어 모델링(LLM) 기술을 기반으로 한 실시간 오디오 채팅 애플리케이션입니다. 깃허브 사용자 sugarforever가 개발한 이 프로젝트는 고급 자연어 처리 기술을 통해 사용자의 커뮤니케이션 경험을 향상시키는 것을 목표로 합니다....

1 년 전

056.6K

레카: 코드 없이 AI 인텔리전스 및 AI 워크플로 구축 플랫폼 구축하기

포괄적인 소개 Lecca는 사용자가 여러 도구와 워크플로우를 사용하여 대규모 언어 모델(LLM)을 구성하고 배포할 수 있는 강력한 AI 플랫폼입니다. 사용자는 AI 에이전트를 쉽게 구축, 사용자 지정 및 자동화할 수 있으며, 다양한 AI 제공업체와 모델을 선택할 수 있습니다.

1 년 전

056.3K