AI 오픈 소스 프로젝트

총 1020개 문서

순서대로 정렬

크로이츠베르크: 모든 문서에서 텍스트를 추출하는 오픈 소스 도구

일반 소개 Kreuzberg는 PDF 파일에서 텍스트 추출을 간소화하기 위한 라이브러리로, 간단하고 번거로움 없는 텍스트 추출 솔루션을 제공하도록 설계되었습니다. 이 라이브러리는 특히 RAG(검색 증강 생성)에 적합합니다.

1 년 전

061.4K

훈위안비디오GP: 저사양 GPU 작동을 지원하는 하이브리드 동영상 생성 모델입니다.

일반 소개 훈위안비디오GP는 딥비프밉에서 개발한 대규모 비디오 생성 모델로, 저사양 GPU 사용자를 위해 설계되었습니다. 이 모델은 원래 Hunyuan Video 모델의 개선 버전으로 메모리 및 그래픽 메모리 요구 사항을 크게 줄였습니다.

1 년 전

057.8K

InspireMusic: Ali의 오픈 소스 통합 음악, 노래 및 오디오 생성 프레임워크

일반 소개 InspireMusic은 음악, 노래 및 오디오 생성에 중점을 둔 오픈 소스 PyTorch 기반 도구 키트입니다. 텍스트 단서, 음악 구조 및 음악 스타일에 대한 컨트롤을 통해 고품질 오디오를 생성하기 위한 통합 프레임워크를 제공합니다.Inspire...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음악

1 년 전

056K

쌍둥이자리 놀이터: 쌍둥이자리 멀티모달 대화 사이트의 서버리스 배포

일반 소개 제미니 플레이그라운드는 사용자가 멀티모달 대화 사이트를 빠르게 배포할 수 있도록 설계된 오픈소스 프로젝트입니다. 이 프로젝트는 기술 크롤링 새우에 의해 개발되었으며 10 초 만에 Gemini API 키 사용을 지원하여 배포를 완료합니다. 사용자가 ...

1 년 전

064.9K

wdoc: 방대한 다중 소스 문서에서 콘텐츠를 검색하고 지식을 요약하세요.

종합 소개 wdoc은 대량의 다양한 문서를 처리하고 분석하기 위해 설계된 강력한 RAG(검색 증강 생성) 시스템입니다. PDF, 웹 페이지, YouTube 동영상, 오디오 파일 등 다양한 문서 유형에서 검색할 수 있으며, 특히 다음과 같은 처리에 적합합니다.

1 년 전

052.2K

Magic 1-For-1: 高效生成视频的开源项目，号称在一分钟内生成一分钟的视频

Magic 1-For-1: 1분 안에 1분짜리 동영상을 생성한다고 주장하는 효율적인 동영상 오픈소스 프로젝트

종합 소개 Magic 1-For-1은 메모리 사용량을 최적화하고 추론 지연 시간을 줄이기 위해 설계된 효율적인 비디오 생성 모델입니다. 이 모델은 텍스트 대 비디오 생성 작업을 텍스트 대 이미지 생성 및 이미지 대 비디오 생성이라는 두 가지 하위 작업으로 분해하여 보다 효율적인 학습 및 증류 작업을 가능하게 합니다.

1 년 전

059.9K

DataLine: 신속한 차트 및 보고서 생성을 위한 AI 데이터 분석 및 시각화 클라이언트

일반 소개 DataLine은 사용자가 간단한 조작으로 다양한 데이터 소스와 상호 작용할 수 있도록 설계된 강력한 AI 데이터 분석 및 시각화 도구입니다. CSV 파일이든 Postgres, MySQL, Snowflake, SQL과 같은 주류 데이터베이스든 상관없이...

1 년 전

052.4K

핀로봇: 금융 데이터 분석 효율성과 투자 리서치를 개선하는 지능형 기관

종합 소개 FinRobot은 AI4Finance Foundation에서 개발한 오픈 소스 AI 인텔리전스 플랫폼으로, 금융 분석을 위해 설계되었습니다. 전통적인 언어 모델뿐만 아니라 다양한 AI 기술을 통합하여 금융 산업을 위한 포괄적인 솔루션을 제공하는 것을 목표로 합니다.F....

1 년 전

072K

Simba: 문서 정리를 위한 지식 관리 시스템으로, 모든 RAG 시스템에 원활하게 통합됩니다.

일반 소개 Simba는 모든 검색 증강 생성(RAG) 시스템과 원활하게 통합되도록 설계된 휴대용 지식 관리 시스템(KMS)입니다. GitHub 사용자 GitHamza0206이 만든 이 프로젝트는 다양한 분야에 효율적인 지식 관리 솔루션을 제공합니다.

1 년 전

060K

로컬 다중 소스 PDF 문서 Q&A를 지원하는 지능형 채팅 도구: LocalPdfChatRAG

일반 소개 로컬 PDF 문서와 검색 증강 생성(RAG) 모델을 결합하여 지능형 채팅 기능을 구현하는 것을 목표로 하는 오픈 소스 프로젝트인 LocalPdfChatRAG입니다. 이 프로젝트를 통해 사용자는 PDF 문서를 업로드하고 자연어를 통해 질문하여 문서에서 관련 정보를 얻을 수 있습니다.

1 년 전

051.8K

심층 검색기: 기업 비공개 문서의 효율적인 검색 및 지능형 Q&A

일반 설명 딥 서처는 개인 데이터를 기반으로 검색, 평가 및 추론하도록 설계된 강력한 빅 언어 모델(예: DeepSeek 및 OpenAI)과 벡터 데이터베이스(예: Milvus)를 결합하여 매우 정확한 답변을 제공하는 도구입니다....

1 년 전

054.6K

Flashcard：基于Dify构建的单词闪卡外语学习工具，替代多邻国（Duolingo）

플래시카드: 듀오링고를 대체하는 Dify 기반의 단어 플래시카드 외국어 학습 도구입니다.

일반 소개 플래시카드는 듀오링고의 대안을 제공하기 위해 설계된 오픈 소스 언어 학습 도구입니다. Steven Lynn(깃허브 사용자명: stvlynn)이 개발한 이 프로젝트는 최신 사용자 인터페이스와 다국어...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

1 년 전

061.6K

라인아바타: 노션 스타일의 라인 아바타를 생성하는 무료 도구

일반 설명 라인아바타는 노션 스타일의 라인 아바타를 생성하기 위해 고안된 사용하기 쉬운 무료 온라인 도구입니다. 사용자는 사진을 업로드하거나 웹캠을 통해 사진을 찍으면 시스템이 AI를 사용해 자동으로 라인 아바타를 생성합니다. 이 도구는...

1 년 전

048.2K

Goku: 세밀하고 일관된 동영상을 생성하여 캐릭터와 사물이 세밀하게 묘사된 광고 제작에 이상적입니다.

종합 소개 Goku는 업계 최고 수준의 성능을 달성하도록 설계된 스트림 변환 기술을 기반으로 한 연합 이미지 및 동영상 생성 모델입니다. 세분화된 데이터 대조, 모델 디자인, 스트림 변환 공식화 등 고급 고품질 시각적 생성 기술을 통합하고 있으며, Goku의 주요 기능으로는 고품질의 세분화된...

1 년 전

051.1K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini 커서: 보고, 듣고, 말할 수 있는 Gemini 기반의 AI 데스크톱 스마트 비서

일반 소개 Gemini Cursor는 Google의 Gemini 2.0 플래시(실험용) 모델을 기반으로 하는 데스크톱 지능형 어시스턴트입니다. 멀티모달 API를 통해 시각, 청각 및 음성 상호 작용을 지원하여 지연 시간이 짧은 실시간 사용...

1 년 전

064.2K

데이터 포뮬레이터: AI 기반 데이터 시각화 도구

일반 소개 데이터 포뮬레이터는 Microsoft Research에서 개발한 오픈 소스 AI 기반 데이터 시각화 도구입니다. 이 도구는 그래픽 사용자 인터페이스(GUI)와 자연어 입력(NL)을 결합하여 사용자가 간단한 상호 작용과 명령을 통해 빠르게 만들고 반복할 수 있게 해 줍니다.

1 년 전

066.1K

Ai2 OLMoE: 오프라인에서 실행되는 OLMoE 모델 기반의 오픈 소스 iOS AI 앱

일반 소개 Ai2 OLMoE는 앨런 인공지능 연구소(Ai2, Allen Institute for AI)에서 기기에서만 실행되는 인공지능 모델을 제공하기 위해 개발한 오픈 소스 iOS 앱입니다. 이 앱은 Ai2의 오픈 소스 OLMoE를 활용합니다.

1 년 전

063.8K

Meetily: 회의록을 생성하고, 실시간으로 회의 내용을 기록하고, 회의 요약을 생성하는 AI 비서

일반 설명 Meetily는 실시간으로 회의 오디오를 캡처하고 음성 녹취를 수행하며 회의 요약을 생성하는 Zackriya Solutions에서 개발한 AI 기반 회의 도우미입니다. 모든 처리가 장치에서 로컬로 수행되어 사용자 개인 정보를 보호한다는 점에서 독특합니다.

1 년 전

0136.2K

DeepSeek-VL2: 고급 멀티모달 이해를 위한 전문 시각 언어 모델

종합 소개 DeepSeek-VL2는 이전 모델인 DeepSeek-VL의 성능을 크게 개선한 고급 MoE(전문가 혼합) 시각 언어 모델 시리즈입니다. 이 모델은 시각적 질의응답, 광학 문자 인식, 텍스트 ...

1 년 전

077.5K

Zonos: 고품질 음성 합성 및 음성 복제 도구

일반 소개 Zonos는 Zyphra에서 개발한 오픈 소스 음성 합성 및 음성 복제 도구로, Zonos-v0.1 버전은 고급 트랜스포머 및 블렌딩 모델을 사용하여 고품질 음성 출력을 생성합니다. 이 도구는 여러 언어를 지원합니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음성 복제

1 년 전

067.4K

ChatGPT 박스: 다른 웹 페이지에서 ChatGPT를 작동시키는 브라우저 플러그인

일반 소개 ChatGPT Box는 ChatGPT를 사용자의 브라우저에 긴밀하게 통합하도록 설계된 오픈 소스 브라우저 확장 프로그램입니다. josStorer에서 개발한 이 도구는 여러 언어를 지원하며 모든 페이지에서 채팅 쌍을 호출하는 등 다양한 기능을 제공합니다.

12개월 전

056.7K

小半 WordPress AI 助手：实现对话、文章生成与翻译的 WordPress AI助手插件

리틀 하프 워드프레스 AI 어시스턴트: 대화, 포스트 생성 및 번역을 위한 워드프레스 AI 어시스턴트 플러그인

종합 소개 워드프레스 AI 어시스턴트 플러그인(wp-ai-chat)은 AI 대화, 글 생성, 글 요약, 글 번역, 콘텐츠 읽기 등 다양한 AI 기능을 사용자에게 제공하도록 설계된 오픈 소스 워드프레스 플러그인입니다. 플러그인은 여러 개의 도킹을 지원합니다 ...

최신 AI 리소스 # AI 쓰기 # AI 자바 오픈 소스 프로젝트

1 년 전

056K

Promptfoo: 안전하고 신뢰할 수 있는 LLM 애플리케이션 테스트 도구 제공

개요 프롬프트푸는 대규모 언어 모델(LLM) 애플리케이션의 평가 및 레드팀 테스트 전용 오픈 소스 명령줄 도구이자 라이브러리입니다. 개발자에게 신뢰할 수 있는 프롬프트, 모델 및 검색 기반 생성(RAG)을 자체적으로 구축하기 위한 완벽한 도구 세트를 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

070.4K

NoneBot DeepSeek 插件：基于 NoneBot&DeepSeek 实现客服智能对话

NoneBot DeepSeek 플러그인: NoneBot 및 DeepSeek 기반의 고객 서비스를 위한 지능형 대화.

일반 소개 NoneBot DeepSeek 플러그인은 DeepSeek 모델을 통합하는 NoneBot 플러그인으로 지능형 대화 및 Q&A 기능을 제공하도록 설계되었습니다. 사용자는 DeepSeek 모델에 액세스하여 NoneBot을 사용할 수 있습니다.

1 년 전

056.1K

솔라나 에이전트 키트: AI 인텔리전스를 솔라나 프로토콜에 연결하기 위한 오픈 소스 툴킷

일반 소개 솔라나 에이전트 키트는 AI 지능을 솔라나 블록체인 프로토콜에 원활하게 연결하도록 설계된 오픈 소스 툴킷입니다. 이 키트를 사용하면 AI 연구자와 암호화폐 개발자 모두 모델 훈련을 받은 지능형 기관을 사용하여 다음을 실행할 수 있습니다.

1 년 전

051.3K

리버소노라: 오디오북 자막 추출 및 다국어 번역, 여러 언어로 오디오북 전사

종합 소개 "자유로운 소리"라는 뜻의 LiberSonora는 강력한 AI 지원 오픈 소스 오디오북 툴셋입니다. 지능형 자막 추출, AI 타이틀 생성, 다국어 번역 등을 지원하며 GPU 가속을 통해 오프라인에서 일괄 처리가 가능합니다.

1 년 전

053.2K

go-stock: AI 지원 주식 분석 도구, 자체 선택한 주식 시세 실시간 모니터링 및 AI 기반 심층 분석

종합 소개 고스탁은 Wails와 NaiveUI를 기반으로 구축된 AI 기반 주식 분석 도구입니다. 이 도구는 주식 시세를 실시간으로 모니터링하고 비용 및 손익 표시와 상승/하락 알람 푸시 기능을 제공합니다. 모든 데이터는 로컬에 저장되어 사용자가 ...

1 년 전

089.2K

RSS 번역기: RSS 콘텐츠를 실시간으로 구독하고 번역할 수 있는 도구입니다.

일반 소개 RSS 번역기는 사용자가 실시간으로 RSS 콘텐츠를 번역하고 구독할 수 있도록 설계된 깔끔하고 자체 배포가 가능한 오픈 소스 도구입니다. 이 도구는 구글 번역, 마이크로소프트 트래 등 여러 번역 엔진을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

060.3K

KTransformers: 대규모 모델 추론 성능 엔진: 극한의 가속, 유연한 역량 강화

KTransformers: 대규모 모델 추론의 병목 현상을 해결하기 위한 고성능 Python 프레임워크입니다. 단순한 모델 실행 도구 그 이상이며, 극한의 성능 최적화 엔진과 유연한 인터페이스 강화 플랫폼입니다. KTransf...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

074.2K

VideoRAG: 멀티모달 검색 및 지식 그래프 구성을 지원하여 매우 긴 동영상을 이해하기 위한 RAG 프레임워크입니다.

포괄적인 소개 VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하도록 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 효율적으로 처리합니다....

1 년 전

064.6K

티파-딥섹스-14b-CoT: 롤플레잉 및 초장편 소설 생성에 특화된 대형 모델

포괄적인 소개 Tifa-Deepsex-14b-CoT는 역할극, 가상의 텍스트 생성 및 생각의 사슬(CoT) 푸시에 중점을 둔 Deepseek-R1-14B 기반의 딥 최적화 매크로 모델입니다....

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 역할극

1 년 전

0127.2K

인스트럭터: 대규모 언어 모델을 위한 구조화된 출력 워크플로우를 간소화하는 Python 라이브러리

일반 소개 인스트럭터는 대규모 언어 모델(LLM)의 구조화된 출력을 처리하기 위해 설계된 인기 있는 Python 라이브러리입니다. Pydantic을 기반으로 구축되어 데이터 관리를 위한 간단하고 투명하며 사용자 친화적인 API를 제공합니다....

1 년 전

054.7K

MedRAX: 멀티모달 매크로 모델을 사용한 흉부 방사선 사진 분석용 지능형 바디

포괄적인 소개 MedRAX는 흉부 엑스레이(CXR) 분석을 위해 설계된 최첨단 AI 인텔리전스입니다. 최첨단 CXR 분석 도구와 멀티모달 대규모 언어 모델을 통합하여 추가 교육 없이 복잡한 의료 쿼리를 동적으로 처리하며, 모듈식 설계를 통해 MedRAX는 ...

1 년 전

066.6K

LangBot：开源大模型即时通信机器人，支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: 오픈 소스 대형 모델 인스턴트 메시징 로봇, 여러 WeChat, QQ, Flybook 및 기타 멀티 플랫폼 배포를 지원하는 AI 로봇.

LangBot은 여러 메시징 플랫폼과 대형 모델을 지원하는 대형 모델 기반 인스턴트 메시징 봇 플랫폼입니다. 이 플랫폼은 QQ, 위챗(기업용 위챗, 개인용 위챗), 플라이북, 디스코드, 원봇 및 기타 메시징 플랫폼에 맞게 조정되며, 오픈...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

069.4K

zChunk: Llama-70B를 기반으로 하는 일반적인 시맨틱 청크 전략

종합 소개 zChunk는 제로엔트로피에서 개발한 새로운 청킹 전략으로, 일반적인 의미론적 청킹을 위한 솔루션을 제공하는 것을 목표로 합니다. 이 전략은 청크 생성을 유도하여 문서의 청크 프로세스를 최적화하고 정보 검색을 높은 수준으로 유지하도록 보장하는 Llama-70B 모델을 기반으로 합니다.

1 년 전

050.2K

히비키: 실시간 음성 번역 모델, 원 음성의 특성을 보존하는 스트리밍 번역

일반 소개 히비키는 규타이 랩에서 개발한 고충실도 실시간 음성 번역 모델입니다. 기존의 오프라인 번역기와 달리 Hibiki는 사용자가 말하는 동안 실시간으로 대상 언어로 자연스러운 음성 번역을 생성할 수 있을 뿐만 아니라 텍스트 번역도 제공합니다. 모델...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

066K

Qwen4Mac: Mac 메뉴 표시줄에서 언제든 대화할 수 있는 Qwen의 대형 모델을 사용하세요!

일반 소개 Qwen4Mac은 사용자가 언제든지 쉽게 호출하여 사용할 수 있도록 Qwen LLM(대형 언어 모델)을 Mac의 메뉴 모음에 통합하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 andreaturchet에서 개발 및 유지 관리하며 사용자가 쉽게 사용할 수 있는 방법을 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

054.4K

口袋AI：手机中运行的离线AI助手，适配 DeepSeek-R1 (5.37GB)

Pocket AI: 휴대폰에서 실행되는 오프라인 AI 도우미로, DeepSeek-R1(5.37GB)에 맞게 조정되었습니다.

일반 소개 Pocket AI(PocketPal AI 중국어 버전)는 사용자가 언제 어디서나 AI와 대화할 수 있도록 설계된 강력한 오프라인 AI 어시스턴트입니다. 소언어 모델(SLM)을 기반으로 하며 인터넷 연결 없이 휴대폰에서 실행되며 특히 중국 사용자 경험에 맞게 조정되었습니다. 입...

1 년 전

0121.3K

Kokoro WebGPU: 브라우저에서 오프라인 작업을 위한 텍스트 음성 변환 서비스

일반 소개 코코로 웹GPU는 웹ML 커뮤니티에서 허깅 페이스 플랫폼에서 제공하는 코코로 텍스트 음성 변환(TTS) 모델의 웹GPU 버전입니다. 이 프로젝트는 WebGPU 기술을 활용하여 사용자가 다음을 수행할 수 있도록 합니다.

1 년 전

078.6K

OpenHealthForAll：个人健康数据管理AI助手，上传检查报告定制健康计划

개인 건강 데이터 관리를 위한 AI 비서, 맞춤형 건강 플랜을 위한 검사 보고서 업로드: OpenHealthForAll

일반 소개 오픈헬스포올은 사용자가 자신의 개인 건강 데이터를 관리하고 이해할 수 있도록 설계된 오픈소스 프로젝트입니다. 인공 지능 기술을 활용하여 사용자가 더 잘 관리할 수 있도록 로컬에서 실행되는 건강 도우미를 제공합니다.

1 년 전

056.1K

오픈 파일럿: 오픈 소스 자율 주행 시스템, 나만의 차량용 지능형 주행 시스템 세트를 직접 제작하세요.

일반 소개 오픈파일럿은 첨단 운전자 지원 기능으로 기존 차량의 주행 경험과 안전을 향상시키기 위해 comma.ai에서 개발한 오픈 소스 자율 주행 시스템입니다. 2016년에 처음 출시된 이후 OpenPilot은 2...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

079.7K

Agentic Security：开源的LLM漏洞扫描工具，提供全面的模糊测试和攻击技术

에이전틱 보안: 포괄적인 퍼즈 테스트 및 공격 기법을 제공하는 오픈 소스 LLM 취약점 스캔 도구

일반 소개 에이전트 보안은 개발자와 보안 전문가에게 포괄적인 퍼즈 테스트 및 공격 기술을 제공하도록 설계된 오픈 소스 LLM(대규모 언어 모델) 취약점 스캔 도구입니다. 이 도구는 사용자 지정 규칙 세트 또는 에이전트 기반 공격을 지원하며 LLM AP를 통합할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # 프롬프트 탈옥

1 년 전

060.6K

CogVLM2: 비디오 이해와 여러 차례의 대화를 지원하는 오픈 소스 멀티모달 모델

종합 소개 CogVLM2는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 멀티모달 모델로, Llama3-8B 아키텍처를 기반으로 하며 GPT-4V와 비슷하거나 더 나은 성능을 제공하는 것을 목표로 합니다. 이 모델은 이미지 이해, 다원 대화, 시각적 ...

1 년 전

063K

VisoMaster: 강력하고 사용하기 쉬운 사진/동영상 얼굴 보정 및 편집 소프트웨어

일반 소개 VisoMaster는 강력하고 사용하기 쉬운 동영상 얼굴 교체 및 편집 도구로, 인공 지능 기술을 사용해 자연스럽고 사실적인 얼굴 교체 효과를 얻을 수 있습니다. 이미지든 동영상이든, VisoMaster는 간단한 조작으로 고품질의 얼굴 교체 결과를 생성할 수 있으며, 일반적인 작업에 적합합니다.

1 년 전

0170.9K

RAG 기반 건강 조언을 제공하는 미니 도우미 구축(시범 프로젝트)

일반 소개 LLM-RAG-Longevity-Coach는 사용자에게 개인화된 건강 및 장수 관련 조언을 제공하도록 설계된 대규모 언어 모델링(LLM) 및 검색 증강 생성(RAG) 기술을 기반으로 하는 챗봇입니다. 이 프로젝트는 타일러 벌레가 개발했습니다...

1 년 전

048.9K

Maestro: 주류 오픈 소스 비주얼 언어의 모델을 미세 조정하는 프로세스를 간소화하는 도구

종합 소개 Maestro는 Roboflow에서 멀티모달 모델을 미세 조정하는 과정을 단순화하고 가속화하여 누구나 자신만의 시각적 매크로 모델을 훈련할 수 있도록 개발한 도구입니다. 이 도구는 F와 같이 널리 사용되는 시각 언어 모델(VLM)을 미세 조정하기 위한 기성 레시피를 제공합니다.

1 년 전

060.1K

원 프롬프트-원 스토리: 텍스트 프롬프트가 캐릭터 아이덴티티 일관된 이미지를 생성합니다.

합성 원 프롬프트-원 스토리(1Prompt1Story)는 단일 프롬프트에서 일관된 이미지를 생성할 수 있도록 설계된 혁신적인 텍스트-이미지 생성 툴입니다. 이 도구는 ICLR 2025에서 Tao Liu 등이 발표했습니다.

1 년 전

052.7K

Next.js 애플리케이션에 RAG 기반 온라인 채팅 도구 추가하기

포괄적인 소개 Upstash RAG 채팅 컴포넌트는 RAG(검색 증강 생성) 기술을 기반으로 AI 채팅 인터페이스를 제공하기 위해 Next.js 앱용으로 설계된 React 컴포넌트입니다. 이 컴포넌트는 Upstash V...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

049K

AudioNotes: 오디오 및 비디오 콘텐츠를 빠르게 추출하고 구조화된 노트를 생성하세요.

종합 소개 AudioNotes는 FunASR과 Qwen2를 기반으로 구축된 오디오/비디오-구조화된 노트 시스템입니다. 오디오/비디오 콘텐츠를 빠르게 추출하고 빅 모델을 호출하여 구조화된 마크다운 노트를 생성할 수 있어 다음과 같은 경우에 편리합니다.

1 년 전

056.2K

Bilingual Book Maker：使用AI翻译制作双语电子书，全书自动化翻译工具

이중 언어 북 메이커: AI 번역을 사용하여 이중 언어 전자책, 전체 책 자동 번역 도구를 만들 수 있습니다.

일반 소개 이중 언어 북 메이커는 사용자가 AI 기술을 사용하여 다국어 버전의 전자책을 만들 수 있도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 주로 번역을 위해 ChatGPT를 사용하며 epub, txt 및 srt를 포함한 여러 파일 형식을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

064.4K

행 채우기: 문서에서 구조화된 정보 일괄 추출 및 자동 분석

일반 소개 Rowfill은 지식 근로자를 위해 설계된 오픈 소스 문서 처리 플랫폼입니다. 고급 인공 지능 기술을 사용하여 복잡한 문서, 이미지 및 PDF에서 데이터를 추출, 분석 및 처리하며, Rowfill은 네이티브 LLM(대규모 언어 모델)과 Ope...

1 년 전

053.5K

PRAG: Q&A 시스템의 성능 향상을 위한 파라메트릭 검색 증강 생성 도구

포괄적인 소개 PRAG(Parametric Retrieval-Augmented Generation)는 대규모 언어 모델(LLM)의 파라미터 공간에 직접 포함시켜 외부 지식의 생성을 향상시키는 것을 목표로 하는 혁신적인 검색 증강 생성 도구입니다....

1 년 전

060.3K

GPT 연구원: 로컬 및 웹 기반 데이터를 사용하여 포괄적이고 상세한 연구 보고서 생성

종합 소개 GPT Researcher는 로컬 및 웹 리서치를 수행하고 상세한 리서치 보고서를 생성하도록 설계된 LLM(대규모 언어 모델) 기반의 자율 에이전트 도구입니다. 이 도구는 에이전트 작업을 병렬화하여 안정적인 성능과 빠른 속도를 제공하고 정확한 정보를 보장합니다.

1 년 전

050.5K

Linly-Talker：数字人智能对话系统，结合大语言模型与视觉模型，实现互动新体验

Linly-Talker: 새로운 대화형 경험을 위해 빅 언어 모델과 시각 모델을 결합한 디지털 사용자를 위한 지능형 대화 시스템

일반 소개 린리토커는 대규모 언어 모델(LLM)과 시각 모델을 결합하여 인간과 컴퓨터의 상호작용에 대한 새로운 접근 방식을 만들어내는 혁신적인 디지털 인간 대화 시스템입니다. 이 시스템은 위스퍼, 린리, 마이크로와 같은 다양한 기술을 통합합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

1 년 전

088.4K

Airweave: 앱이 지능형 검색을 위해 지식 베이스를 빠르게 통합할 수 있도록 지원

일반 소개 Airweave는 사용자의 애플리케이션 데이터, API, 데이터베이스, 웹사이트를 그래프 및 벡터 데이터베이스에 동기화하여 모든 애플리케이션을 검색할 수 있도록 설계된 오픈 소스 도구로, 구조화된 데이터든...데이터 검색이 가능한 데이터로 만드는 프로세스를 간소화합니다.

1 년 전

052.2K

ai-gradio: Gradio를 기반으로 여러 AI 모델을 쉽게 통합하고 멀티모달 애플리케이션을 구축하세요.

일반 소개 ai-gradio는 개발자가 여러 AI 모델을 쉽게 통합하고 사용할 수 있도록 설계된 오픈 소스 Python 툴킷입니다. Gradio를 기반으로 구축된 이 프로젝트는 여러 AI 모델과 서비스를 지원하기 위한 통합 인터페이스를 제공합니다. 텍스트, 음성, 동영상 등 어떤 데이터든...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

054.8K

OpenDeepResearcher: 완벽한 연구 보고서 작성을 위한 자동화된 심층 연구 도구

일반 소개 오픈딥리서처는 인공지능 기술을 통해 연구 효율성을 향상시키기 위해 설계된 오픈소스 자동 심층 연구 도구입니다. 이 프로젝트는 mshumer에 의해 개발되었으며 GitHub에서 호스팅됩니다.OpenDeepResear...

1 년 전

055.3K

ColiVara: 시각적 임베딩 기반 문서 저장 및 검색 서비스

콜비바라는 시각적 임베딩 기술을 기반으로 한 문서 저장 및 검색 서비스입니다. 광학 문자 인식(OCR)이나 텍스트 추출이 필요 없고, 양식이 깨지거나 이미지가 손실되는 문제를 방지하며, PDF를 포함한 100개 이상의 파일 형식을 지원합니다....

1 년 전

059.1K

Cursor Reset：重置 Cursor 0.45.x 以上版本设备标识的脚本

커서 재설정: 커서 버전 0.45.x 이상에서 디바이스 식별자를 재설정하는 스크립트입니다.

일반 설명 커서 재설정은 커서 IDE에서 장치 식별자를 재설정하기 위한 PowerShell 스크립팅 도구로, 커서 버전 0.45.x를 지원합니다. 이 도구는 사용자가 Cursor IDE에서 장치 식별자를 재설정하는 데 도움이 되도록 설계되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

098.6K

n8n 자체 호스팅 AI 스타터 키트: 로컬 AI 환경을 빠르게 구축하기 위한 오픈 소스 템플릿

포괄적인 소개 n8n 셀프 호스팅 AI 스타터 키트는 포괄적인 로컬 AI 및 로우코드 개발 환경을 빠르게 초기화하도록 설계된 오픈 소스 Docker Compose 템플릿입니다. n8n 팀에서 제작한 이 제품군은 자체 호스팅 n8n 플랫폼과 다양한 호환 가능한 AI를 결합합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

088K

쌍둥이자리 선생님: 영어 말하기 발음 교정 도우미

일반 소개 제미니 선생님은 구글 제미니 AI를 기반으로 한 영어 말하기 연습 도우미입니다. 사용자의 영어 발음을 실시간으로 인식하고 즉각적인 피드백과 교정 제안을 제공합니다. 이 도구는 사용자가 다음을 통해 영어 말하기 능력을 향상시킬 수 있도록 설계되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

1 년 전

071.8K

bilive: B 스테이션을 위한 비감독 라이브 녹화 및 자동 슬라이싱, 업로드 도구

종합 소개 bilive는 B 방송국 라이브 녹화를 위해 설계된 도구로, 매우 빠른 라이브 녹화, 자동 슬라이싱, 팝업 렌더링 및 자막 생성을 제공합니다. 이 도구는 초저사양 머신과 호환되며, 7x24시간 무인 녹화를 지원하고, 팝업과 자막을 자동으로 식별하고 렌더링하며, 자동으로 슬라이싱하고...

1 년 전

080.9K

R1-V: 시각 언어 모델의 일반화 기능을 위한 저비용 강화 학습

종합 소개 R1-V는 저비용 강화 학습(RL)을 통해 시각 언어 모델링(VLM)의 획기적인 발전을 목표로 하는 오픈 소스 프로젝트입니다. 이 프로젝트는 검증 가능한 보상 메커니즘을 활용하여 VLM이 일반적인 수 세기 능력을 학습하도록 동기를 부여합니다. 놀랍게도, R1-V의 2B는 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

063.1K

PPTX2MD: PPTX 파일을 마크다운으로 변환하는 특수 도구

일반 소개 PPTX2MD는 파워포인트 PPTX 파일을 마크다운 형식으로 변환하도록 설계된 오픈 소스 도구입니다. GitHub 사용자 ssine이 개발한 이 도구는 제목, 목록, 텍스트 서식(예: 굵게, 이탤릭체, 색상 및 슈퍼 ...

1 년 전

077.1K

DSPy 예제: DSPy 기능을 보여주는 실제 예제

일반 소개 DSPy 예제 코드베이스는 Langtrace AI 팀에서 관리하는 GitHub 코드베이스로, DSPy를 사용하여 구축된 다양한 예제 AI 프로그램을 보여줍니다. 이 코드베이스는 개발자의 이해를 돕기 위해 실제 예제를 통해 DSPy의 다양한 기능을 시연하도록 설계되었습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

053.3K

Go-Proxy: Docker 통합을 위한 고성능 리버스 프록시 서버

종합 소개 Go-Proxy는 Go 언어를 사용하여 개발된 고성능 프록시 서버로, 주로 다양한 네트워크 환경에서 프록시 서비스를 제공하는 데 사용됩니다. HTTP, HTTPS, SOCKS5, WebSocket, TCP 및 UDP를 포함한 다양한 프로토콜을 지원하며 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

054.5K

CoT-Lab: 인간과 컴퓨터의 협업에 대한 반복적 사고를 탐구하기 위한 실험적 대화 도구

CoT-Lab은 인간과 컴퓨터 협업의 새로운 패러다임을 탐구하기 위한 실험적 인터페이스입니다. 인지 부하 이론과 능동적 학습 원리를 기반으로 하는 CoT-Lab은 '생각하는 파트너' 관계를 구축하여 인간과 인공지능(AI) 간의 심층적인 인지적 조율을 촉진합니다. 이 프로젝트의 목표는 다음과 같습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

045.9K

브라우저 확장 기능으로 딥서치 공식 채팅 인터페이스가 인라인 렌더링 차트를 지원할 수 있게 되었습니다.

일반 설명 딥시크 다이어그램 확장 프로그램은 사용자가 딥시크 웹사이트에서 다이어그램을 인라인으로 렌더링할 수 있도록 설계된 Chrome 확장 프로그램입니다. 이 확장 프로그램은 Mermaid...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

0213K

Orate: 잘 알려진 음성 생성, 음성 전사 및 음성 모델링을 통합하기 위한 통합 API

일반 소개 Orate는 음성 생성 및 트랜스크립션에 중점을 둔 AI 툴킷입니다. OpenAI, ElevenLabs, AssemblyAI와 같은 주요 AI 제공업체와 원활하게 통합되는 통합 API를 제공하여 사용자가 강제...

1 년 전

063.5K

Reflex LLM 예시: 대규모 언어 모델의 실제 적용을 보여주는 AI 애플리케이션 모음입니다.

일반 소개 Reflex LLM 예제는 대규모 언어 모델(LLM)의 실제 적용 사례를 보여주기 위해 Reflex 개발팀에서 만든 오픈 소스 프로젝트입니다. 이 프로젝트는 Reflex를 기반으로 구축된 여러 AI 애플리케이션을 한데 모아 Google의 애플리케이션을 선보입니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

051.5K

DeepClaude：融合DeepSeek R1链式推理与Claude创造力的聊天界面

딥클라우드: 딥시크 R1 체인 추론과 클로드 크리에이티브를 융합한 채팅 인터페이스

종합 소개 DeepClaude는 DeepSeek R1의 연쇄 추론(CoT) 기능과 Anthropic Claude 모델의 창의성 및 코드 생성을 통합한 고성능 LLM(대규모 언어 모델) 추론 API 및 채팅 인터페이스입니다....

1 년 전

060.6K

BEN2: 이미지, 동영상에서 빠른 배경 제거를 위한 딥러닝 모델

종합 소개 BEN2(Background Erase Network 2)는 이미지에서 배경을 자동으로 제거하고 전경 이미지를 생성하도록 특별히 설계된 Prama LLC에서 개발한 딥러닝 모델입니다. 이 모델은 혁신적인 Confiden...

10개월 전

073.1K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI 웹 오퍼레이터: 브라우저 자동화, OpenAI 오퍼레이터의 오픈 소스 구현

일반 소개 AI 웹 오퍼레이터는 여러 AI 기술과 SDK를 통합하여 브라우저에서 사용자 경험을 간소화하도록 설계된 오픈 소스 AI 브라우저 오퍼레이터 도구입니다. 이 도구는 브라우저베이스와 버셀을 기반으로 합니다.

1 년 전

055.4K

Exa & Deepseek Chat App：实时Web搜索与智能推理的开源聊天应用

Exa & Deepseek 채팅 앱: 실시간 웹 검색 및 지능형 추론을 위한 오픈 소스 채팅 앱

종합 소개 Exa & Deepseek 채팅 앱은 오픈 소스 스마트 채팅 앱으로, 주요 기능으로는 Exa의 API를 사용한 실시간 웹 검색과 지능형 딥시크 R1 언어 모델을 사용하는 것이 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 검색 도구

1 년 전

058.9K

LLM API 엔진: 자연어를 통한 신속한 API 생성 및 배포

일반 소개 LLM API 엔진은 개발자가 AI 기반 API를 신속하게 구축하고 배포할 수 있도록 설계된 오픈 소스 프로젝트로, 대규모 언어 모델(LLM)과 지능형 웹 크롤링 기술을 활용하여 사용자가 자연어 설명을 통해 사용자 지정 API를 만들 수 있도록 합니다.주요 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

057K

PengChengStarling：对比Whisper-Large v3更小、更快的多语言语音转文字工具

펭청스타링: 위스퍼-Large v3보다 더 작고 빠른 다국어 음성-텍스트 변환 도구

종합 소개 펭청스타링(PengChengStarling, 펭청랩스)은 다양한 언어의 음성을 해당 텍스트로 변환할 수 있는 다국어 자동 음성 인식(ASR) 툴입니다. 이 툴킷은 아이스폴 프로젝트를 기반으로 개발되었으며 완전한 음성 인식 프로세스를 제공합니다...

1 년 전

058.6K

Doc2XAPITranslate：文档全文翻译：快速将英文PDF/MD论文翻译为中文文档

Doc2XAPITranslate: 문서의 전체 텍스트 번역: 영어 PDF/MD 문서를 중국어 문서로 빠르게 번역합니다.

종합 소개 Doc2XAPITranslate는 영어 PDF 또는 마크다운 문서를 중국어 문서로 빠르게 번역할 수 있도록 설계된 강력한 전체 텍스트 문서 번역 도구입니다. 이 도구는 DeepSeek, OpenAI, O ... 등 다양한 번역기를 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 번역

1 년 전

052K

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

SpeechGPT 2.0-프리뷰는 수백만 시간의 음성 데이터를 기반으로 학습된 OpenMOSS의 첫 번째 의인화 실시간 대화 시스템입니다. 이 시스템은 의인화된 음성 표현과 100ms의 짧은 지연 응답으로 자연스럽고 부드러운 실시간 인터랙션을 지원합니다.

1 년 전

053.1K

Goose: 전체 프로세스 프로그래밍 작업을 자동화하는 확장 가능한 오픈 소스 프로그래밍 인텔리전스

일반 소개 Goose는 개발자가 일상적인 개발 작업을 자동화할 수 있도록 설계된 블록에서 개발한 오픈 소스 AI 에이전트 도구입니다. 광범위한 LLM(대규모 언어 모델)을 지원하며 명령줄 또는 데스크톱 애플리케이션 인터페이스를 통해 사용자와 상호 작용하며, 에이전트에서 다양한 작업을 수행할 수 있습니다.

1 년 전

083.1K

Fullmoon: 대규모 언어 모델 채팅을 위한 iOS 앱

일반 설명 풀문은 iOS 기기용으로 설계된 앱으로, 원어민 모델과 비공개로 대화할 수 있는 기능을 제공하는 것을 목표로 합니다. 이 앱은 Apple 실리콘에 최적화되어 있으며 iPhone, iPad 및 Mac에서 지원됩니다. 채팅 사용자...

1 년 전

063.5K

Onlook: 프런트엔드 디자인을 위한 오픈 소스 커서, React 애플리케이션에서 코드를 디자인하고 게시하세요.

일반 소개 Onlook은 디자이너와 개발자를 위해 만들어진 오픈 소스 디자인 도구로, 사용자가 실행 중인 React 애플리케이션에서 직접 디자인하고 디자인 변경 사항을 코드로 변환할 수 있습니다. 이 도구는 Figma나 Webf...와 유사한 직관적인 시각적 편집 환경을 제공합니다.

1 년 전

059.4K

YuE: 가사를 전체 노래의 기본 모델로 변환하여 다양한 음악 스타일을 지원합니다.

일반 소개 YuE는 가사를 전체 곡으로 변환하는 데 중점을 둔 오픈 소스 전체 곡 생성 기본 모델입니다. 비보컬 음악의 짧은 스니펫만 생성하는 다른 모델과 달리 YuE는 최대 몇 분 길이의 리드 보컬과 백 보컬이 포함된 전체 곡을 생성할 수 있습니다. 이 모델은 음악 생성을 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 음악

1 년 전

064.1K

PocketPal AI：iOS和Android设备离线使用的小型语言模型聊天工具

PocketPal AI: iOS 및 Android 기기에서 오프라인으로 사용할 수 있는 소규모 언어 모델링 채팅 도구

일반 소개 PocketPal AI는 소규모 언어 모델(SLM)을 휴대폰으로 직접 가져올 수 있도록 설계된 오픈 소스 모바일 앱으로, iOS 및 Android 사용자 모두 사용할 수 있습니다....

1 년 전

0187.7K

Cog-ComfyUI: API로 ComfyUI 워크플로 실행하기

일반 소개 코그-컴피유이는 API를 통해 컴피유 워크플로를 실행하도록 설계된 오픈 소스 프로젝트입니다. GitHub 사용자 fofr이 만든 이 프로젝트는 ComfyUI 워크플로우를 통합하고 실행하는 효율적인 방법을 제공합니다.ComfyUI는 ...

1 년 전

079.7K

슈퍼메모리: 북마크 및 웹 콘텐츠를 가져와 개인 지식창고 구축하기

일반 소개 슈퍼메모리는 사용자가 '제2의 두뇌'를 구축할 수 있도록 설계된 오픈소스 프로젝트입니다. 강력한 Chrome 확장 프로그램과 AI 기술을 통해 사용자는 웹페이지, 트위터 북마크 등에서 데이터를 쉽게 저장, 정리, 검색할 수 있습니다.

1 년 전

055.7K

Open NotebookLM: PDF를 오픈 소스 도구의 팟캐스트로 변환하기

일반 소개 Open NotebookLM은 모든 PDF 문서를 팟캐스트로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 오픈 소스 LLM(대규모 언어 모델) 및 TTS(텍스트 음성 변환) 모델을 사용하여 PDF 콘텐츠를 처리하여 오디오 팟캐스트에 적합한 자연스러운 대화를 생성합니다....

1 년 전

059.7K

Qwen2.5-VL: 이미지 및 비디오 문서 구문 분석을 위한 오픈 소스 멀티모달 대형 모델

종합 소개 Qwen2.5-VL은 알리바바 클라우드(알리바바 클라우드)의 Qwen 팀에서 개발한 오픈 소스 멀티모달 빅 모델입니다. 텍스트, 이미지, 비디오 및 문서를 동시에 처리할 수 있으며, Qwen2.5를 기반으로 한 Qwen2-VL의 업그레이드 버전입니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

082.2K

Lux: 거의 모든 비디오 플랫폼을 지원하는 명령줄 비디오 다운로더

일반 소개 Lux는 Go로 작성된 빠르고 간단한 동영상 다운로드 라이브러리이자 명령줄 도구입니다. 유튜브, 빌리빌리, 유쿠 등 여러 웹사이트에서 동영상을 다운로드할 수 있습니다. Lux는 멀티 스레드 다운로드와 같은 다양한 다운로드 옵션과 기능을 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

058.2K

R1 오버씽커: 딥시크 R1 모델이 더 오래 생각하도록 만들기

일반 소개 딥서치 R1 오버씽커는 딥서치 R1 모델의 사고의 깊이를 향상시키기 위해 설계된 도구입니다. 이 도구는 모델의 추론 과정을 연장함으로써 모델이 더 깊이 사고할 수 있도록 하여 답변의 품질을 향상시킵니다...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

063.6K

Langui: AI 사용자 인터페이스 구성 요소의 오픈 소스 라이브러리

일반 소개 LangbaseInc의 Langui는 제너레이티브 AI 및 LLM(대규모 언어 모델링) 프로젝트를 위해 설계된 오픈 소스 사용자 인터페이스 컴포넌트 라이브러리입니다. 이 라이브러리는 Tailwind CSS를 기반으로 하며 개발자가 빠르게 구성할 수 있도록 미리 빌드된 UI 컴포넌트 모음을 제공합니다.

1 년 전

062.8K

MNN-LLM-Android: 안드로이드용 MNN 멀티모달 언어 모델링

종합 소개 MNN(모바일 신경망)은 알리바바에서 개발한 효율적이고 가벼운 딥러닝 프레임워크로 모바일 기기에 최적화되어 있으며, 모바일 기기에서 빠른 추론이 가능할 뿐만 아니라 텍스트 생성 등 다중 모드 작업을 지원합니다.

1 년 전

078.6K

AI RSS 생성기: AI를 통해 웹 콘텐츠를 RSS 피드로 변환하는 도구

일반 소개 AI RSS는 AI 기술을 통해 웹 콘텐츠를 RSS 피드로 변환하는 혁신적인 도구입니다. 브라우저 플러그인과 서버 측의 두 가지 주요 부분으로 구성됩니다. 브라우저 플러그인을 통해 사용자는 웹 페이지에서 목록을 선택하고 구조화된 데이터 설명(SDD) 파일을 생성할 수 있습니다.

1 년 전

070K

UltraRAG: 데이터 구축 및 모델 미세 조정을 간소화하는 원스톱 RAG 시스템 솔루션

종합 소개 UltraRAG는 칭화대학교의 THUNLP 그룹, 노스이스턴대학교의 NEUIR 그룹, Modelbest.Inc, 9#AISoft 팀이 공동으로 제안한 RAG(검색 증강 세대) 시스템 솔루션입니다. 이 프레임워크는 민첩한 배포와 모듈식 구축을 기반으로 합니다...

1 년 전

066.6K

Llasa 1~8B: 고품질 음성 생성 및 복제를 위한 오픈 소스 텍스트 음성 변환 모델

일반 소개 Llasa-3B는 홍콩과학기술대학교 오디오 랩(HKUST Audio)에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 여러 언어를 지원할 뿐만 아니라 고품질 음성 생성을 제공하도록 세심하게 튜닝된 Llama 3.2B 아키텍처를 기반으로 합니다.

1 년 전

074.5K

Fast GraphRAG: 정확도가 높고 비용이 저렴한 그래픽 검색 향상 생성 도구

종합 소개 Fast GraphRAG는 지식 그래프와 페이지랭크 알고리즘을 통해 효율적이고 정확한 검색 증강 생성(RAG)을 가능하게 하기 위해 Circlemind AI에서 개발한 오픈 소스 도구입니다. 이 도구는 사용자의 용도에 맞게 지능적으로 적응합니다...

1 년 전

065.4K

TinyZero: 딥시크-R1 제로의 깨달음 효과를 저렴한 비용으로 재현한 제품

일반 소개 TinyZero는 카운트다운 및 곱셈 작업에서 DeepSeeK-R1 Zero의 성능을 재현하도록 설계된 veRL 기반 강화 학습 모델입니다. 놀랍게도 이 프로젝트는 실행 비용이 30달러에 불과합니다(2xH2...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

071.2K

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

일반 소개 허깅페이스의 Open R1 프로젝트는 R1 파이프라인에서 누락된 부분을 구축하여 누구나 이를 복제하고 구축할 수 있도록 하는 것을 목표로 하는 완전 오픈 소스 DeepSeek-R1 복제 프로젝트입니다. 이 프로젝트는 단순하게 설계되었으며 주로 교육과 평가로 구성됩니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

075.7K