최신 AI 리소스

共 3045 篇文章

코스 정보 최신 AI 리소스 AI 기술 자료 AI 뉴스

순서대로 정렬

훑어보기 북마크(인터넷)

NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - NewBieAI-Lab 오픈 소스 실험용 애니메이션 리터러시 그래픽 모델

NewBie-image-Exp0.1은 NewBieAI-Lab 팀이 오픈소스화한 최초의 실험적인 애니메이션 텍스트 기반 그래픽 모델로, 보조 스타일에 최적화된 35억 개의 파라미터가 포함된 Next-DiT 아키텍처를 사용합니다. 이 모델은 듀얼 텍스트 인코더(GEMMA3-4B)를 통해 2차 스타일에 최적화되어 있습니다.

최신 AI 리소스

4개월 전

029.2K

LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - 미션의 LongCat 팀 오픈 소스 이미지 생성 및 편집 모델

롱캣-이미지는 메이투안의 롱캣 팀이 출시한 오픈 소스 이미지 생성 및 편집 모델입니다. 시각 언어 모델(VLM) 조건부 인코더와 결합된 하이브리드 백본 아키텍처(MM-DiT+Single-DiT)를 사용하여 텍스트 생성 이미지와 여러 라운드의 이미지 편집을 수행할 수 있습니다....

최신 AI 리소스

4개월 전

024.7K

VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - Microsoft 오픈 소스 경량 실시간 텍스트 음성 변환 모델

VibeVoice-Realtime은 짧은 지연 시간과 실시간 상호 작용을 위해 설계된 Microsoft의 오픈 소스 경량 실시간 텍스트 음성 변환(TTS) 모델입니다. 스트리밍 텍스트 입력을 지원하며, 첫 번째 텍스트 토큰부터 음성을 낼 수 있고, 지연 시간은 약 300ms에 불과하며, 동적 숫자에 적합합니다 ...

최신 AI 리소스

4개월 전

025.4K

Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - 매직히치와 울리 울리 팀이 오픈소스로 제공하는 AI 워크플로 개발 도구

Flowra는 모델스코프와 우마일 WULI 팀의 오픈소스 그래프 실행 엔진 및 노드 패키지 개발 도구로, FlowBench의 핵심 구성 요소입니다. 지능형 캐싱, 병렬 스케줄링, 분산 지원을 갖춘 방향성 비순환 그래프(DAG) 조직 워크플로우를 통해 ...

최신 AI 리소스

4개월 전

024.8K

RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Wisdom Source에서 여러 대학과 협력하여 오픈소스화한 양팔 로봇용 실제 로봇 데이터 세트입니다.

로보코인은 베이징 즈위안 인공지능 연구소가 여러 기업 및 대학과 함께 오픈소스화한 세계 최초의 대규모 양팔 로봇 실기계 데이터셋으로, 15종의 로봇 플랫폼, 18만 개의 실제 동작 궤적, 421종의 작업 시나리오가 포함되어 있습니다. 가장 큰 특징은 작업을 분해하는 계층적 주석 시스템을 채택했다는 점입니다.

최신 AI 리소스

4개월 전

025.3K

TalkCody - 免费开源的AI编程桌面助手，支持复杂任务

TalkCody - 복잡한 작업을 지원하는 무료 오픈 소스 AI 프로그래밍 데스크톱 도우미

토크코디는 무료 오픈 소스 AI 프로그래밍 어시스턴트 데스크톱 애플리케이션으로, Rust + 타우리 2를 기반으로 구축되어 Windows, macOS, Linux 세 가지 플랫폼을 지원하며 기본 성능, 빠른 시작, 낮은 리소스 사용량 등의 이점을 제공합니다. 50 개 이상의 주류 A 지원 ...

최신 AI 리소스

4개월 전

029.1K

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - 멤버지의 오픈 소스 AI 메모리 시스템

멤머신은 멤버지가 개발한 오픈 소스 AI 메모리 시스템으로, 인간의 뇌처럼 상호 작용 데이터를 저장하고 불러올 수 있어 AI의 '상태 없는 메모리 손실' 문제를 해결하는 AI 모델과 지능을 위해 설계되었습니다. 계층화된 아키텍처(단기 메모리, 장기 메모리, 사용자 이미지, ...

최신 AI 리소스

4개월 전

029.1K

PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes 오픈 소스 단일 피규어 3D 생성 모델

PartCrafter는 북경대학교, 바이트댄스, 카네기멜론대학교가 공동으로 제안한 고급 3D 생성 모델입니다. 단일 RGB 이미지에서 의미적으로 명확하고 기하학적으로 다양한 3D 메시 파트를 한 번에 여러 개 생성할 수 있습니다. 이 모델은 조합 잠재 공간을 통해 모델링되며 ...

최신 AI 리소스

4개월 전

026.6K

GigaWorld-0 - 极佳视界开源的世界模型框架

기가월드-0 - 기가비전 오픈 소스 월드 모델링 프레임워크

기가월드-0는 국내 임베디드 인텔리전스 스타트업 기가AI의 오픈소스 월드 모델 프레임워크로, 주로 임베디드 인텔리전스(구현형 AI) 분야의 데이터 병목 문제를 해결하는 데 사용됩니다. 고품질의 다양하고 물리적으로 사실적인 학습 데이터를 효율적으로 생성하고, 푸시...

최신 AI 리소스

4개월 전

025.4K

Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시

미스트랄 3는 미스트랄 AI가 오픈소스로 공개한 최신 멀티모달 대형 모델 시리즈로, 플래그십 모델인 미스트랄 대형 3(총 파라미터 675B)와 이미지 이해 기능을 지원하는 미니스트랄 시리즈의 경량 버전(3B/8B/14B)으로 구성된다...

최신 AI 리소스

4개월 전

023.6K

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHop의 오픈 소스 멀티모달 비디오 이해 및 대규모 모델 생성 솔루션

Vidi2는 비디오 콘텐츠 이해, 분석 및 생성에 중점을 둔 2세대 멀티모달 비디오 이해 및 생성 빅모델로, ByteDance에서 오픈소스화했습니다. 텍스트, 비디오 및 오디오 모달리티의 공동 입력을 지원하며, 사진 콘텐츠, 사운드 정보 및 자연어 명령을 동시에 이해하여 모달 간 상호 작용 및 푸시 기능을 구현할 수 있습니다.

최신 AI 리소스

4개월 전

027.2K

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

알파마요-R1 - 추론 기능을 갖춘 NVIDIA의 오픈 소스 비전-언어-액션 모델

알파마요-R1은 복잡한 시나리오에서 자율 주행의 의사 결정 능력을 향상시키기 위해 설계된 추론 기능을 갖춘 엔비디아가 개발한 시각-언어-행동(VLA) 모델입니다. 인과 관계 추론 메커니즘을 도입하여 차량은 시나리오 인과 관계(예: "때문에")를 분석할 수 있습니다.

최신 AI 리소스

4개월 전

035.5K

Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AI 팀의 오픈 소스 벤처 그래프 모델

Ovis-Image는 알리바바 인터내셔널 디지털 커머스 그룹의 AIDC-AI 팀이 오픈소스화한 70억 개의 파라미터로 구성된 텍스트 생성 그래프 모델로, 고품질 텍스트 렌더링에 중점을 두고 있습니다. Ovis-U1 아키텍처를 기반으로 고급 시각 디코더와 양방향 토큰 리파이너를 계승합니다.

최신 AI 리소스

4개월 전

023.4K

悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 위즈덤 소스 연구소 오픈 소스 멀티모달 월드 빅 모델

우지에-이뮤3.5는 베이징 지위안 인공지능 연구소의 오픈 소스 멀티모달 월드 매크로 모델로, 340억 개의 레퍼런스와 네이티브 월드 모델링 기능을 갖추고 있습니다. 10조 개의 멀티모달 토큰(790년 분량의 비디오 데이터 포함)으로 훈련된 이 모델은 물리 법칙을 시뮬레이션하고 그래픽 생성, 시각적 안내를 달성할 수 있습니다....

최신 AI 리소스

4개월 전

026.6K

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - 스텝스 팀의 오픈 소스 엔드사이드 멀티모달 GUI 에이전트 모델

GELab-Zero는 4B 매개 변수가있는 Qwen3-VL-4B-Instruct 기본 모델을 기반으로 구축 된 Step Leap 팀의 오픈 소스 엔드 사이드 멀티 모달 GUI 에이전트 모델로, UI 요소를 인식하고 클릭, 슬라이드 등의 작업을 수행하고 교차 애플리케이션 작업을 지원합니다....

최신 AI 리소스

4개월 전

034.2K

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 바이트홉 시드 오픈소스를 위한 3D 시각적 재구성 모델

뎁스 애니씽 3(DA3)은 Byte Jump Seed 팀이 개발하여 오픈소스화한 3D 시각적 재구성 모델입니다. 단일 트랜스포머 아키텍처를 통해 모든 시점에서 공간 지오메트리를 재구성할 수 있으며, 뎁스 맵과 레이 맵만 예측하면 3D 장면을 복원할 수 있습니다.

최신 AI 리소스

4개월 전

035.9K

DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - 딥시크 오픈 소스 수학적 추론 모델

DeepSeek-Math-V2는 팬텀 큐브 산하의 인공지능 회사 딥시크의 오픈소스 수학 추론 모델로, 최신 버전은 딥시크-V3.2-Exp-Base를 기반으로 개선되어 제미니 딥씽크의 성능을 능가하는 국제적인 수치를 달성했습니다....

최신 AI 리소스

4개월 전

028.6K

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - 알리 통이 연구소의 오픈 소스 이미지 생성 모델

Z-Image는 효율적이고 빠르며 강력한 이미지 생성 기능을 갖춘 알리 통이 연구소의 오픈 소스 이미지 생성 모델입니다. 단일 스트림 확산 트랜스포머 아키텍처(S3-DiT)를 사용하여 텍스트, 시각적 의미 및 이미지 VAE 토큰을 통합된 입력 스트림으로 통합합니다....

최신 AI 리소스

4개월 전

050.3K

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - 지능형 신체 훈련 환경을 위한 알리바바의 오픈 소스 샌드박스

ROCK(Reinforcement Open Construction Kit)은 알리바바의 인공지능 훈련 환경을 위한 오픈소스 샌드박스로, 실제 환경에서 인공지능을 대규모로 훈련할 수 없는 문제를 해결하며, 매우 안정적인 샌드박스 관리 서비스를 제공합니다....

최신 AI 리소스

4개월 전

027.1K

ViMax - 香港大学开源的多智能体视频生成框架

홍콩대학교의 오픈 소스 멀티 인텔리전트 바디 비디오 생성 프레임워크인 ViMax

ViMax는 홍콩대학교 데이터 과학 연구소의 오픈 소스 다중 지능 바디 비디오 생성 프레임워크로, 크리에이티브 입력부터 비디오 출력까지 전체 프로세스를 자동화할 수 있습니다. 스크립트 생성, 장면 디자인, 샷 계획 및 비디오 렌더링 등을 통합하여 사용자가 자연어 설명을 통해 일관된 영화 및 텔레비전 등급 비디오를 생성할 수 있도록 지원합니다.

최신 AI 리소스

4개월 전

044.6K

FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - 블랙 포레스트 오픈 소스 이미지 생성 및 편집 모델

FLUX.2는 블랙 포레스트 랩에서 출시한 오픈 소스 이미지 생성 및 편집 모델로, 텍스트 원시 이미지, 다중 이미지 참조, 풍부한 디테일, 선명한 질감, 안정적인 조명으로 이미지 편집을 지원합니다. FLUX.2 [프로](최상위 클로즈드 소스에 필적하는...

최신 AI 리소스

4개월 전

026.3K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Microsoft의 오픈 소스 컴퓨터 운영 에이전트 어시스턴트 모델

Fara-7B는 Qwen 2.5-VL-7B 아키텍처를 기반으로 하는 70억 개 매개변수 규모의 컴퓨터 운영 에이전트(CUA) 모델의 Microsoft 오픈 소스 릴리스입니다. 웹 페이지의 스크린샷을 시각적으로 구문 분석하고 화면에서 클릭, 입력 등을 수행함으로써 추가적인 접근성 트리나 여러 개의 대형 모델에 의존할 필요가 없습니다....

최신 AI 리소스

4개월 전

032K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 광학 문자 인식을 위한 텐센트의 오픈 소스 전문가 모델

훈위안OCR은 텐센트 하이브리드 팀이 오픈소스화한 고성능 광학 문자 인식 모델로, 10억 개의 레퍼런스만 보유하고 있습니다. 하이브리드 멀티모달 아키텍처를 기반으로 개발된 이 모델은 엔드투엔드 설계를 채택하여 텍스트 감지, 인식 및 문서 구문 분석 작업을 효율적으로 처리할 수 있습니다. 이 모델은 복잡한 문서 테스트에서 94.1점을 획득하여 ...

최신 AI 리소스

4개월 전

033.6K

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

슈퍼토닉 - 빠른 속도로 오프라인에서 실행되는 오픈 소스 고성능 AI 텍스트 음성 변환 시스템입니다.

슈퍼토닉은 로컬 장치에서 빠른 음성 생성에 초점을 맞춘 오픈 소스 고성능 텍스트 음성 변환(TTS) 시스템입니다. ONNX 런타임 기술을 사용하여 휴대폰, 컴퓨터, 심지어 라즈베리 파이와 같은 장치에서 실행할 수 있고 23개 언어와 음성 클론을 지원하며 네트워크가 필요하지 않습니다....

최신 AI 리소스

4개월 전

027.8K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - 샤오미의 오픈 소스 크로스 도메인 구현 인텔리전스 페데스탈 모델

MiMo-Embodied는 샤오미 그룹이 오픈소스화한 세계 최초의 교차 구현형 기본 모델로, 구현형 AI와 자율주행을 성공적으로 통합했습니다. 이는 구현형 AI와 자율 주행 간의 지식 마이그레이션 문제를 해결하고 두 영역의 작업을 통합 모델링합니다.

최신 AI 리소스

5개월 전

033.2K

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 푸단 대학교 오픈 소스 음성 대 음성 빅 모델

MOSS-Speech는 푸단대학교 치우 시펭 교수팀의 오픈소스 음성 대화(Speech-to-Speech) 빅 모델입니다. 텍스트 안내 없이 기존의 음성 처리 방식을 탈피하여 음성을 직접 이해하고 생성하여 억양, 감정 등 비텍스트 요소를 포착할 수 있으며, ...

최신 AI 리소스

5개월 전

028.6K

Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradient가 오픈소스화한 세계 최초의 완전 자율 AI 운영 체제

Parallax는 분산형 AI 연구소인 Gradient에서 오픈소스로 제공하는 세계 최초의 '완전 자율 AI 운영 체제'입니다. Mac, Windows 및 기타 이기종 장치에서 대규모 모델의 크로스 플랫폼 배포를 지원하여 사용자가 모델, 데이터 및 AI 메모리를 완전히 제어할 수 있습니다. 이 시스템은 네트워크 인식 기능이 내장되어 있습니다 ...

최신 AI 리소스

5개월 전

084.2K

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

헌위안비디오 1.5 - 텐센트 혼합 위안화 무료 오픈소스 경량 동영상 생성 모델

HunyuanVideo 1.5는 확산 변압기 (DiT) 아키텍처를 기반으로하는 Tencent 하이브리드 빅 모델 팀 오픈 소스 경량 비디오 생성 모델로, 매개 변수 수는 8.3B입니다. 5-10 초의 고화질 비디오 생성 지원, 하위 ...

최신 AI 리소스

5개월 전

034.4K

Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Ant Group 오픈 소스 고성능 가중치 교환 프레임워크

Awex는 강화 학습에서 대규모 파라미터 동기화를 위해 설계된 Ant Group의 오픈 소스 고성능 가중치 교환 프레임워크입니다. 몇 초 만에 테라바이트의 파라미터 교환을 완료하여 훈련 및 추론의 효율성을 크게 향상시킬 수 있으며, Awex는 매우 빠른 동기화 성능을 가지고 있으며, 수천 개의 카드 클러스터에서 6초 이내에 1조 개의 파라미터 모델을 완료할 수 있습니다....

최신 AI 리소스

5개월 전

081.9K

Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - Ant OceanBase 오픈 소스 AI 네이티브 하이브리드 검색 데이터베이스

Seekdb(OceanBase Seekdb)는 짧은 대기 시간에서 고정밀 검색을 달성하기 위해 다단계 검색 메커니즘을 사용하여 벡터, 전체 텍스트, 스칼라 및 지리 공간 데이터의 통합 하이브리드 검색을 지원하는 Ant OceanBase 오픈 소스 AI 네이티브 하이브리드 검색 데이터베이스입니다 ...

최신 AI 리소스

5개월 전

027.5K

LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 데이터 진화 프레임워크를 호출하는 상하이교통대학교와 리틀 레드북의 오픈 소스 자동화 도구

LoopTool은 상하이 자오통 대학과 리틀 레드북 팀이 오픈소스화한 자동화된 도구 호출 데이터 진화 프레임워크로, 대규모 언어 모델의 도구 호출 기능을 향상시키기 위해 설계되었습니다. 오픈 소스 모델(예: Qwen3-32B)을 데이터 생성으로 사용하여 폐쇄 루프 반복을 통해 데이터 생성 및 모델 학습을 최적화합니다.

최신 AI 리소스

5개월 전

083.3K

SAM 3D - Meta开源的3D重建模型系列

SAM 3D - 메타 오픈 소스 3D 재구성 모델 시리즈

SAM 3D는 Meta의 SAM 시리즈를 기반으로 하는 3D 재구성 모델로, SAM 3D 오브젝트와 SAM 3D 바디의 두 가지로 구성되어 있습니다. SAM 3D 오브젝트는 단일 사진에서 인터랙티브 3D 오브젝트 모델을 생성할 수 있으며, 다음과 같은 기능을 지원합니다.

최신 AI 리소스

5개월 전

031.2K

AgentEvolver - 阿里通义实验室开源的智能体进化系统

에이전트 에볼버 - 진화하는 지능을 위한 알리 통이 연구소의 오픈 소스 시스템

에이전트이볼버는 알리바바 통이 연구소의 오픈소스 지능형 신체 진화 시스템입니다. 자체 질문, 자체 탐색 및 자체 귀속의 세 가지 메커니즘을 통해 지능의 자율 학습 및 진화를 달성하며, 에이전트 에볼버는 환경 샌드박스, LLM 및 sc를 결합한 서비스 지향 아키텍처를 채택합니다.

최신 AI 리소스

5개월 전

089.3K

MemOS - 开源的AI记忆管理与调度平台，共享长期记忆

MemOS - 장기 기억을 공유하기 위한 오픈 소스 AI 메모리 관리 및 스케줄링 플랫폼

MemOS는 MemTensor와 같은 대규모 언어 모델(LLM)을 위한 오픈 소스 메모리 관리 및 스케줄링 프레임워크입니다. 메모리를 연산 능력만큼이나 중요한 리소스로 간주하여 표준화된 MemCube 메모리 유닛을 통해 일반 텍스트, 활성화 상태 및 매개변수 메모리의 관리를 통합합니다.

최신 AI 리소스

5개월 전

085.5K

WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

위드애니원 - 푸단 공동 스텝 도약 스타 오픈소스 AI 사진 생성 모델

위드애니원은 푸단대학교와 스텝스타가 공동 개발한 인공지능 사진 생성 모델로, 기존 인공지능 이미지 생성의 일반적인 '복사 및 붙여넣기' 문제를 해결하고 보다 자연스럽고 제어 가능한 다인용 이미지 생성을 실현합니다. 이 모델은 대규모 데이터 세트 MultiID-2M을 기반으로 합니다 ...

최신 AI 리소스

5개월 전

084.3K

ChatTutor - 开源的AI教学辅助工具，可视化互动学习

ChatTutor - 대화형 학습을 시각화하는 오픈 소스 AI 교육 보조 도구

ChatTutor는 오픈 소스 AI 교구로, STEM 과목의 시각적 대화형 학습에 중점을 두고 있습니다. 대화 Q&A 및 동적 그리기 기능을 달성하는 다중 지능형 바디 아키텍처를 통해 화이트보드에 수학 그래픽, 물리 회로 또는 마인드맵을 실시간으로 그릴 수 있어 사용자가 추상적인 일반 개념을 직관적으로 이해할 수 있도록 도와줍니다.

최신 AI 리소스

5개월 전

023.5K

DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - AI 프로그래밍을 위한 JetBrains 오픈 소스 벤치마킹 플랫폼

DPAI Arena(개발자 생산성 AI 아레나)는 실제 소프트웨어 엔지니어링 작업에서 AI 지원 개발 도구의 효율성을 측정하기 위해 JetBrains에서 만든 개방형 벤치마킹 플랫폼입니다. 투명한 평가 스트림을 통해...

최신 AI 리소스

5개월 전

029.3K

EverMemOS - 盛大团队推出的开源长期记忆操作系统

에버메모스 - 팀 샨다의 오픈 소스 장기 메모리 운영 체제

에버메모스는 첸 티엔차오가 이끄는 샨다 팀이 출시한 오픈 소스 장기 기억 운영체제로, 대규모 언어 모델의 고정된 컨텍스트 창으로 인한 메모리 단절 문제를 해결하기 위해 인공지능을 위해 설계되었습니다. 이 시스템은 인간의 뇌 기억 메커니즘을 기반으로 4계층 아키텍처(에이전트 계층, 메모리 계층, 인덱스 계층, ...

최신 AI 리소스

5개월 전

035.4K

Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - KDDI 오픈 소스 엔터프라이즈급 지능형 워크플로 개발 플랫폼

Astron Agent는 KDDI의 오픈 소스 엔터프라이즈급 지능형 워크플로 개발 플랫폼으로, 기업이 착륙 가능한 AI 에이전트 애플리케이션을 신속하게 구축할 수 있도록 지원하는 데 중점을 두고 있습니다. Java + Spring Boot 기술 스택 사용, 경량 프라이빗 배포 지원(최소 2코어 4G 구성), 내장 ...

최신 AI 리소스

5개월 전

029.6K

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - 텐센트 혼합 메타 및 칭화 오픈소스 풀스택 멀티모달 대형 모델 프로젝트

Bee는 데이터 품질을 개선하여 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 좁히기 위해 텐센트 혼합 요소 팀과 칭화대학교가 공동으로 출시한 풀스택 오픈 소스 멀티모달 빅 모델 솔루션입니다. 이 프로젝트에는 세 가지 핵심 성과가 포함되어 있습니다. 1,500만 개 규모의 고품질 2계층 CoT 데이터 세트 Honey-Data...

최신 AI 리소스

5개월 전

026.5K

InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - 바이트 오픈 소스 통합 시공간 자동 회귀 비디오 생성 프레임워크

InfinityStar는 고해상도 이미지 및 동영상 생성을 위해 설계된 ByteDance에서 오픈소스화한 통합 시공간 자동 회귀 프레임워크입니다. 개별 자동 회귀 접근 방식을 사용하여 단일 모델에서 텍스트 대 이미지, 텍스트 대 비디오 및 이미지 대 비디오 작업을 동시에 처리할 수 있습니다. 이 프레임워크는 VBench에서 벤치마킹되었습니다 ...

최신 AI 리소스

5개월 전

027.6K

Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - 미시간 대학교와 협력하여 뮌헨 대학교에서 오픈소스화한 탈중앙화 머신 러닝 플랫폼

코이나는 프로테오믹스 데이터 분석을 간소화하는 데 중점을 둔 오픈 소스 분산형 머신 러닝 플랫폼입니다. 독일 뮌헨 공과대학교와 미국 미시간 대학교의 연구팀이 개발했습니다. 이 플랫폼은 표준화된 인터페이스를 통해 30개 이상의 주류 모델(예: ProSIT, MS²PIP)을 통합하고 펩타이드 질량...

최신 AI 리소스

5개월 전

028.2K

VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델인 VibeThinker-1.5B

바이브씽커-1.5B는 웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델입니다. 알리바바의 Qwen2.5-Math-1.5B를 기반으로 미세 조정된 이 모델은 수학 및 코딩 작업에 최적화되어 있으며 업계 최고의 추론 성능으로 뛰어난 성능을 발휘합니다.

최신 AI 리소스

5개월 전

031.3K

BestBlogs - 开源的AI内容聚合平台，精选优质技术内容

BestBlogs - 다양한 고품질 기술 콘텐츠를 제공하는 오픈 소스 AI 콘텐츠 집계 플랫폼

베스트블로그는 기술 실무자, 기업가, 제품 관리자 등을 위한 고품질 콘텐츠를 제공하는 데 중점을 둔 플랫폼입니다. RSS 피드와 크롤러 기술을 통해 400개가 넘는 고품질 블로그에서 기사, 팟캐스트, 동영상 및 기타 다양한 형식의 콘텐츠를 수집합니다. 핵심 강점은 AI 빅 랭귀지 활용에 있습니다...

최신 AI 리소스

5개월 전

025.1K

Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - AI의 오픈 소스 1인칭 시점 로보틱스 데이터 세트 구축

Egocentric-10K는 build.ai 팀이 오픈소스로 제공하는 대규모 1인칭 시점(자아 중심) 공장 운영 비디오 데이터 세트입니다. 이 데이터 세트에는 총 10억 8천만 프레임에 달하는 10,000시간 분량의 동영상이 포함되어 있으며, 2...

최신 AI 리소스

5개월 전

030.2K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - LazyLLM을 기반으로 구축된 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼입니다.

LazyCraft는 오픈 소스 프레임워크 LazyLLM을 기반으로 상탕이 구축한 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼으로, 기업과 개발자를 위한 원스톱 AI 애플리케이션 개발 솔루션을 제공합니다. 개발자가 낮은 임계값과 저렴한 비용으로 대규모 모델 애플리케이션을 신속하게 빌드하고 출시할 수 있도록 지원합니다.

최신 AI 리소스

5개월 전

034K

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI의 새로운 오픈 소스 AI 에이전트 개발 프레임워크

코송은 문샷 AI가 오픈소스화한 새로운 AI 에이전트 개발 프레임워크로, 개발자에게 차세대 지능형 신체 애플리케이션을 구축하기 위한 가볍고 유연하며 확장성이 뛰어난 기본 지원을 제공합니다. 여러 도구를 효율적으로 스케줄링하는 비동기 도구 스케줄링 엔진으로 ...

최신 AI 리소스

5개월 전

028.3K

SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - 상탕 테크놀로지의 오픈 소스 공간 인텔리전스 대규모 모델 제품군

센스노바-SI는 샹테크에서 출시한 오픈 소스 공간 지능 그랜드 모델로, 공간 이해와 추론에 있어 AI의 능력을 향상시키는 데 중점을 두고 있습니다. 이 모델은 공간 측정, 재구성, 관계 판단, 원근 변환, 변형 분석, 공간 추론 등 6가지 핵심 차원에서 탁월한 성능을 발휘하며 다른 모델보다 월등히 뛰어납니다.

최신 AI 리소스

5개월 전

024.7K

Omnilingual ASR - Meta推出的多语言语音识别框架

다국어 ASR - 메타의 다국어 음성 인식 프레임워크

다국어 ASR은 Meta에서 도입한 다국어 음성 인식 프레임워크로 1600개 이상의 언어를 지원하며 78% 언어 문자 오류율이 10%보다 낮습니다. 70억 개의 파라미터를 가진 wav2vec 2.0 인코더와 CTC 및 트랜스포머 디코더를 결합하여...

최신 AI 리소스

5개월 전

028.5K

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder - 오픈 소스 AI 로우코드 웹사이트 빌더, 빠른 구축을 위한 드래그 앤 드롭 구성 요소

Frappe 빌더는 Frappe에서 개발한 오픈 소스 로우코드 웹사이트 빌더로, 핵심 기능은 드래그 앤 드롭 구성 요소를 지원하는 Figma와 유사한 시각적 편집기를 제공하여 웹사이트를 빠르게 구축할 수 있도록 하는 것입니다. Frappe 생태계의 일부(Frappeverse)...

최신 AI 리소스

5개월 전

031.3K

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - DeepSeek-OCR 모델을 기반으로 하는 오픈 소스 복제본 프로젝트

DeepOCR은 광학 압축 기술을 통해 텍스트 정보를 효율적으로 처리하는 DeepSeek-OCR의 핵심 아키텍처를 구현하는 오픈 소스 복제 프로젝트입니다. 핵심은 SAM 기반(고해상도 이미지 처리), 16× 컨볼루션 압축기로 구성된 DeepEncoder입니다.

최신 AI 리소스

5개월 전

027.9K

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow - 터미널에서 마크다운 파일 렌더링을 지원하는 오픈 소스 명령줄 도구

Glow는 터미널에서 마크다운 파일을 우아하게 렌더링하기 위한 오픈 소스 명령줄 도구입니다. 이 도구는 코드 블록, 수학 공식 및 기타 복잡한 요소 강조 표시를 지원하며 사용자 지정 스타일, 페이징 표시, 마우스 지원 등과 같은 다양한 기능을 제공합니다.

최신 AI 리소스

5개월 전

032K

NocoBase - 免费开源的AI无代码开发平台，可视化构建应用

NocoBase - 애플리케이션을 시각적으로 구축할 수 있는 무료 오픈 소스 AI 노코드 개발 플랫폼입니다.

노코베이스는 AI 기반 오픈 소스 노코드 개발 플랫폼을 기반으로 비즈니스 시스템의 신속한 구축을 지원하며, 애플리케이션 개발 구성을 통해 프로그래밍을 완료 할 수 없습니다. 이 프로젝트는 Apache-2.0 프로토콜을 사용하고 기업 관리, 협업 플랫폼 및 기타 분야에 적합한 개인 배포 및 유연한 확장 성을 제공합니다 ...

최신 AI 리소스

5개월 전

028.4K

UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

래빗쇼 인텔리전스와 북경대학교가 출시한 차세대 이미지 편집 모델, UniWorld V2

유니월드 V2는 래빗잔 인텔리전스와 북경대학교의 유니월드 팀이 공동으로 출시한 차세대 이미지 편집 모델입니다. 이미지 편집 분야, 특히 복잡한 명령의 중국어 이해와 실행에 있어 상당한 이점을 가지고 있습니다. 이 모델은 예술적인 중국어 글꼴을 정확하게 렌더링하고 미세한 글꼴을 지원할 수 있습니다.

최신 AI 리소스

5개월 전

030.1K

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - Alibaba 오픈 소스 AI 이력서 구문 분석 및 최적화 도구

SmartResume은 PDF, 이미지 또는 Office 문서에서 기본 정보, 교육 및 업무 경험과 같은 구조화된 정보를 효율적으로 추출하는 Alibaba의 오픈 소스 지능형 이력서 구문 분석 및 최적화 도구입니다. OCR 기술과 PDF 메타데이터를 통합하여 ...

최신 AI 리소스

5개월 전

031.6K

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

Step-Audio-EditX는 스텝스타 팀이 개발한 오픈 소스 오디오 편집 매크로 모델로, 인공 지능 기술을 통한 오디오 콘텐츠의 세밀한 조작에 중점을 두고 있습니다. 이 모델은 오디오 분위기, 말하기 스타일(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨...)를 동적으로 조정할 수 있습니다.

최신 AI 리소스

5개월 전

030.9K

Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 비디오 - 북경대학교에서 오픈소스화한 비디오 추론 모델 유나이티드바이트

Open-o3 Video는 북경대학교와 바이트댄스가 공동 개발한 오픈 소스 비디오 추론 모델로, 시간적 및 공간적 증거를 통해 비디오 추론을 향상시키는 데 중점을 두고 있습니다. 타임스탬프와 바운딩 박스로 주요 증거에 명시적으로 레이블을 지정하여 모델이 비디오 콘텐츠를 더 잘 이해하고 해석할 수 있도록 도와줍니다.

최신 AI 리소스

5개월 전

027.3K

Handy - 开源免费的本地AI语音转文字工具

핸디 - 오픈 소스 무료 네이티브 AI 음성 텍스트 변환 도구

Handy는 오픈 소스 기반의 무료 로컬 음성 텍스트 변환 도구로, Rust와 React에서 개발한 Windows, MacOS, Linux 시스템을 지원합니다. 클라우드에 업로드하지 않고 로컬에서 음성 데이터를 처리하기 때문에 개인정보 보호와 보안이 보장되며 빠른 전사 및 텍스트 입력에 적합합니다.

최신 AI 리소스

5개월 전

059.8K

FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 그래픽용 360 오픈 소스 크로스 모달 시각 언어 모델

FG-CLIP 2는 360 인공 지능 연구소에서 출시 한 세계 최고의 그래픽 크로스 모드 시각 언어 모델 (VL-M)로 29 개의 권위있는 벤치 마크에서 Google 및 Meta의 유사 모델을 능가하여 현재 가장 강력한 VL-M으로, 총체적 ...

최신 AI 리소스

5개월 전

028.1K

微舆BettaFish - 开源的多智能体舆情分析系统

마이크로 오피니언 베타피쉬 - 오픈 소스 다중 지능 의견 분석 시스템

BettaFish는 오픈 소스 다중 지능 오피니언 분석 시스템입니다. 다중 지능 바디 아키텍처를 사용하여 쿼리, 미디어, 인사이트, 보고서 및 기타 에이전트가 함께 작동하여 검색, 추출 및 보고 폐쇄 루프를 달성합니다. 이 시스템은 AI 기반 전체 ...

최신 AI 리소스

5개월 전

061.5K

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - 바이트호퍼 시드 팀이 오픈소스화한 새로운 순환 언어 모델

Ouro는 바이트댄스 시드 팀이 개발한 새로운 유형의 루프형 언어 모델(LLM)로, 매개변수 공유 반복 계산 구조를 통해 사전 학습 단계에서 추론 기능을 직접 구축하는 것이 핵심 혁신입니다. 이 모델은 24개의 레이어를 기본 블록으로 사용하여 ...

최신 AI 리소스

5개월 전

037.3K

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...

최신 AI 리소스

5개월 전

032.1K

LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - Meituan 오픈소스를 위한 완전한 모달 대형 언어 모델

롱캣-플래시-옴니는 메이퇀의 롱캣 팀이 출시한 오픈 소스 완전 모달 빅 언어 모델입니다. 매개변수 규모가 5600억 개(활성화된 매개변수 270억 개)에 달하며, 많은 수의 매개변수를 유지하면서 밀리초 수준의 실시간 오디오 및 비디오 상호 작용 기능을 구현합니다.

최신 AI 리소스

5개월 전

030.3K

Petri - Anthropic开源的 AI 安全审计框架

Petri - Anthropic의 오픈 소스 AI 보안 감사 프레임워크

Petri는 Anthropic에서 개발한 오픈 소스 AI 보안 감사 프레임워크로, AI 모델의 보안 및 동작 정렬을 체계적으로 평가합니다. 자동화된 감사자가 대상 모델과 여러 차례 대화하는 실제 시나리오를 시뮬레이션한 다음, 심사 에이전트가 모델의...

최신 AI 리소스

5개월 전

026.6K

Kimi Linear - 月之暗面开源的新型混合线性注意力架构

키미 리니어 - 달의 어두운 면에 오픈소스화된 새로운 하이브리드 선형 주의 아키텍처

키미 리니어는 다크 사이드 오브 더 문에서 오픈소스화한 새로운 하이브리드 선형 주의 아키텍처로, 키미 델타 어텐션(KDA)을 핵심으로 하며, 세밀한 게이팅 메커니즘을 통해 기존 주의 모델을 최적화하여 하드웨어 효율성과 메모리 제어 능력을 크게 향상시킵니다....

최신 AI 리소스

5개월 전

038.7K

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - 세계 최초로 오픈 소스에서 기본적으로 지원되는 JSON 텍스트를 통해 이미지 모델을 생성합니다.

FIBO는 Bria AI가 개발한 세계 최초의 네이티브 JSON 지원 오픈 소스 텍스트 생성 이미지 모델입니다. 8B 파라미터를 갖춘 DiT(확산 트랜스포머) 아키텍처를 기반으로 플로우 매칭 훈련 방식을 채택하고 있습니다...

최신 AI 리소스

5개월 전

031K

SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.

최신 AI 리소스

5개월 전

039.8K

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0 - 월드 모델 생성 데이터로 구동되는 오픈 소스 구현형 기본 모델

기가브레인-0은 세계 모델 생성 데이터를 사용하여 실제 머신 일반화를 달성하는 중국 최초의 엔드투엔드 비전-언어-액션(VLA) 구현 기본 모델로, 기가비전과 후베이 휴머노이드 로봇 혁신 센터가 오픈 소스로 공동 출시했습니다. 하이브리드 트랜스포머 아키텍처를 채택하여 ...

최신 AI 리소스

5개월 전

027.4K

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

밍플래시 옴니 프리뷰 - 앤트 그룹 오픈 소스 풀 모달 매크로 모델

밍-플래시-옴니-프리뷰는 앤트그룹 인클루전AI가 출시한 오픈소스 풀모달 매크로 모델로, Ling 2.0의 스파스 MoE 아키텍처를 기반으로 총 103억 개의 파라미터와 9억 개의 활성화로 수천억 개의 파라미터 규모를 가지고 있으며 풀모달 이해 및 생성에 있어...

최신 AI 리소스

5개월 전

032.1K

OmniVinci - NVIDIA开源的全模态大语言模型

옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델

옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.

최신 AI 리소스

5개월 전

031.7K

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - AI2 오픈 소스 멀티모달 문서 구문 분석 모델

olmOCR 2는 앨런 인공지능 연구소(AI2)의 오픈 소스 멀티모달 문서 구문 분석 모델이며, olmOCR의 업그레이드 버전입니다. 디지털화된 인쇄 문서(예: PDF)는 높은...

최신 AI 리소스

5개월 전

037.8K

ValueCell - 开源的多智能体金融平台，多个Agent分工协作

ValueCell - 여러 에이전트가 함께 작업하는 오픈 소스 다중 인텔리전스 금융 플랫폼

밸류셀은 AI 기술을 통해 재무 분석 및 투자 관리의 효율성을 향상시키는 오픈 소스 다중 지능체 금융 애플리케이션 플랫폼입니다. 전문 투자 팀을 시뮬레이션하여 여러 AI 지능이 함께 작동하여 시장 분석, 정서 분석, 기초 연구, 자동 거래 및 기타 기능을 포함하여 사용자에게 포괄적 인 기능을 제공합니다.

최신 AI 리소스

5개월 전

057.1K

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

덱스보틱 - 포스 스피릿 머신 오픈 소스 VLA 모델의 구현형 인텔리전스 원스톱 연구 서비스 플랫폼

덱스보틱은 체화지능 분야의 파편화와 낮은 연구 효율성 문제를 해결하는 덱스말의 오픈소스 시각-언어-행동(VLA) 모델의 체화지능 원스톱 연구 서비스 플랫폼입니다. 덱스보틱은 파이토치를 기반으로 구현 지능 분야의 파편화와 낮은 효율성 문제를 해결하기 위한 원스톱 연구 서비스 플랫폼입니다...

최신 AI 리소스

5개월 전

029K

LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - 미션의 LongCat 오픈 소스 비디오 생성 모델

롱캣-비디오는 MIT 오픈 소스 프로토콜을 사용하는 롱캣 팀의 13억 6천만 개 매개변수 비디오 생성 모델 오픈 소스로, 텍스트 생성 비디오, 그래프 생성 비디오 및 비디오 연속의 세 가지 주요 작업을 지원합니다. "거친에서 미세한"생성 전략과 블록 희소주의 메커니즘을 통한 모델은 몇 분 안에있을 수 있습니다 ...

최신 AI 리소스

5개월 전

051K

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.

최신 AI 리소스

6개월 전

035.8K

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시

월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...

최신 AI 리소스

6개월 전

035K

DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - 딥시크릿 오픈 소스 광학 문자 인식 모델

딥시크-OCR은 딥시크 팀이 오픈소스화한 고급 광학 문자 인식(OCR) 모델로, '문맥 광학 압축' 기술을 통해 텍스트를 이미지로 변환하고 압축 및 디코딩에 비주얼 토큰을 사용해 긴 텍스트를 효율적으로 처리합니다.

최신 AI 리소스

6개월 전

040.2K

VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....

최신 AI 리소스

6개월 전

031.8K

MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - 상하이 AI Lab과 북경대학교 오픈 소스 문서 구문 분석 모델

MinerU2.5는 상하이 인공지능 연구소와 북경대학교 팀이 공동으로 개발한 분리형 시각 언어 모델로, 고해상도 문서 이미지 구문을 효율적으로 처리하는 데 중점을 두고 있습니다. 핵심 혁신은 "글로벌 레이아웃 감지 후 로컬 콘텐츠 인식"의 2단계 설계에 있습니다. 첫 번째 단계는 저해상도...

최신 AI 리소스

6개월 전

045.8K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

롱캣-오디오 코덱 - 메이투안 롱캣 오픈 소스 음성 코덱 솔루션

롱캣-오디오 코덱은 메이투안의 롱캣 팀이 개발한 오픈소스 음성 코덱 솔루션입니다. 이 솔루션은 의미론적 및 음향학적 이중 토큰 병렬 추출 메커니즘을 통해 음성의 의미론적 및 음향학적 특징을 고려한 음성 대규모 언어 모델(Speech LLM)용으로 설계되었습니다 ...

최신 AI 리소스

6개월 전

029.6K

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - 바이두 오픈 소스 초경량 시각 언어 모델

PaddleOCR-VL은 문서 구문 분석 시나리오에 최적화된 바이두의 오픈 소스 초경량 시각 언어 모델입니다. 이 모델은 동적 고해상도 시각 코더와 경량 ERNIE 언어 모델의 융합을 통해 0.9억 개의 파라미터만 포함하며, 높은 정확도를 유지하고 계산 오버헤드를 크게 줄입니다.

최신 AI 리소스

6개월 전

046.4K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.

유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.

최신 AI 리소스

6개월 전

035.1K

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크

DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...

최신 AI 리소스

6개월 전

037.1K

Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

칸딘스키 5.0 - 러시아 AI 팀의 오픈 소스 비디오 생성 모델 시리즈

칸딘스키 5.0은 러시아 AI 팀이 개발한 최신 비디오 생성 모델 시리즈로, 가벼운 디자인과 고성능 성능에 중점을 두고 있습니다. 이 시리즈의 첫 번째 모델인 칸딘스키 5.0 비디오 라이트는 매개 변수가 20억 개에 불과하지만, 특히 유사한 14억 개에 달하는 모델을 능가합니다.

최신 AI 리소스

6개월 전

045.2K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

송블룸 - 홍콩중문대 및 NTU와 협력한 텐센트의 오픈 소스 곡 생성 모델

송블룸은 홍콩 중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래를 생성할 수 있습니다. 10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면...

최신 AI 리소스

6개월 전

036K

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스

Pyscn은 파이썬 개발자가 코드의 잠재적 문제를 감지하여 유지보수성을 개선할 수 있도록 설계된 지능형 코드 품질 분석 도구입니다. 제어 흐름도를 통해 데드 코드를 분석하고, APTED+LSH 알고리즘을 사용하여 중복 코드를 식별하고, 모듈 결합 및 원 복잡도와 같은 메트릭을 계산합니다....

최신 AI 리소스

6개월 전

028.8K

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - 텐센트 유튜브 오픈소스 일반 텍스트 표현 모델

Youtu-Embedding은 엔터프라이즈급 애플리케이션을 위해 설계된 Tencent의 Youtu Labs에서 개발한 오픈 소스 범용 텍스트 표현 모델입니다. 텍스트는 심층 신경망에 의해 고차원 벡터 공간에 매핑되어 의미적으로 유사한 문장이 해당 공간에서 서로 가깝게 배치되어 정확한 의미 검색을 달성합니다.

최신 AI 리소스

6개월 전

034K

SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - ByteHop의 오픈 소스 멀티모달 시각 언어 모델

SAIL-VL2는 이미지와 텍스트와 같은 멀티모달 입력의 공동 모델링에 중점을 둔 Byte Jump 팀의 오픈 소스 멀티모달 시각 언어 모델입니다. 전문가(MoE) 아키텍처와 점진적 훈련 전략의 희소 혼합을 사용하여 2B~8B의 매개변수 규모, 특히 그래픽 이해, 수학적 이해에서 높은 성능을 달성합니다.

최신 AI 리소스

6개월 전

027.1K

MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - 바이트 오픈 소스 액티브 컨텍스트 인식 AI 파트너

MineContext는 사용자가 방대한 양의 정보를 효율적으로 관리하고 지식 업무의 효율성을 개선할 수 있도록 돕기 위해 ByteDance Viking 팀이 오픈소스로 제공하는 적극적인 상황 인식 AI 파트너입니다. 스크린샷 및 콘텐츠 이해 기술을 통해 사용자의 일상적인 작업(예: 웹 검색, 문서 편집 등)을 자동으로 기록하고, 지원...

최신 AI 리소스

6개월 전

048K

nanochat - Karpathy免费开源的低成本模型训练项目

나노챗 - Karpathy의 무료 오픈소스 저비용 모델 교육 프로젝트

나노챗은 AI의 전설이자 전 테슬라 AI 디렉터인 안드레이 카르파티가 공개한 오픈 소스 프로젝트로, 개인이 매우 저렴한 비용과 단순함으로 작은 ChatGPT와 유사한 언어 모델을 빠르게 훈련할 수 있도록 해줍니다. 전체 프로젝트는 약 800개만 사용합니다.

최신 AI 리소스

6개월 전

033.6K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 고성능 멀티모달 이해를 위한 무료 오픈 소스 멀티모달 모델

LLaVA-OneVision-1.5는 128개의 A800...에서 8B 파라미터 스케일을 사용하는 EvolvingLMMS-Lab 팀의 오픈 소스 멀티모달 모델로, 컴팩트한 3단계 훈련 프로세스(언어-이미지 정렬, 개념 평형화 및 지식 주입, 명령어 미세 조정)를 통해 학습합니다.

최신 AI 리소스

6개월 전

032K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....

최신 AI 리소스

6개월 전

034.4K

NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - 오프라인 CPU 실행을 지원하는 무료 경량 음성 합성 모델

NeuTTS Air는 Neuphonic 팀이 개발한 오픈 소스 경량 음성 합성 모델로, 클라우드에 의존하지 않고 로컬 장치(예: 휴대폰, 노트북, 라즈베리파이)에서 실시간으로 실행할 수 있습니다. 0.5B 매개변수 Qwen 아키텍처와 자체 개발한 NeuCodec 코덱 사용...

최신 AI 리소스

6개월 전

040.4K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - 레이서 오픈 소스 무료 프로그래밍 전용 모델

KAT-Dev-72B-Exp는 레이서 팀에서 출시한 오픈소스 프로그래밍 전용 대규모 언어 모델로, 강화 학습 기법을 기반으로 최적화되어 SWE-Bench Verified 벤치마크 테스트에서 현재 오픈소스 모델 중 최고 성능인 74.6%의 정확도를 달성했습니다. 이 모델은 혁신적인...

최신 AI 리소스

6개월 전

031.5K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

잠바 추론 3B - 이스라엘 AI21 랩의 오픈 소스 경량 추론 모델

잠바 추론 3B는 이스라엘의 AI 스타트업 AI21 Labs에서 오픈소스로 제공하는 경량 추론 모델로, 강력한 성능과 다양한 애플리케이션에 적용할 수 있는 잠재력을 갖추고 있습니다. 이 모델은 Trans...를 결합한 하이브리드 SSM-트랜스포머 아키텍처를 사용합니다.

최신 AI 리소스

6개월 전

028.9K

吴恩达的《Agentic AI》最新智能体免费课程

에른스트 우의 에이전틱 AI의 최신 인텔리전스에 대한 무료 강좌

에이전틱 AI는 어니스트 응이 출시한 지능형 바디에 관한 최신 강좌로, 반영, 도구 사용, 계획 및 다중 지능형 바디 협업의 네 가지 설계 패턴을 다루는 지능형 바디의 설계 및 구축에 중점을 둡니다. 학습자는 이론적 설명과 코드 실습을 통해 지능형 바디가 출력을 확인하고 자율적으로 조정하는 방법을 익히게 됩니다....

최신 AI 리소스 코스 정보

6개월 전

053.9K

OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AI 에이전트 네트워크 구축을 위한 오픈소스 무료 오픈 협업 프로젝트

오픈에이전트는 AI 에이전트 네트워크를 생성하고 에이전트 간의 개방형 협업을 촉진하는 오픈 소스 프로젝트입니다. AI 에이전트가 원활하게 연결하고 협업할 수 있도록 기본 네트워크 인프라가 제공됩니다. 사용자는 자체 에이전트 네트워크를 빠르게 시작하고, 모듈식 아키텍처를 통해 기능을 확장하고, 지원...

최신 AI 리소스

6개월 전

030.8K

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - Android에서 AI 앱을 빌드하는 방법에 대한 Google 오픈 소스 무료 리소스

Androidify는 개발자가 Android에서 AI 기반 애플리케이션을 구축하는 방법을 배울 수 있도록 도와주는 Google의 오픈 소스 프로젝트입니다. 이 프로젝트는 제트팩 컴포즈, 제미니 API(Fire를 통해) 등 Google의 최신 기술을 사용합니다.

최신 AI 리소스

6개월 전

032K

Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - 수조 개의 파라미터를 위한 Ant Group의 오픈 소스 범용 언어 모델

Ling-1T는 Ant Group에서 오픈소스화한 1조 개 매개변수 범용 언어 모델로, 베링의 대형 모델인 Ling 2.0 시리즈의 플래그십 제품에 속합니다. 이 모델은 고효율 MoE 아키텍처를 채택하고 128K 컨텍스트 윈도우를 지원하며 코드 생성, 수학적 추론, 논리 테스트 등 7가지 벤치마크에서 GPT를 능가합니다.

최신 AI 리소스

6개월 전

056.7K