최신 AI 리소스

총 2875개의 기사
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

메소-(화학)A2UI - 에이전트 중심 사용자 상호작용 인터페이스를 위한 Google의 오픈 소스 선언적 프로토콜입니다.

A2UI(에이전트-사용자 인터페이스)는 AI 에이전트를 위한 복잡한 대화형 인터페이스를 생성하는 문제를 해결하는 Google의 오픈 소스 에이전트 중심 인터페이스 프로토콜입니다. AI 에이전트가 사용자 인터페이스, 클라이언트 애플리케이션의 구조를 설명할 수 있는 선언적 JSON 형식을 통해 ...
1 일 전
02.9K
SAM Audio - Meta推出的开源多模态音频分割模型

메소-(화학)SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.
1 일 전
03.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Xiaomi에서 출시한 오픈 소스 MoE 아키텍처의 대형 모델입니다.

MiMo-V2-Flash는 효율적인 추론과 지능형 신체 애플리케이션에 초점을 맞춘 총 파라미터 3090억 개와 활성 파라미터 150억 개를 갖춘 Xiaomi에서 출시한 오픈 소스 MoE 아키텍처 대형 모델입니다. 이 모델은 하이브리드 주의 집중 아키텍처와 다중 단어 메타 예측 기술을 채택하여 초당 150 토큰의 추론 속도로 ...
2 일 전
05K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - 칭화대 등이 참여한 알리 통이의 오픈 소스 AI 동영상 생성 프레임워크

완무브는 알리 통이 연구소, 칭화대학교 및 기타 기관이 공동 개발한 오픈 소스 AI 비디오 생성 프레임워크로, 정밀한 모션 제어 기술을 통한 고품질 비디오 합성에 중점을 두고 있습니다. 핵심 기술은 기존 이미지 대 비디오 모델에 포인트 수준의 모션 제어를 원활하게 추가 할 수있는 "잠재적 궤적 안내"입니다 ...
3일 전
06.4K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

바나나 슬라이드 - 나노 바나나 프로 모델 기반의 오픈 소스 AI PPT 생성 도구

바나나 슬라이드는 자연어 명령을 사용해 전문적인 프레젠테이션을 빠르게 만들 수 있도록 지원하는 나노 바나나 프로 AI 모델을 기반으로 하는 오픈 소스 지능형 PPT 생성기입니다. 사용자가 주제를 한 문장(예: "인간이 생태계에 미치는 영향")으로 설명할 수 있으며, 이는 스스로 할 수 있습니다.
3일 전
05.6K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

칼레이도 - 칭화대학교 등과 함께 Smart Spectrum AI가 오픈소스화한 다중 피사체 참조 비디오 생성 모델입니다.

칼레이도는 허페이 공과대학교, 칭화대학교, 스마트 스펙트럼 AI가 공동 개발한 오픈 소스 다중 피사체 참조 비디오 생성 모델입니다. 여러 참조 이미지를 통해 피사체 일관된 비디오를 생성하여 다중 피사체 일관성 및 배경 분리에서 기존 모델의 결함을 해결합니다.Kaleido는 특수한 데이터를 통해 비디오를 생성합니다.
4일 전
06.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 홍콩 대학교 오픈 소스 학술 논문을 슬라이드로 변환하는 AI 도구

Paper2Slides는 홍콩대학교 데이터 인텔리전스 연구소의 오픈 소스 AI 도구로, 클릭 한 번으로 학술 논문을 전문적인 슬라이드나 포스터로 변환해 줍니다. 네트워크 정보에 의존하지 않고 문서 내용을 직접 구문 분석하는 RAG(검색 증강 생성) 기술을 사용하여 생성된 PPT가 원본과 매우 일치하도록 보장합니다.
4일 전
06.5K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AI의 오픈 소스 실시간 스트리밍 비디오 생성 시스템

리얼비디오는 스마트 스펙트럼 AI의 오픈소스 실시간 스트리밍 비디오 생성 시스템으로, 2~3초 안에 자연스럽고 부드러운 비디오 응답을 빠르게 생성할 수 있습니다. 사용자가 사진을 업로드하고 텍스트를 입력하기만 하면 시스템이 해당 음성과 영상을 생성하여 AI 캐릭터와 실시간으로 대화할 수 있습니다...
4일 전
05.6K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크

DeepSearchQA는 복잡한 다단계 쿼리 작업에서 지능의 성능을 평가하기 위해 설계된 Google의 오픈 소스 AI 연구 에이전트 테스트 벤치마크입니다. 17개 도메인을 포괄하는 900개의 수작업으로 설계된 "인과 관계 체인" 작업으로 구성되어 있으며, AI가 인간 연구원처럼 행동하고 다단계 작업을 수행하도록 요구합니다.
4일 전
04.4K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - 기업이 Q&A 플랫폼을 빠르게 구축할 수 있도록 지원하는 오픈 소스 AI 애프터 서비스 시스템

KoalaQA는 Chaitin 팀이 개발한 오픈소스 지능형 애프터서비스 시스템입니다. AI 모델을 기반으로 AI 고객 서비스, AI 검색 및 지식 기반 관리 기능을 제공하여 기업이 지능형 Q&A 플랫폼을 신속하게 구축할 수 있도록 지원합니다. 이 시스템은 연중 무휴 실시간 응답을 지원합니다 ...
1주일 전
07.7K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - 패싯 인텔리전스 오픈 소스 엔드투엔드 텍스트 음성 변환 모델링

VoxCPM 1.5는 Facade Intelligence에서 출시한 오픈 소스 음성 생성 모델로, 스플리터 없이 텍스트 음성 변환(TTS) 기술을 기반으로 몇 가지 혁신과 개선 사항을 적용했습니다. 엔드 투 엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 파형을 생성하므로 기존 세분화 방법의 한계를 피할 수 있습니다....
1주일 전
010K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - 스마트 스펙트럼 AI의 오픈 소스 산업 등급 음성 합성 시스템

GLM-TTS는 강력한 음성 합성 기능을 갖춘 오픈 소스 산업 등급 음성 합성 시스템입니다. 2단계 생성 아키텍처를 채택하여 첫 번째 단계에서는 텍스트를 음성 토큰 시퀀스로 변환하고, 두 번째 단계에서는 토큰 시퀀스를 고품질 오디오로 변환합니다. 이 시스템은 3초의 음성 샘플만 지원하여 사운드를 완성할 수 있습니다.
1주일 전
07.9K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 스마트 스펙트럼 AI의 오픈 소스 휴대폰 AI 에이전트 모델

OpenAutoGLM은 다중 모드 인식을 통해 휴대폰 화면의 내용을 이해하고 사용자가 지정한 작업을 완료하기 위해 작업 흐름을 자동으로 생성 할 수있는 "휴대폰 사용"기능을 갖춘 오픈 소스 지능형 신체 모델입니다. 사용자는 "근처 훠궈를 검색하려면 메이투안을 열어..."와 같이 자연어를 사용하여 요구 사항을 설명하기만 하면 됩니다.
1주일 전
013.8K
InkSight - Google开源的AI手写识别工具

InkSight - Google의 오픈 소스 AI 필기 인식 도구

InkSight는 종이 필기 노트를 편집 가능한 디지털 잉크 파일(예: SVG 형식)로 변환하는 Google의 오픈 소스 AI 필기 인식 도구입니다. 기존 OCR과 달리 텍스트 콘텐츠를 인식하고 필기 스타일, 단락 구조, 주요 표시를 복원하며 다국어 처리를 지원할 수 있습니다.
1주일 전
07.2K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Wisdom Source에서 여러 대학과 협력하여 오픈소스화한 양팔 로봇용 실제 로봇 데이터 세트입니다.

로보코인은 베이징 즈위안 인공지능 연구소가 여러 기업 및 대학과 함께 오픈소스화한 세계 최초의 대규모 양팔 로봇 실기계 데이터셋으로, 15종의 로봇 플랫폼, 18만 개의 실제 동작 궤적, 421종의 작업 시나리오가 포함되어 있습니다. 가장 큰 특징은 작업을 분해하는 계층적 주석 시스템을 채택했다는 점입니다.
2 주 전
08.5K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - 멤버지의 오픈 소스 AI 메모리 시스템

멤머신은 멤버지가 개발한 오픈 소스 AI 메모리 시스템으로, 인간의 뇌처럼 상호 작용 데이터를 저장하고 불러올 수 있어 AI의 '상태 없는 메모리 손실' 문제를 해결하는 AI 모델과 지능을 위해 설계되었습니다. 계층화된 아키텍처(단기 메모리, 장기 메모리, 사용자 이미지, ...
2 주 전
012.6K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHop의 오픈 소스 멀티모달 비디오 이해 및 대규모 모델 생성 솔루션

Vidi2는 비디오 콘텐츠 이해, 분석 및 생성에 중점을 둔 2세대 멀티모달 비디오 이해 및 생성 빅모델로, ByteDance에서 오픈소스화했습니다. 텍스트, 비디오 및 오디오 모달리티의 공동 입력을 지원하며, 사진 콘텐츠, 사운드 정보 및 자연어 명령을 동시에 이해하여 모달 간 상호 작용 및 푸시 기능을 구현할 수 있습니다.
2 주 전
010.2K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AI 팀의 오픈 소스 벤처 그래프 모델

Ovis-Image는 알리바바 인터내셔널 디지털 커머스 그룹의 AIDC-AI 팀이 오픈소스화한 70억 개의 파라미터로 구성된 텍스트 생성 그래프 모델로, 고품질 텍스트 렌더링에 중점을 두고 있습니다. Ovis-U1 아키텍처를 기반으로 고급 시각 디코더와 양방향 토큰 리파이너를 계승합니다.
2 주 전
010.5K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 위즈덤 소스 연구소 오픈 소스 멀티모달 월드 빅 모델

우지에-이뮤3.5는 베이징 지위안 인공지능 연구소의 오픈 소스 멀티모달 월드 매크로 모델로, 340억 개의 레퍼런스와 네이티브 월드 모델링 기능을 갖추고 있습니다. 10조 개의 멀티모달 토큰(790년 분량의 비디오 데이터 포함)으로 훈련된 이 모델은 물리 법칙을 시뮬레이션하고 그래픽 생성, 시각적 안내를 달성할 수 있습니다....
2 주 전
07.9K
ViMax - 香港大学开源的多智能体视频生成框架

홍콩대학교의 오픈 소스 멀티 인텔리전트 바디 비디오 생성 프레임워크인 ViMax

ViMax는 홍콩대학교 데이터 과학 연구소의 오픈 소스 다중 지능 바디 비디오 생성 프레임워크로, 크리에이티브 입력부터 비디오 출력까지 전체 프로세스를 자동화할 수 있습니다. 스크립트 생성, 장면 디자인, 샷 계획 및 비디오 렌더링 등을 통합하여 사용자가 자연어 설명을 통해 일관된 영화 및 텔레비전 등급 비디오를 생성할 수 있도록 지원합니다.
3주 전
019.8K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Microsoft의 오픈 소스 컴퓨터 운영 에이전트 어시스턴트 모델

Fara-7B는 Qwen 2.5-VL-7B 아키텍처를 기반으로 하는 70억 개 매개변수 규모의 컴퓨터 운영 에이전트(CUA) 모델의 Microsoft 오픈 소스 릴리스입니다. 웹 페이지의 스크린샷을 시각적으로 구문 분석하고 화면에서 클릭, 입력 등을 수행함으로써 추가적인 접근성 트리나 여러 개의 대형 모델에 의존할 필요가 없습니다....
3주 전
014.6K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 광학 문자 인식을 위한 텐센트의 오픈 소스 전문가 모델

훈위안OCR은 텐센트 하이브리드 팀이 오픈소스화한 고성능 광학 문자 인식 모델로, 10억 개의 레퍼런스만 보유하고 있습니다. 하이브리드 멀티모달 아키텍처를 기반으로 개발된 이 모델은 엔드투엔드 설계를 채택하여 텍스트 감지, 인식 및 문서 구문 분석 작업을 효율적으로 처리할 수 있습니다. 이 모델은 복잡한 문서 테스트에서 94.1점을 획득하여 ...
3주 전
016.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

슈퍼토닉 - 빠른 속도로 오프라인에서 실행되는 오픈 소스 고성능 AI 텍스트 음성 변환 시스템입니다.

슈퍼토닉은 로컬 장치에서 빠른 음성 생성에 초점을 맞춘 오픈 소스 고성능 텍스트 음성 변환(TTS) 시스템입니다. ONNX 런타임 기술을 사용하여 휴대폰, 컴퓨터, 심지어 라즈베리 파이와 같은 장치에서 실행할 수 있고 23개 언어와 음성 클론을 지원하며 네트워크가 필요하지 않습니다....
4주 전
013.2K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradient가 오픈소스화한 세계 최초의 완전 자율 AI 운영 체제

Parallax는 분산형 AI 연구소인 Gradient에서 오픈소스로 제공하는 세계 최초의 '완전 자율 AI 운영 체제'입니다. Mac, Windows 및 기타 이기종 장치에서 대규모 모델의 크로스 플랫폼 배포를 지원하여 사용자가 모델, 데이터 및 AI 메모리를 완전히 제어할 수 있습니다. 이 시스템은 네트워크 인식 기능이 내장되어 있습니다 ...
4주 전
018.6K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Ant Group 오픈 소스 고성능 가중치 교환 프레임워크

Awex는 강화 학습에서 대규모 파라미터 동기화를 위해 설계된 Ant Group의 오픈 소스 고성능 가중치 교환 프레임워크입니다. 몇 초 만에 테라바이트의 파라미터 교환을 완료하여 훈련 및 추론의 효율성을 크게 향상시킬 수 있으며, Awex는 매우 빠른 동기화 성능을 가지고 있으며, 수천 개의 카드 클러스터에서 6초 이내에 1조 개의 파라미터 모델을 완료할 수 있습니다....
4주 전
016.4K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 데이터 진화 프레임워크를 호출하는 상하이교통대학교와 리틀 레드북의 오픈 소스 자동화 도구

LoopTool은 상하이 자오통 대학과 리틀 레드북 팀이 오픈소스화한 자동화된 도구 호출 데이터 진화 프레임워크로, 대규모 언어 모델의 도구 호출 기능을 향상시키기 위해 설계되었습니다. 오픈 소스 모델(예: Qwen3-32B)을 데이터 생성으로 사용하여 폐쇄 루프 반복을 통해 데이터 생성 및 모델 학습을 최적화합니다.
4주 전
015.4K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - 메타 오픈 소스 3D 재구성 모델 시리즈

SAM 3D는 Meta의 SAM 시리즈를 기반으로 하는 3D 재구성 모델로, SAM 3D 오브젝트와 SAM 3D 바디의 두 가지로 구성되어 있습니다. SAM 3D 오브젝트는 단일 사진에서 인터랙티브 3D 오브젝트 모델을 생성할 수 있으며, 다음과 같은 기능을 지원합니다.
4주 전
014.2K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

에이전트 에볼버 - 진화하는 지능을 위한 알리 통이 연구소의 오픈 소스 시스템

에이전트이볼버는 알리바바 통이 연구소의 오픈소스 지능형 신체 진화 시스템입니다. 자체 질문, 자체 탐색 및 자체 귀속의 세 가지 메커니즘을 통해 지능의 자율 학습 및 진화를 달성하며, 에이전트 에볼버는 환경 샌드박스, LLM 및 sc를 결합한 서비스 지향 아키텍처를 채택합니다.
1개월 전
020.6K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

위드애니원 - 푸단 공동 스텝 도약 스타 오픈소스 AI 사진 생성 모델

위드애니원은 푸단대학교와 스텝스타가 공동 개발한 인공지능 사진 생성 모델로, 기존 인공지능 이미지 생성의 일반적인 '복사 및 붙여넣기' 문제를 해결하고 보다 자연스럽고 제어 가능한 다인용 이미지 생성을 실현합니다. 이 모델은 대규모 데이터 세트 MultiID-2M을 기반으로 합니다 ...
1개월 전
016.5K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - 대화형 학습을 시각화하는 오픈 소스 AI 교육 보조 도구

ChatTutor는 오픈 소스 AI 교구로, STEM 과목의 시각적 대화형 학습에 중점을 두고 있습니다. 대화 Q&A 및 동적 그리기 기능을 달성하는 다중 지능형 바디 아키텍처를 통해 화이트보드에 수학 그래픽, 물리 회로 또는 마인드맵을 실시간으로 그릴 수 있어 사용자가 추상적인 일반 개념을 직관적으로 이해할 수 있도록 도와줍니다.
1개월 전
010.4K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

에버메모스 - 팀 샨다의 오픈 소스 장기 메모리 운영 체제

에버메모스는 첸 티엔차오가 이끄는 샨다 팀이 출시한 오픈 소스 장기 기억 운영체제로, 대규모 언어 모델의 고정된 컨텍스트 창으로 인한 메모리 단절 문제를 해결하기 위해 인공지능을 위해 설계되었습니다. 이 시스템은 인간의 뇌 기억 메커니즘을 기반으로 4계층 아키텍처(에이전트 계층, 메모리 계층, 인덱스 계층, ...
1개월 전
014.4K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - 텐센트 혼합 메타 및 칭화 오픈소스 풀스택 멀티모달 대형 모델 프로젝트

Bee는 데이터 품질을 개선하여 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 좁히기 위해 텐센트 혼합 요소 팀과 칭화대학교가 공동으로 출시한 풀스택 오픈 소스 멀티모달 빅 모델 솔루션입니다. 이 프로젝트에는 세 가지 핵심 성과가 포함되어 있습니다. 1,500만 개 규모의 고품질 2계층 CoT 데이터 세트 Honey-Data...
1개월 전
012.2K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - 바이트 오픈 소스 통합 시공간 자동 회귀 비디오 생성 프레임워크

InfinityStar는 고해상도 이미지 및 동영상 생성을 위해 설계된 ByteDance에서 오픈소스화한 통합 시공간 자동 회귀 프레임워크입니다. 개별 자동 회귀 접근 방식을 사용하여 단일 모델에서 텍스트 대 이미지, 텍스트 대 비디오 및 이미지 대 비디오 작업을 동시에 처리할 수 있습니다. 이 프레임워크는 VBench에서 벤치마킹되었습니다 ...
1개월 전
011.8K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - 미시간 대학교와 협력하여 뮌헨 대학교에서 오픈소스화한 탈중앙화 머신 러닝 플랫폼

코이나는 프로테오믹스 데이터 분석을 간소화하는 데 중점을 둔 오픈 소스 분산형 머신 러닝 플랫폼입니다. 독일 뮌헨 공과대학교와 미국 미시간 대학교의 연구팀이 개발했습니다. 이 플랫폼은 표준화된 인터페이스를 통해 30개 이상의 주류 모델(예: ProSIT, MS²PIP)을 통합하고 펩타이드 질량...
1개월 전
012.4K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델인 VibeThinker-1.5B

바이브씽커-1.5B는 웨이보 AI에서 오픈소스로 제공하는 15억 개의 파라미터를 가진 대규모 언어 모델입니다. 알리바바의 Qwen2.5-Math-1.5B를 기반으로 미세 조정된 이 모델은 수학 및 코딩 작업에 최적화되어 있으며 업계 최고의 추론 성능으로 뛰어난 성능을 발휘합니다.
1개월 전
019.1K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - 다양한 고품질 기술 콘텐츠를 제공하는 오픈 소스 AI 콘텐츠 집계 플랫폼

베스트블로그는 기술 실무자, 기업가, 제품 관리자 등을 위한 고품질 콘텐츠를 제공하는 데 중점을 둔 플랫폼입니다. RSS 피드와 크롤러 기술을 통해 400개가 넘는 고품질 블로그에서 기사, 팟캐스트, 동영상 및 기타 다양한 형식의 콘텐츠를 수집합니다. 핵심 강점은 AI 빅 랭귀지 활용에 있습니다...
1개월 전
012.4K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM을 기반으로 구축된 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼입니다.

LazyCraft는 오픈 소스 프레임워크 LazyLLM을 기반으로 상탕이 구축한 오픈 소스 AI 에이전트 애플리케이션 개발 및 관리 플랫폼으로, 기업과 개발자를 위한 원스톱 AI 애플리케이션 개발 솔루션을 제공합니다. 개발자가 낮은 임계값과 저렴한 비용으로 대규모 모델 애플리케이션을 신속하게 빌드하고 출시할 수 있도록 지원합니다.
1개월 전
017K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - 상탕 테크놀로지의 오픈 소스 공간 인텔리전스 대규모 모델 제품군

센스노바-SI는 샹테크에서 출시한 오픈 소스 공간 지능 그랜드 모델로, 공간 이해와 추론에 있어 AI의 능력을 향상시키는 데 중점을 두고 있습니다. 이 모델은 공간 측정, 재구성, 관계 판단, 원근 변환, 변형 분석, 공간 추론 등 6가지 핵심 차원에서 탁월한 성능을 발휘하며 다른 모델보다 월등히 뛰어납니다.
1개월 전
012.8K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - 애플리케이션을 시각적으로 구축할 수 있는 무료 오픈 소스 AI 노코드 개발 플랫폼입니다.

노코베이스는 AI 기반 오픈 소스 노코드 개발 플랫폼을 기반으로 비즈니스 시스템의 신속한 구축을 지원하며, 애플리케이션 개발 구성을 통해 프로그래밍을 완료 할 수 없습니다. 이 프로젝트는 Apache-2.0 프로토콜을 사용하고 기업 관리, 협업 플랫폼 및 기타 분야에 적합한 개인 배포 및 유연한 확장 성을 제공합니다 ...
1개월 전
010.6K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

래빗쇼 인텔리전스와 북경대학교가 출시한 차세대 이미지 편집 모델, UniWorld V2

유니월드 V2는 래빗잔 인텔리전스와 북경대학교의 유니월드 팀이 공동으로 출시한 차세대 이미지 편집 모델입니다. 이미지 편집 분야, 특히 복잡한 명령의 중국어 이해와 실행에 있어 상당한 이점을 가지고 있습니다. 이 모델은 예술적인 중국어 글꼴을 정확하게 렌더링하고 미세한 글꼴을 지원할 수 있습니다.
1개월 전
014.7K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

Step-Audio-EditX는 스텝스타 팀이 개발한 오픈 소스 오디오 편집 매크로 모델로, 인공 지능 기술을 통한 오디오 콘텐츠의 세밀한 조작에 중점을 두고 있습니다. 이 모델은 오디오 분위기, 말하기 스타일(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨...)를 동적으로 조정할 수 있습니다.
1개월 전
014K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 비디오 - 북경대학교에서 오픈소스화한 비디오 추론 모델 유나이티드바이트

Open-o3 Video는 북경대학교와 바이트댄스가 공동 개발한 오픈 소스 비디오 추론 모델로, 시간적 및 공간적 증거를 통해 비디오 추론을 향상시키는 데 중점을 두고 있습니다. 타임스탬프와 바운딩 박스로 주요 증거에 명시적으로 레이블을 지정하여 모델이 비디오 콘텐츠를 더 잘 이해하고 해석할 수 있도록 도와줍니다.
1개월 전
014.3K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

크로노에디트 - NVIDIA와 토론토 대학교에서 오픈소스로 제공하는 AI 이미지 편집 프레임워크

NVIDIA와 토론토 대학교가 공동 개발한 오픈 소스 AI 이미지 편집 프레임워크인 ChronoEdit는 이미지 편집 작업을 비디오 생성 작업으로 재정의하여 편집 결과가 시간적, 물리적으로 일관성을 유지하도록 합니다. 14억 개의 파라미터로 사전 훈련된 비디오 생성 모델을 추출하여 ...
2개월 전
019.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

키미 리니어 - 달의 어두운 면에 오픈소스화된 새로운 하이브리드 선형 주의 아키텍처

키미 리니어는 다크 사이드 오브 더 문에서 오픈소스화한 새로운 하이브리드 선형 주의 아키텍처로, 키미 델타 어텐션(KDA)을 핵심으로 하며, 세밀한 게이팅 메커니즘을 통해 기존 주의 모델을 최적화하여 하드웨어 효율성과 메모리 제어 능력을 크게 향상시킵니다....
2개월 전
026.2K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
2개월 전
024.8K
OmniVinci - NVIDIA开源的全模态大语言模型

옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델

옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.
2개월 전
018.5K