최신 AI 리소스

共 2828 篇文章
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - 알리클라우드 통이 첸첸 오픈 소스 멀티모달 시각 언어 매크로 모델

Qwen3-VL은 알리클라우드 통이 첸첸 팀의 오픈소스 멀티모달 시각 언어 대형 모델로, 235억 개의 참조와 약 471GB의 모델 파일이 있으며, 인스트럭션 및 사고 버전을 포함하고, 향상된 MRope 인터리브 레이아웃, 딥스택 및 기타 기술을 채택하여 시각 변환을 효과적으로 사용할 수 있습니다 ...
2개월 전
024.8K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - 알리 퀀 오픈 소스 보안 모델

Qwen3Guard는 보안 탐지를 위해 설계된 Qwen3 기본 모델을 기반으로 미세 조정된 보안 보호 모델입니다. 프롬프트 및 응답에 대한 정확한 보안 분류를 제공하고 위험 수준을 제공하며 영어, 중국어 및 다국어 환경을 지원합니다.Qwen3Guard는 두 가지 프로 버전으로 제공됩니다.
2개월 전
024K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - 알리 통이의 음성 합성 모델

Qwen3-TTS-Flash는 알리통이가 도입한 고급 음성 합성 모델로 중국어, 영어, 방언 등 17개 음색과 10개 언어를 지원합니다. 중국어와 영어 음성의 안정성이 뛰어나고 표현력이 높으며 음성 톤을 자동으로 조정하여 더욱 생생하게 표현할 수 있는 모델입니다.
2개월 전
023.7K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델

완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...
2개월 전
022.2K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

샤오미 미모 오디오는 다국어 대화, 음성 연속, 적은 샘플 일반화 및 오디오 이해와 같은 강력한 기능을 갖춘 샤오미의 오픈 소스 70억 개 파라미터 엔드투엔드 음성 매크로 모델로, 음성 지능 및 오디오 이해 벤치마크에서 구글 제미를 능가하는 SOTA 레벨에 도달할 수 있습니다.
2개월 전
019.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 상하이 AI 랩, 대형 모델 구현을 위한 운영 기능의 오픈 소스 통합

InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.
2개월 전
018.9K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - 직면 지능과 칭화 오픈 소스 엔드투엔드 TTS 모델

VoxCPM은 Facade Intelligence와 칭화대학교 선전 국제대학원이 공동으로 오픈소스화한 음성 생성 모델로, 엔드투엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 표현을 생성함으로써 기존의 이산적 명료화의 한계를 극복합니다. 계층적 언어 모델링과 유한 상태 양자화를 통해 ...
2개월 전
023K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델

InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
2개월 전
018.3K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델

VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...
2개월 전
016.4K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'

InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...
2개월 전
017.9K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - 유슈 테크놀로지 오픈 소스 월드 모델 액션 아키텍처

UnifoLM-WMA-0은 일반 로봇 학습을 위해 설계된 유슈 테크놀로지의 여러 로봇 온톨로지 클래스에 걸친 오픈 소스 월드 모델-액션 아키텍처입니다. 월드 모델과 액션 아키텍처로 구성된 월드 모델은 로봇과 환경 상호 작용의 물리적 법칙을 이해하고, 액션 아키텍처는 특정 동작을 담당합니다.
2개월 전
023.5K
Hyprnote - 开源的本地优先AI会议笔记工具

하이프노트 - 오픈 소스 로컬 최초의 AI 회의 노트 필기 도구

하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.
2개월 전
018.5K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...
2개월 전
017.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 상하이교통대학교 오픈 소스 모바일 인텔리전트 바디 풀스택 구축 프레임워크

모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...
2개월 전
017.4K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 차세대 텍스트 인식을 위한 바이두의 오픈소스 AI 모델

PP-OCRv5는 바이두에서 출시한 최신 세대의 텍스트 인식 AI 모델입니다. 경량 설계와 0.07B에 불과한 참조 개수로 CPU와 엣지 디바이스에서 효율적으로 실행하기에 적합하며 초당 370개 이상의 문자를 처리할 수 있습니다. 이 모델은 중국어 간체, 중국어 번체, 영어, 일본어, 병음...을 지원합니다.
2개월 전
029.4K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크

Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
2개월 전
018K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크

스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
2개월 전
015.7K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - 정밀한 지속 시간 제어를 최초로 지원하는 B 스테이션 오픈 소스 무료 TTS 모델

IndexTTS2는 B 스테이션 음성 팀이 오픈소스화한 새로운 무료 텍스트 음성 변환(TTS) 모델로, 감정 표현과 지속 시간 제어에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자동 회귀형 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며 하나의 오디오 파일 만 사운드를 정확하게 복사 할 수 있습니다....
2개월 전
051.2K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

미니막스 뮤직 1.5 - 미니막스의 최신 AI 음악 생성 모델!

미니맥스 뮤직 1.5는 사용자의 자연어 설명을 기반으로 최대 4분 분량의 음악 생성을 지원하는 고급 AI 음악 생성 도구입니다. 이 모델은 다양한 음악 스타일과 분위기 사용자 지정을 지원하며 자연스럽고 완전한 보컬 톤, 부드러운 전환 및 풍부한 레이어 편곡을 생성합니다....
3 개월 전
019.4K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 칭화대학교 유나이티드 바이트 오픈 소스 멀티모달 비디오 생성 프레임워크

HuMo는 칭화대학교와 바이트댄스 인텔리전트 크리에이션 랩이 공동으로 오픈소스화한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 중점을 두고 있습니다. 텍스트, 이미지 및 오디오와 같은 멀티모달 입력에서 고품질의 세밀하고 제어 가능한 휴먼 비디오를 생성할 수 있으며, HuMo는 강력한 텍스트 큐 팔로잉 기능을 지원합니다.
3 개월 전
039.7K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 푸단 및 알리 다르마 연구소 및 기타 오픈 소스 지능형 이미지 애니메이션 생성 프레임워크

AnyI2V는 푸단대학교, 알리바바 다모 아카데미 등이 공동으로 출시한 이미지 애니메이션 생성 프레임워크로, 복잡한 학습 과정과 많은 양의 데이터 없이도 정적인 조건부 이미지(예: 그리드, 포인트 클라우드 등)를 동적인 동영상으로 변환할 수 있도록 지원합니다.
3 개월 전
017K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

웬신 빅 모델 X1.1 - 더 나은 이해를 위한 바이두의 딥씽킹 모델

웬신 빅 모델 X1.1은 언어 이해와 생성을 개선하는 데 중점을 둔 하이브리드 강화 학습 프레임워크를 기반으로 바이두에서 출시한 심층 사고 모델입니다. 이 모델은 복잡한 질문을 처리하고, 지시를 따르고, 지능의 행동을 시뮬레이션하는 데 탁월하며, 지식이 풍부한 답변과 고품질 텍스트 콘텐츠를 정확하게 제공할 수 있습니다.
3 개월 전
021.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - 무료 AI 시맨틱 문서 슬라이싱 도구, 동적 슬라이싱 조정

AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
3 개월 전
022K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 직면면 인텔리전스를 통한 매우 효율적인 엔드사이드 매크로 모델링

MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...
3 개월 전
019.7K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - 텐센트 위챗 오픈 소스 문서 이해 및 시맨틱 검색 프레임워크

WeKnora는 대규모 언어 모델(LLM) 문서 이해 및 의미 검색 프레임워크에 기반한 텐센트 위챗 팀의 오픈 소스로, 복잡하고 이질적인 문서 콘텐츠 시나리오의 구조를 위해 설계되었으며 모듈식 아키텍처, 다중 모드 전처리 통합, 의미 벡터 인덱싱, 지능형 리콜 및 대규모 모델 생성 추론을 사용하도록 설계되었습니다 ....
3 개월 전
029.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 상하이 AI 랩 오픈 소스 대규모 모델 학습 엔진

XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.
3 개월 전
018.9K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 통이 첸첸의 플래그십 빅 언어 모델

Qwen3-Max-Preview는 통이췐웬에서 출시한 최신 플래그십 대형 언어 모델입니다. Qwen3 제품군에서 가장 많은 파라미터를 가진 모델로, 파라미터 크기가 1조 개가 넘습니다. 이 모델은 추론, 명령어 추종, 다국어 지원 및 롱테일 지식 범위에서 상당한 개선을 이루었습니다...
3 개월 전
024K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 메이퇀과 상하이교통대학교를 위한 오픈 소스 멀티모달 모델

원캣은 메이투안이 상하이교통대학교와 함께 출시한 새로운 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 원활하게 통합하는 순수 디코더 아키텍처를 채택하고 있습니다. 이 모델은 외부 시각 코더와 모달리티별 디스모게이터에 의존하는 기존 멀티모달 모델의 설계를 버리고 모달리티별 ...
3 개월 전
019.8K
Kimi K2-0905 - 月之暗面推出的最新模型版本

키미 K2-0905 - 다크 사이드 오브 더 문 최신 모델 출시!

Kimi K2-0905는 프로그래밍 지원 기능이 뛰어나고 코드를 효율적으로 생성하며 프론트엔드 개발에서 깔끔하고 표준화된 코드 생성을 지원하는 다크 사이드 오브 더 문 테크놀로지스의 고급 AI 모델입니다. 모델 컨텍스트 길이가 256K로 확장되어 복잡한 작업을 처리할 수 있습니다.
3 개월 전
031K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

스텝오디오 2 미니 - 스텝스타 오픈 소스 음성 매크로 모델링

스텝오디오 2 미니는 스텝오디오의 오픈 소스 엔드투엔드 음성 매크로 모델입니다. 기존의 음성 모델 구조를 깨고 진정한 엔드투엔드 멀티모달 아키텍처를 채택하여 원시 오디오 입력을 짧은 지연 시간으로 음성 응답 출력으로 직접 변환하고 언어학적 정보 및 비음성 신호를 이해합니다.
3 개월 전
029.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 상하이 AI 랩 오픈 소스 멀티모달 대형 모델

InternVL3.5(Shusheng-Wanxiang 3.5)는 상하이 인공 지능 연구소의 오픈 소스 멀티 모달 대형 모델로, 일반 능력, 추론 능력 및 배포 효율성 측면에서 완전히 업그레이드되어 10억에서 2410억 개의 매개 변수까지 9가지 크기의 버전을 제공하며, 두께를 포함한 다양한 리소스 수요 시나리오를 포괄합니다....
3 개월 전
029.3K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Apple의 시각 언어 모델링

FastVLM(Fast Vision Language Model)은 Apple에서 도입한 효율적인 시각 언어 모델입니다. FastViTHD 하이브리드 비주얼 코더를 핵심으로 컨볼루션 및 트랜스포머 아키텍처를 통합하여 시각적...
3 개월 전
025.6K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 모델 지침이 루브릭 세트를 따르는 능력에 대한 Meeseeks 오픈 소스 평가

미즈윅스는 메이퇀의 M17 팀이 모델의 지시를 따르는 능력을 평가하기 위해 사용하는 오픈 소스 대규모 모델 평가 세트입니다.미즈윅스는 3단계 평가 프레임워크를 사용하여 모델이 매크로에서 마이크로 수준까지 사용자의 지시에 따라 답변을 생성할 수 있는지 종합적으로 측정하며 답변 내용에 대한 지식은 긍정적으로 평가하지 않습니다.
3 개월 전
025.2K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAI의 최신 AI 음성 모델

gpt-realtime은 자연스럽고 부드러운 음성을 생성하기 위해 오디오의 직접 처리를 지원하는 OpenAI의 고급 음성 모델입니다. 이 모델은 여러 언어와 스타일을 지원하고 웃음과 같은 비언어적 단서를 이해하며 언어 간에 전환할 수 있습니다.
3 개월 전
026.8K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

훈위안비디오-폴리 - 텐센트의 오픈 소스 비디오 사운드 생성 모델

훈위안비디오-폴리는 무음 동영상에 정확하게 일치하는 음향 효과를 추가하는 것을 지원하는 텐센트 혼합원 팀의 오픈 소스 동영상 사운드 생성 모델입니다. 이 모델은 대규모 데이터 세트 학습을 기반으로 하며, 다중 모드 확산 변환기 아키텍처와 정렬 손실 함수 표현 및 오디오 VAE 최적화 기술이 결합되어 있습니다 ...
3 개월 전
032K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - 8가지 사고 경로를 동시에 열어주는 Ask o4에서 도입한 병렬 사고 모델

Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
3 개월 전
025.8K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpialGen - Qunar Technologies의 오픈 소스 3D 씬 생성 모델

스페이셜젠은 확산 모델 아키텍처를 기반으로 하는 쿠나 테크놀로지의 오픈 소스 3D 장면 생성 모델로, 텍스트 설명, 참조 이미지 및 3D 공간 레이아웃을 기반으로 시공간적으로 일관된 멀티뷰 이미지를 생성하고 3D 가우시안 장면 생성 및 로밍 비디오 렌더링을 지원합니다.
3 개월 전
026.8K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - 네일과 통이가 공동으로 출시한 차세대 음성 인식 모델

Fun-ASR은 네일과 통이랩스가 공동으로 출시한 대형 음성 인식 모델입니다. 이 모델은 방대한 오디오 데이터로 학습되어 인터넷, 기술, 가정 장식 등과 같은 여러 산업 분야의 용어를 정확하게 식별할 수 있어 인식 정확도를 크게 향상시켰습니다. 이 모델은 추론 최적화를 위해 네일 엔터프라이즈 정보와 결합되어 팬텀 문제를 줄입니다.
3 개월 전
048.4K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - 아이디어에서 창작까지 전 과정을 지원하는 AI 소설 지원 글쓰기 플랫폼

스퀴블러는 작가를 위해 설계된 강력한 AI 지원 글쓰기 플랫폼으로, 구상부터 창작, 출판에 이르는 전 과정을 도와줍니다. 이 플랫폼은 소설, 시나리오, 단편 소설 등 다양한 스토리 템플릿을 제공합니다. 사용자는 초기 컨셉만 입력하면 AI가 개요, 캐릭터, 장면 등을 생성할 수 있습니다.
3 개월 전
027.4K
91写作 - 开源的AI智能小说创作平台

91Writing - 오픈 소스 AI 지능형 소설 창작 플랫폼

91Writing은 완전 오픈 소스 AI 소설 창작 도구로, Vue 3 및 Element Plus를 기반으로 개발되어 GPT, Claude, Gemini 등과 같은 다양한 고급 AI 모델을 통합합니다. 이 도구는 창작자에게 프로젝트 생성을 포함하여 아이디어에서 텍스트까지 완벽한 창작 도구 체인을 제공합니다....
3 개월 전
027.5K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Musk의 xAI 오픈 소스 AI 모델

Grok 2.5는 Elon Musk의 xAI에서 개발한 오픈 소스 AI 모델입니다. 2,690억 개의 파라미터를 갖춘 이 모델은 강력한 성능과 추론을 위해 혼합 전문 지식(MoE) 아키텍처를 기반으로 합니다. 이 모델은 대학원 수준의 과학 지식(GPQA), 범용 지식(MMLU, MM ...
3 개월 전
030.2K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - 한 번의 클릭으로 주제별 동영상 컬렉션을 생성하는 오픈 소스 AI 동영상 슬라이싱 도구!

AutoClip은 자동화된 비디오 처리의 전체 프로세스를 달성하기 위해 고급 AI 기술을 기반으로 하는 오픈 소스 AI 비디오 편집 도구입니다. 도구는 비디오의 하이라이트를 자동으로 식별하고 귀중한 콘텐츠를 정확하게 추출 할 수 있으며 지능형 클러스터링 테마의 유사성을 기반으로 콘텐츠 모음을 생성 할 수 있습니다.AutoClip 지원 ...
3 개월 전
033.5K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - 워드프레스 팀에서 오픈소스로 제공하는 새로운 AI 모델

Seed-OSS는 긴 텍스트와 추론 작업에 중점을 둔 Byte Jump Seed 팀이 오픈소스화한 대규모 언어 모델 제품군입니다. 이 모델은 복잡한 논리적 추론과 다단계 추론에서 높은 정확도로 잘 수행하며 어려운 문제를 효율적으로 해결할 수 있습니다.Seed-OSS는 최대 512K의 긴 텍스트 컨텍스트를 지원합니다....
3 개월 전
031.7K
CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - Amoy Group의 효율적인 VLA 모델

CombatVLA는 아모이 그룹의 퓨처 라이프 랩 팀이 개발한 혁신적인 3D 액션 롤플레잉 게임(ARPG) 전용 모델로, 3B 파라메트릭 스케일로 구축된 시각-언어-행동(VLA) 모델로, 모션 트래커를 통해 인간 플레이어의 동작을 수집합니다.
3 개월 전
028.4K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - DeepSeek의 최신 오픈 소스 AI 모델

DeepSeek V3.1은 이전 버전인 V3를 기반으로 중요한 업그레이드가 이루어진 차세대 AI 모델로, 모델이 사고 모드와 비사고 모드 사이를 유연하게 전환할 수 있는 하이브리드 추론 아키텍처를 도입하여 사고 능력을 크게 향상시켰습니다.
3 개월 전
030.5K