AI 공유 서클

AI가 세상을 바꾸고 있습니다!
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...
4주 전
09.3K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - 바이두 오픈 소스 추론 사고 모델

ERNIE-4.5-21B-A3B-Thinking은 추론 작업에 초점을 맞춘 바이두의 오픈 소스 대규모 언어 모델입니다. 혼합 전문가(MoE) 아키텍처를 사용하여 총 참조 수는 210억 개에 달하며, 각 토큰은 30억 개의 매개 변수를 활성화하여 128K의 긴 컨텍스트 창을 지원합니다 ...
4주 전
09.3K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 상하이교통대학교 오픈 소스 모바일 인텔리전트 바디 풀스택 구축 프레임워크

모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...
4주 전
09.9K
ZipVoice - 小米开源的语音合成系列模型

ZipVoice - Xiaomi의 오픈 소스 음성 합성 모델 제품군

ZipVoice(제로 샘플 단일 화자 음성 합성 모델)와 ZipVoice-Dialog(제로 샘플 대화 음성 합성 모델)를 포함하여 Xiaomi에서 출시한 Flow Matching 아키텍처 기반의 일련의 음성 합성(TTS) 모델로, ZipVoice는 ...
4주 전
011.2K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 차세대 텍스트 인식을 위한 바이두의 오픈소스 AI 모델

PP-OCRv5는 바이두에서 출시한 최신 세대의 텍스트 인식 AI 모델입니다. 경량 설계와 0.07B에 불과한 참조 개수로 CPU와 엣지 디바이스에서 효율적으로 실행하기에 적합하며 초당 370개 이상의 문자를 처리할 수 있습니다. 이 모델은 중국어 간체, 중국어 번체, 영어, 일본어, 병음...을 지원합니다.
4주 전
014.1K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크

Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
4주 전
010K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크

스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
4주 전
09K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - 정밀한 지속 시간 제어를 최초로 지원하는 B 스테이션 오픈 소스 무료 TTS 모델

IndexTTS2는 B 스테이션 음성 팀이 오픈소스화한 새로운 무료 텍스트 음성 변환(TTS) 모델로, 감정 표현과 지속 시간 제어에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자동 회귀형 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며 하나의 오디오 파일 만 사운드를 정확하게 복사 할 수 있습니다....
4주 전
023.9K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 칭화대학교 유나이티드 바이트 오픈 소스 멀티모달 비디오 생성 프레임워크

HuMo는 칭화대학교와 바이트댄스 인텔리전트 크리에이션 랩이 공동으로 오픈소스화한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 중점을 두고 있습니다. 텍스트, 이미지 및 오디오와 같은 멀티모달 입력에서 고품질의 세밀하고 제어 가능한 휴먼 비디오를 생성할 수 있으며, HuMo는 강력한 텍스트 큐 팔로잉 기능을 지원합니다.
4주 전
016.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - 무료 AI 시맨틱 문서 슬라이싱 도구, 동적 슬라이싱 조정

AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
1개월 전
013K