PaddleOCR-VL - 바이두 오픈 소스 초경량 시각 언어 모델
PaddleOCR-VL은 문서 구문 분석 시나리오에 최적화된 바이두의 오픈 소스 초경량 시각 언어 모델입니다. 이 모델은 동적 고해상도 시각 코더와 경량 ERNIE 언어 모델의 융합을 통해 0.9억 개의 파라미터만 포함하며, 높은 정확도를 유지하고 계산 오버헤드를 크게 줄입니다.
유니픽셀 - 홍콩 폴리테크닉, 텐센트, 중국과학원 등이 오픈소스로 제공하는 픽셀 수준의 멀티모달 모델입니다.
유니픽셀은 픽셀 수준의 시각 언어 이해를 달성하기 위해 홍콩 폴리테크닉 대학교, 텐센트, 중국과학원, Vivo가 공동으로 제안한 새로운 멀티모달 모델입니다. 객체 참조 및 분할 기능을 통합하여 이미지 분할, 비디오 분할, 영역 이해 및 파이분할과 같은 다양한 세분화된 작업을 지원합니다.
DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크
DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...
칸딘스키 5.0 - 러시아 AI 팀의 오픈 소스 비디오 생성 모델 시리즈
칸딘스키 5.0은 러시아 AI 팀이 개발한 최신 비디오 생성 모델 시리즈로, 가벼운 디자인과 고성능 성능에 중점을 두고 있습니다. 이 시리즈의 첫 번째 모델인 칸딘스키 5.0 비디오 라이트는 매개 변수가 20억 개에 불과하지만, 특히 유사한 14억 개에 달하는 모델을 능가합니다.
송블룸 - 홍콩중문대 및 NTU와 협력한 텐센트의 오픈 소스 곡 생성 모델
송블룸은 홍콩 중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래를 생성할 수 있습니다. 10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면...
Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스
Pyscn은 파이썬 개발자가 코드의 잠재적 문제를 감지하여 유지보수성을 개선할 수 있도록 설계된 지능형 코드 품질 분석 도구입니다. 제어 흐름도를 통해 데드 코드를 분석하고, APTED+LSH 알고리즘을 사용하여 중복 코드를 식별하고, 모듈 결합 및 원 복잡도와 같은 메트릭을 계산합니다....
Youtu-Embedding - 텐센트 유튜브 오픈소스 일반 텍스트 표현 모델
Youtu-Embedding은 엔터프라이즈급 애플리케이션을 위해 설계된 Tencent의 Youtu Labs에서 개발한 오픈 소스 범용 텍스트 표현 모델입니다. 텍스트는 심층 신경망에 의해 고차원 벡터 공간에 매핑되어 의미적으로 유사한 문장이 해당 공간에서 서로 가깝게 배치되어 정확한 의미 검색을 달성합니다.
SAIL-VL2 - ByteHop의 오픈 소스 멀티모달 시각 언어 모델
SAIL-VL2는 이미지와 텍스트와 같은 멀티모달 입력의 공동 모델링에 중점을 둔 Byte Jump 팀의 오픈 소스 멀티모달 시각 언어 모델입니다. 전문가(MoE) 아키텍처와 점진적 훈련 전략의 희소 혼합을 사용하여 2B~8B의 매개변수 규모, 특히 그래픽 이해, 수학적 이해에서 높은 성능을 달성합니다.
MineContext - 바이트 오픈 소스 액티브 컨텍스트 인식 AI 파트너
MineContext는 사용자가 방대한 양의 정보를 효율적으로 관리하고 지식 업무의 효율성을 개선할 수 있도록 돕기 위해 ByteDance Viking 팀이 오픈소스로 제공하는 적극적인 상황 인식 AI 파트너입니다. 스크린샷 및 콘텐츠 이해 기술을 통해 사용자의 일상적인 작업(예: 웹 검색, 문서 편집 등)을 자동으로 기록하고, 지원...
나노챗 - Karpathy의 무료 오픈소스 저비용 모델 교육 프로젝트
나노챗은 AI의 전설이자 전 테슬라 AI 디렉터인 안드레이 카르파티가 공개한 오픈 소스 프로젝트로, 개인이 매우 저렴한 비용과 단순함으로 작은 ChatGPT와 유사한 언어 모델을 빠르게 훈련할 수 있도록 해줍니다. 전체 프로젝트는 약 800개만 사용합니다.








