Z-Image - 알리 통이 연구소의 오픈 소스 이미지 생성 모델

최신 AI 리소스3주 전에 게시 됨 AI 공유 서클
20.4K 00
堆友AI

Z-이미지란?

Z-Image는 효율적이고 빠르며 강력한 이미지 생성 기능을 갖춘 알리 통이 연구소의 오픈 소스 이미지 생성 모델입니다. 텍스트, 시각적 의미 및 이미지 VAE 토큰을 통합된 입력 스트림으로 통합하여 매개변수 효율성을 극대화하는 단일 스트림 확산 트랜스포머 아키텍처(S3-DiT)를 채택하고 있습니다. 핵심 혁신 기술인 디커플링-분포 매칭 증류(DMD)와 강화 학습 및 분포 매칭 증류 융합(DMDR)은 적은 단계 생성의 성능과 이미지 품질을 획기적으로 개선하며, Z-Image-Turbo 버전은 단 8개의 함수 평가로 고품질 이미지를 생성하고 1초 미만의 추론 지연 시간을 지원하며 저메모리 장치에 적응하고 사실적인 이미지 생성 및 이중 언어 텍스트 렌더링에 탁월한 성능을 발휘할 수 있습니다. Z-Image-Edit 버전은 자연어 단서를 기반으로 정밀한 편집이 가능한 이미지 편집 작업에 중점을 두고 있으며, Z-Image-Base는 커뮤니티에 미세 조정 및 맞춤형 개발을 위한 더 넓은 범위를 제공하는 미완성된 기본 모델입니다.

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image의 특징

  • 효율적이고 빠른 생성Z-Image-Turbo 버전은 단 8번의 함수 평가로 고품질 이미지를 생성하고 1초 미만의 추론 지연 시간을 달성하며 저용량 그래픽 메모리 장치와 호환되므로 신속한 프로토타이핑과 창의적인 탐색이 가능합니다.
  • 강력한 텍스트 렌더링이중 언어 텍스트 렌더링을 지원하여 중국어와 영어가 모두 포함된 이미지를 정확하게 생성하여 여러 언어의 요구 사항을 충족할 수 있습니다.
  • 사실적인 이미지 생성창의적인 디자인 및 시각 효과 제작에 사용할 수 있는 자연스러운 조명, 사실적인 질감, 사실적인 장면을 갖춘 이미지를 생성하는 전문성.
  • 창의적인 이미지 편집Z-Image-Edit 버전은 자연어 프롬프트를 기반으로 정밀한 이미지 편집이 가능하며 다양한 창작 요구에 맞는 창의적인 이미지 간 생성을 지원합니다.
  • 오픈 소스 및 유연한 애플리케이션코드, 가중치 및 온라인 데모는 오픈 소스이며 Apache 2.0 라이선스를 따르므로 광범위한 상용 프로젝트가 가능하며 개발자에게 사용자 정의 및 개발을 위한 풍부한 공간을 제공합니다.

Z-Image의 핵심 강점

  • 단일 스트림 확산 변압기 아키텍처(S3-DiT)Z-Image는 이 아키텍처를 사용하여 시퀀스 수준에서 텍스트, 시각적 시맨틱 토큰 및 이미지 VAE 토큰을 통합 입력 스트림으로 스티칭하여 매개변수 효율성을 극대화합니다.
  • 디커플링-DMD(디커플링 분배 매칭 증류)는 8단계 Z-Image 모델을 강화하는 핵심적인 단계 축소 증류 알고리즘입니다. 두 가지 메커니즘인 CFG 증강(CA)과 분포 매칭(DM)을 분리하여 독립적으로 연구하고 최적화함으로써 단계가 적은 생성의 성능을 크게 향상시켰습니다.
  • DMDR(강화 학습 및 분포 매칭 증류 융합)디커플링-DMD를 기반으로, 덜 단계적인 모델의 학습 후 단계에서 강화 학습(RL)과 분포 매칭 증류(DMD)를 시너지 효과를 내면서 의미적 정렬, 미적 품질, 구조적 일관성을 더욱 개선하고 고주파 디테일이 더 풍부한 이미지를 생성할 수 있습니다.
  • 단계가 적은 효율적인 추론디커플링-분산 매칭 증류(Decoupled-DMD) 기술을 사용하여 단 8단계로 고품질 이미지를 생성하며, 추론 속도가 빠르고 그래픽 메모리 장치에 적합하며 추론 지연 시간이 짧습니다.
  • 강력한 텍스트 렌더링영어와 중국어 이중 언어 텍스트 렌더링을 지원하고, 복잡한 텍스트가 포함된 이미지를 정확하게 생성하며, 다국어 환경에 적합합니다.
  • 고품질 이미지 생성자연스러운 조명, 사실적인 텍스처, 사실적인 장면으로 사진처럼 사실적인 이미지를 생성하여 까다로운 시각 효과 요구 사항을 충족합니다.
  • 정밀한 이미지 편집Z-Image-Edit 버전은 자연어 명령을 기반으로 정밀한 이미지 편집이 가능하며 강력한 편집 기능으로 창의적인 이미지 간 생성을 지원합니다.

Z-Image의 공식 웹사이트는 무엇인가요?

  • 프로젝트 웹사이트:: https://tongyi-mai.github.io/Z-Image-blog/
  • GitHub 리포지토리:: https://github.com/Tongyi-MAI/Z-Image
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

Z-Image의 대상

  • 크리에이티브 디자이너창의적인 디자인에 필요한 고품질 이미지를 빠르게 생성하여 디자이너가 창의적인 아이디어를 빠르게 탐색하고 실현할 수 있도록 도와줍니다.
  • 콘텐츠 크리에이터중국어 및 영어 텍스트 렌더링 및 이미지 편집을 지원하여 소셜 미디어 이미지, 광고 디자인 등 텍스트가 포함된 시각적 콘텐츠 제작에 적합합니다.
  • 개발자 및 연구원오픈 소스 코드와 유연한 아키텍처는 개발자에게 풍부한 사용자 지정 및 개발 공간을 제공하여 2차 개발 및 연구 탐색에 적합합니다.
  • 비즈니스 사용자Apache 2.0 라이선스를 따르며 상용 프로젝트에 적용할 수 있으며 제품 디자인, 마케팅 자료 생성 및 기타 시나리오에 적합한 기업용 프로젝트에 적합합니다.
  • 개인 애호가낮은 비디오 메모리 장치 적응력과 빠른 생성 기능으로 개인 사용자가 쉽게 접근할 수 있어 이미지 생성에 관심이 있는 개인 사용자의 창의적인 탐색에 적합합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...