Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Introdução geral

O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente, que se aplicam a muitos campos, como criação de arte, design de anúncios, desenvolvimento de jogos e assim por diante.

Os recursos dessa série de modelos estão agora on-line no "Chi Spectrum Clear Words" (chatglm.cn) e podem ser experimentados no Clear Words.

CogView3:基于级联扩散的 text2img 模型,高效的文本生成图像系统-1

 


CogView3:智谱轻言开源的级联扩散文本生成图像模型-1

Parte superior: Um carro cor-de-rosa. Parte inferior: Uma pilha de 3 cubos. Um cubo vermelho está na parte superior, sobre um cubo vermelho. O cubo vermelho está no meio, sobre um cubo verde. O cubo verde está na parte inferior.

 

Lista de funções

  • Geração em vários estágios: primeiro são geradas imagens de baixa resolução e, em seguida, a resolução da imagem é aumentada gradualmente por meio de um processo de difusão de relé, resultando em imagens de alta resolução de até 2048x2048.
  • Desempenho eficiente: o CogView3 reduz significativamente os custos de treinamento e inferência e, ao mesmo tempo, gera imagens de alta qualidade. Comparado ao SDXL, o atual modelo de código aberto de última geração, o tempo de inferência do CogView3 é apenas 1/10 do tempo.
  • Arquitetura inovadora: o CogView3 apresenta a mais recente arquitetura DiT (Diffusion Transformer), que usa programação de ruído de difusão Zero-SNR e combina mecanismos de atenção conjunta de texto e imagem para melhorar ainda mais o desempenho geral.
  • Código-fonte aberto: o código e o modelo do CogView3 têm código-fonte aberto no GitHub e podem ser baixados e usados livremente pelos usuários.

 

Usando a Ajuda

Instalação e registro

  1. Visite o site: Abra o site oficial do CogView3. GitHub.
  2. Baixar o código: clique no botão "Code" (Código) na página e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto ou use o comando git para baixá-lo:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
  3. Instalar dependências: certifique-se de que a biblioteca de difusores esteja instalada a partir da fonte:
pip install git+https://github.com/huggingface/diffusers.git

Processo de uso

  1. Otimização de pistas :
    • Embora a família de modelos CogView3 seja treinada com descrições de imagens longas, recomendamos enfaticamente reescrever as dicas usando modelos de linguagem grande (LLMs) antes de gerar texto para imagens, o que melhorará significativamente a qualidade da geração.
    • Execute o script a seguir para otimizar o prompt:
      python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
      
  2. Modelos de raciocínio (difusores) :
    • Primeiro, certifique-se de instalar a biblioteca de difusores a partir da fonte:
      pip install git+https://github.com/huggingface/diffusers.git
      
    • Em seguida, execute o seguinte código:
      fromdiffusers importCogView3PlusPipeline
      importtorch
      
      pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
      
      image = pipe(
          prompt=prompt,
          guidance_scale=7.0,
          num_images_per_prompt=1,
          num_inference_steps=50,
          width=1024,
          height=1024,
      ).images[0]
      
      image.save("cogview3.png")
      
  3. Modelos de raciocínio (SAT) :
    • Consulte o tutorial do SAT para obter instruções passo a passo sobre inferência de modelos.

problemas comuns

  • Falha na instalação: certifique-se de que a versão do Python atenda aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
  • Qualidade da imagem: a especificidade da descrição do texto e a riqueza do conjunto de dados de treinamento afetarão os resultados das imagens geradas; recomenda-se usar uma descrição detalhada do texto e conjuntos de dados diversos para treinamento.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum
pt_BRPortuguês do Brasil