Aprendizagem pessoal com IA
e orientação prática

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Introdução geral

O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente, que se aplicam a muitos campos, como criação de arte, design de anúncios, desenvolvimento de jogos e assim por diante.

Os recursos dessa série de modelos estão agora on-line no "Chi Spectrum Clear Words" (chatglm.cn) e podem ser experimentados no Clear Words.

CogView3: um sistema eficiente de geração de imagens de texto baseado no modelo text2img-1 de difusão em cascata

 


CogView3: modelo de imagem de geração de texto de difusão em cascata para o Smart Spectrum Light Talk Open Source-1

Parte superior: Um carro cor-de-rosa. Parte inferior: Uma pilha de 3 cubos. Um cubo vermelho está na parte superior, sobre um cubo vermelho. O cubo vermelho está no meio, sobre um cubo verde. O cubo verde está na parte inferior.

 

Lista de funções

  • Geração em vários estágios: primeiro são geradas imagens de baixa resolução e, em seguida, a resolução da imagem é aumentada gradualmente por meio de um processo de difusão de relé, resultando em imagens de alta resolução de até 2048x2048.
  • Desempenho eficiente: o CogView3 reduz significativamente os custos de treinamento e inferência e, ao mesmo tempo, gera imagens de alta qualidade. Comparado ao SDXL, o atual modelo de código aberto de última geração, o tempo de inferência do CogView3 é apenas 1/10 do tempo.
  • Arquitetura inovadora: o CogView3 apresenta a mais recente arquitetura DiT (Diffusion Transformer), que usa programação de ruído de difusão Zero-SNR e combina mecanismos de atenção conjunta de texto e imagem para melhorar ainda mais o desempenho geral.
  • Código-fonte aberto: o código e o modelo do CogView3 têm código-fonte aberto no GitHub e podem ser baixados e usados livremente pelos usuários.

 

Usando a Ajuda

Instalação e registro

  1. Visite o site: Abra o site oficial do CogView3. GitHub.
  2. Baixar o código: clique no botão "Code" (Código) na página e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto ou use o comando git para baixá-lo:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
  3. Instalar dependências: certifique-se de que a biblioteca de difusores esteja instalada a partir da fonte:
tubulação instalar git+https://github.com/huggingface/diffusers.git

Processo de uso

  1. Otimização de pistas :
    • Embora a família de modelos CogView3 seja treinada com descrições de imagens longas, recomendamos enfaticamente reescrever as dicas usando modelos de linguagem grande (LLMs) antes de gerar texto para imagens, o que melhorará significativamente a qualidade da geração.
    • Execute o script a seguir para otimizar o prompt:
      python prompt_optimize.py --chave api "Chave da API de IA da Zhipu"--prompt {seu prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--modelo "glm-4-plus"
      
  2. Modelos de raciocínio (difusores) :
    • Primeiro, certifique-se de instalar a biblioteca de difusores a partir da fonte:
      tubulação instalar git+https://github.com/huggingface/diffusers.git
      
    • Em seguida, execute o seguinte código:
      fromdiffusers importCogView3PlusPipeline
      importtorch
      
      tubulação = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      prompt = "Um carro esportivo vermelho-cereja vibrante fica orgulhoso sob o sol brilhante, com seu exterior polido, liso e impecável, lançando um reflexo espelhado. O carro apresenta uma carroceria baixa e aerodinâmica, faróis angulares que olham para frente como olhos predadores e um conjunto de aros de corrida pretos de alto brilho que contrastam fortemente com o vermelho. Um toque sutil de cromo embeleza a grade e o escapamento, enquanto os vidros escurecidos sugerem um interior luxuoso e privado. A cena do carro transmite uma sensação de velocidade e elegância, como se o carro estivesse prestes a dar uma arrancada em uma estrada costeira, com as ondas azuis do oceano batendo ao fundo. batendo ao fundo".
      
      imagem = pipe(
          prompt=prompt,
          escala_de_orientação=7.0,
          num_images_per_prompt=1A seguir, uma lista de todas as etapas que foram realizadas nos últimos anos.
          num_inference_steps=50, , e
          largura=1024altura
          altura=1024,
      ).images[0]
      
      image.save("cogview3.png")
      
  3. Modelos de raciocínio (SAT) :
    • Consulte o tutorial do SAT para obter instruções passo a passo sobre inferência de modelos.

problemas comuns

  • Falha na instalação: certifique-se de que a versão do Python atenda aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
  • Qualidade da imagem: a especificidade da descrição do texto e a riqueza do conjunto de dados de treinamento afetarão os resultados das imagens geradas; recomenda-se usar uma descrição detalhada do texto e conjuntos de dados diversos para treinamento.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil