Introdução geral
O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente, que se aplicam a muitos campos, como criação de arte, design de anúncios, desenvolvimento de jogos e assim por diante.
Os recursos dessa série de modelos estão agora on-line no "Chi Spectrum Clear Words" (chatglm.cn) e podem ser experimentados no Clear Words.
Lista de funções
- Geração em vários estágios: primeiro são geradas imagens de baixa resolução e, em seguida, a resolução da imagem é aumentada gradualmente por meio de um processo de difusão de relé, resultando em imagens de alta resolução de até 2048x2048.
- Desempenho eficiente: o CogView3 reduz significativamente os custos de treinamento e inferência e, ao mesmo tempo, gera imagens de alta qualidade. Comparado ao SDXL, o atual modelo de código aberto de última geração, o tempo de inferência do CogView3 é apenas 1/10 do tempo.
- Arquitetura inovadora: o CogView3 apresenta a mais recente arquitetura DiT (Diffusion Transformer), que usa programação de ruído de difusão Zero-SNR e combina mecanismos de atenção conjunta de texto e imagem para melhorar ainda mais o desempenho geral.
- Código-fonte aberto: o código e o modelo do CogView3 têm código-fonte aberto no GitHub e podem ser baixados e usados livremente pelos usuários.
Usando a Ajuda
Instalação e registro
- Visite o site: Abra o site oficial do CogView3. GitHub.
- Baixar o código: clique no botão "Code" (Código) na página e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto ou use o comando git para baixá-lo:
git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git
. - Instalar dependências: certifique-se de que a biblioteca de difusores esteja instalada a partir da fonte:
tubulação instalar git+https://github.com/huggingface/diffusers.git
Processo de uso
- Otimização de pistas :
- Embora a família de modelos CogView3 seja treinada com descrições de imagens longas, recomendamos enfaticamente reescrever as dicas usando modelos de linguagem grande (LLMs) antes de gerar texto para imagens, o que melhorará significativamente a qualidade da geração.
- Execute o script a seguir para otimizar o prompt:
python prompt_optimize.py --chave api "Chave da API de IA da Zhipu"--prompt {seu prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--modelo "glm-4-plus"
- Modelos de raciocínio (difusores) :
- Primeiro, certifique-se de instalar a biblioteca de difusores a partir da fonte:
tubulação instalar git+https://github.com/huggingface/diffusers.git
- Em seguida, execute o seguinte código:
fromdiffusers importCogView3PlusPipeline importtorch tubulação = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda") pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() prompt = "Um carro esportivo vermelho-cereja vibrante fica orgulhoso sob o sol brilhante, com seu exterior polido, liso e impecável, lançando um reflexo espelhado. O carro apresenta uma carroceria baixa e aerodinâmica, faróis angulares que olham para frente como olhos predadores e um conjunto de aros de corrida pretos de alto brilho que contrastam fortemente com o vermelho. Um toque sutil de cromo embeleza a grade e o escapamento, enquanto os vidros escurecidos sugerem um interior luxuoso e privado. A cena do carro transmite uma sensação de velocidade e elegância, como se o carro estivesse prestes a dar uma arrancada em uma estrada costeira, com as ondas azuis do oceano batendo ao fundo. batendo ao fundo". imagem = pipe( prompt=prompt, escala_de_orientação=7.0, num_images_per_prompt=1A seguir, uma lista de todas as etapas que foram realizadas nos últimos anos. num_inference_steps=50, , e largura=1024altura altura=1024, ).images[0] image.save("cogview3.png")
- Primeiro, certifique-se de instalar a biblioteca de difusores a partir da fonte:
- Modelos de raciocínio (SAT) :
- Consulte o tutorial do SAT para obter instruções passo a passo sobre inferência de modelos.
problemas comuns
- Falha na instalação: certifique-se de que a versão do Python atenda aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
- Qualidade da imagem: a especificidade da descrição do texto e a riqueza do conjunto de dados de treinamento afetarão os resultados das imagens geradas; recomenda-se usar uma descrição detalhada do texto e conjuntos de dados diversos para treinamento.