CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Recursos mais recentes de IAAtualizado há 11 meses Círculo de compartilhamento de IA

11.1K 00

Introdução geral

O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente, que se aplicam a muitos campos, como criação de arte, design de anúncios, desenvolvimento de jogos e assim por diante.

Os recursos dessa série de modelos estão agora on-line no "Chi Spectrum Clear Words" (chatglm.cn) e podem ser experimentados no Clear Words.

Parte superior: Um carro cor-de-rosa. Parte inferior: Uma pilha de 3 cubos. Um cubo vermelho está na parte superior, sobre um cubo vermelho. O cubo vermelho está no meio, sobre um cubo verde. O cubo verde está na parte inferior.

Lista de funções

Geração em vários estágios: primeiro são geradas imagens de baixa resolução e, em seguida, a resolução da imagem é aumentada gradualmente por meio de um processo de difusão de relé, resultando em imagens de alta resolução de até 2048x2048.
Desempenho eficiente: o CogView3 reduz significativamente os custos de treinamento e inferência e, ao mesmo tempo, gera imagens de alta qualidade. Comparado ao SDXL, o atual modelo de código aberto de última geração, o tempo de inferência do CogView3 é apenas 1/10 do tempo.
Arquitetura inovadora: o CogView3 apresenta a mais recente arquitetura DiT (Diffusion Transformer), que usa programação de ruído de difusão Zero-SNR e combina mecanismos de atenção conjunta de texto e imagem para melhorar ainda mais o desempenho geral.
Código-fonte aberto: o código e o modelo do CogView3 têm código-fonte aberto no GitHub e podem ser baixados e usados livremente pelos usuários.

Usando a Ajuda

Instalação e registro

Visite o site: Abra o site oficial do CogView3. GitHub.
Baixar o código: clique no botão "Code" (Código) na página e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto ou use o comando git para baixá-lo:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
Instalar dependências: certifique-se de que a biblioteca de difusores esteja instalada a partir da fonte:

pip install git+https://github.com/huggingface/diffusers.git

Processo de uso

Otimização de pistas :
- Embora a família de modelos CogView3 seja treinada com descrições de imagens longas, recomendamos enfaticamente reescrever as dicas usando modelos de linguagem grande (LLMs) antes de gerar texto para imagens, o que melhorará significativamente a qualidade da geração.
- Execute o script a seguir para otimizar o prompt:
```
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
```

Modelos de raciocínio (difusores) :

Primeiro, certifique-se de instalar a biblioteca de difusores a partir da fonte:
```
pip install git+https://github.com/huggingface/diffusers.git
```

Em seguida, execute o seguinte código:

fromdiffusers importCogView3PlusPipeline
importtorch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

Modelos de raciocínio (SAT) :
- Consulte o tutorial do SAT para obter instruções passo a passo sobre inferência de modelos.

problemas comuns

Falha na instalação: certifique-se de que a versão do Python atenda aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
Qualidade da imagem: a especificidade da descrição do texto e a riqueza do conjunto de dados de treinamento afetarão os resultados das imagens geradas; recomenda-se usar uma descrição detalhada do texto e conjuntos de dados diversos para treinamento.

Recursos mais recentes de IA Geração de imagens on-line # AI # Projeto de código aberto AI Java

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Wenyan: embelezar artigos Markdown com um clique, adaptar-se a vários formatos de plataforma de mídia própria (cliente local de código aberto)

Recursos mais recentes de IA # Projeto de código aberto AI Java

7 meses atrás

010.2K

AI Toolkit by Ostris：Stable Diffusion与FLUX.1模型训练工具包

Kit de ferramentas de IA da Ostris: Difusão estável com o kit de ferramentas de treinamento de modelos FLUX.1

Recursos mais recentes de IA # AI Auxiliares de geração de imagens # Projeto de código aberto AI Java # Ajuste fino do modelo grande

6 meses atrás

015.3K

ChatOllama: interface de usuário nativa de aplicativo de bate-papo em tempo real baseada em Nuxt 3 e Ollama

Recursos mais recentes de IA # Projeto de código aberto AI Java # Aplicativo de bate-papo localizado com IA # Recuperação de conhecimento e estrutura RAG

11 meses atrás

014.1K

Pet TA - produto de interação com animais de estimação com IA lançado pela Jingdong

Recursos mais recentes de IA

2 meses atrás

011.2K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Introdução geral

Lista de funções