BAGEL - Modelo de base multimodal de código aberto lançado pelo Wordpress

Recursos mais recentes de IAPublicado há 4 meses Círculo de compartilhamento de IA

16.2K 00

O que é BAGEL?

O BAGEL é um modelo de base multimodal de código aberto da ByteDance com 14 bilhões de parâmetros, dos quais 7 bilhões estão ativos. O modelo é baseado na arquitetura MoT (Mixed Transformer Expert Architecture), que captura recursos de nível de pixel e de nível semântico de uma imagem com dois codificadores independentes e oferece suporte ao processamento eficiente de imagens, textos, vídeos e outros dados multimodais. O BAGEL oferece suporte à geração de texto para imagem, edição de imagens e previsão de quadros de vídeo, etc. O desempenho do modelo supera o de vários modelos de código aberto importantes em benchmarks de compreensão multimodal, como o Qwen2.5 -O BAGEL é pré-treinado em dados rotulados multimodais massivos, abrangendo dados de linguagem, imagem, vídeo e rede, e é capaz de aprender uma ampla variedade de recursos e padrões multimodais. Os modelos são adequados para cenários como criação de conteúdo, geração de cenas em 3D e experiência de interação com o usuário, fornecendo suporte técnico avançado para aplicativos multimodais.

Principais funções do BAGEL

Compreensão da fusão de imagens e textosCompreensão da relação entre imagens e texto para uma correspondência precisa.
Compreensão do conteúdo de vídeoAnálise de informações dinâmicas e conteúdo semântico em vídeos.
Geração de texto para imagemGeração de imagens de alta qualidade com base em descrições textuais.
Edição e modificação de imagensEdição de forma livre de imagens existentes.
Previsão de quadros de vídeoPrevisão de quadros futuros do vídeo com base em quadros anteriores: prevê quadros futuros do vídeo com base em quadros anteriores.
Compreensão e manipulação de cenas 3DReconhecer e manipular objetos tridimensionais: Reconhecer e manipular objetos tridimensionais.
Navegação mundialPath planning and navigation in a 3D environment (Planejamento de caminho e navegação em um ambiente 3D).
pesquisa multimodalRecuperação de imagens ou vídeos com base em texto.
Tarefa de fusão multimodalFusão de dados de diferentes modalidades para gerar resultados integrados.

Endereço do site oficial da BAGEL

Site do projeto::https://bagel-ai.org/
Repositório do Github::https://github.com/bytedance-seed/BAGEL
Biblioteca do modelo HuggingFace::https://huggingface.co/ByteDance-Seed/BAGEL
Documentos técnicos::https://arxiv.org/pdf/2505.14683
Experiência Dem Online::https://demo.bagel-ai.org/

Como usar o BAGEL

Acesso à biblioteca do modelo Hugging Face::
- Instalação de dependências::

pip install transformers

- Modelos de carregamento::

from transformers import AutoModel, AutoTokenizer

model_name = "ByteDance-Seed/BAGEL-7B-MoT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

- Usando o modelo::

text = "生成一个日落的图像"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Acesso ao repositório do GitHub::
- armazém de clones::

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL

- Instalação de dependências::

pip install -r requirements.txt

- Modelos de carregamento::

from bagel_model import BagelModel

model = BagelModel.load_from_checkpoint("path/to/checkpoint")

- Geração de imagens::

text = "生成一个日落的图像"
image = model.generate_image(text)
image.save("output_image.png")

Principais pontos fortes da BAGEL

Compreensão multimodal avançadaBAGEL: Com base em um design de codificador duplo, o BAGEL suporta a captura simultânea de recursos de nível de pixel e de nível semântico de uma imagem para obter uma compreensão abrangente dos dados multimodais.
Capacidade geradora de alta qualidadeGeração de imagens de alta qualidade com base em descrições de texto e suporte à edição de imagens de forma livre para necessidades criativas complexas.
Arquitetura de tecnologia avançadaBaseado no mecanismo de mistura de especialistas e no processo de tokenização, combinado com o pré-treinamento de dados em massa para melhorar a eficiência e o desempenho do modelo.
Ampla gama de cenários de aplicaçãoAplica-se a uma variedade de campos, como criação de conteúdo, geração de cenas em 3D, aprendizado visual, geração de anúncios criativos e experiência de interação com o usuário.
Treinamento e otimização eficientesTreinamento de precisão mista e treinamento distribuído: Com base no treinamento de precisão mista e no treinamento distribuído, ele melhora significativamente a eficiência do treinamento e reduz o consumo de recursos.
Código aberto e suporte da comunidadeComo um modelo de código aberto, o BAGEL fornece acesso ao código e ao modelo com suporte ativo da comunidade para facilitar a personalização e a otimização.

Para quem é o BAGEL

criador de conteúdoDesigners, artistas e anunciantes que precisam gerar imagens e vídeos de alta qualidade ou criar designs criativos.
desenvolvedoresDesenvolvedores de software e engenheiros que desejam integrar a funcionalidade multimodal (por exemplo, geração de imagens, processamento de vídeo) em seus projetos.
pesquisadorPesquisadores especializados nas áreas de aprendizado multimodal, inteligência artificial e aprendizado de máquina.
educadorProfessores e instituições educacionais que precisam apresentar conceitos complexos aos alunos por meio de imagens ou vídeos.
usuário corporativoNegócios em comércio eletrônico, publicidade, entretenimento e outros setores que precisam melhorar a experiência do usuário ou a eficiência da criação de conteúdo.